您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 【技術(shù)干貨】自然語言語義相似度計算方法

【技術(shù)干貨】自然語言語義相似度計算方法

時間：2018-05-17 17:11:36來源：網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語：?總體來看，文本相似度的計算方法主要分為兩大類：一類是基于統(tǒng)計學(xué)的計算方法，此種方法需要大規(guī)模的語料庫，并且在計算時沒有考慮文本的句子結(jié)構(gòu)信息和語義信息，計算的結(jié)果有時會與人對自然語言的理解不相符合；另一類是基于語義理解的計算方法，這種方法不需要大規(guī)模的語料庫，但需要依賴于具有層次結(jié)構(gòu)關(guān)系的語義詞典，計算結(jié)果相對準確，與人對自然語言的理解較為符合。

計算機對主觀題的自動評閱準確與否，主要取決于其對文本相似度的計算是否準確。由于文本相似度計算在文檔復(fù)制檢查、信息檢索和機器翻譯等領(lǐng)域都有十分廣泛的應(yīng)用，所以，近年來有越來越多的學(xué)者致力于文本相似度算法的研究?？傮w來看，文本相似度的計算方法主要分為兩大類：一類是基于統(tǒng)計學(xué)的計算方法，此種方法需要大規(guī)模的語料庫，并且在計算時沒有考慮文本的句子結(jié)構(gòu)信息和語義信息，計算的結(jié)果有時會與人對自然語言的理解不相符合；另一類是基于語義理解的計算方法，這種方法不需要大規(guī)模的語料庫，但需要依賴于具有層次結(jié)構(gòu)關(guān)系的語義詞典，計算結(jié)果相對準確，與人對自然語言的理解較為符合。下面介紹幾種經(jīng)典的文本相似度計算方法，并對他們各自的性能進行簡要的分析。

1、基于向量空間模型的計算方法

向量空間模型簡稱VSM，是VectorSpaceModel的縮寫，是近些年使用效果較好、且應(yīng)用較為廣泛的一種信息檢索模型。在此模型中，文本被看作是由一系列相互獨立的詞語組成的，若文檔D中包含詞語t1,t2,…,tN，則文檔表示為D（t1,t2,…,tN）。由于文檔中詞語對文檔的重要程度不同，并且詞語的重要程度對文本相似度的計算有很大的影響，因而可對文檔中的每個詞語賦以一個權(quán)值w，以表示該詞的權(quán)重，其表示如下：D（t1,w1；t2,w2；…,tN，wN），可簡記為D（w1,w2,…,wN），此時的wk即為詞語tk的權(quán)重，1≤k≤N。這樣，就把文本表示成了向量的形式，同時兩文本的相似度問題也就可以通過兩向量之間的夾角大小來計算了，夾角越大，兩文本的相似度就越低。

基于向量空間模型的計算方法假設(shè)文本中的詞語是相互獨立的，因而可以用向量的形式來表示，這種表示方法簡化了文本中詞語之間的復(fù)雜關(guān)系，也使得文本的相似程度變得可以計算了。向量表示方法中詞語的權(quán)值應(yīng)該能夠顯示出該詞語對整個文本的重要程度，一般用經(jīng)過統(tǒng)計得到的詞頻來表示；向量的所有分量組合在一起，應(yīng)該能夠?qū)⒋宋谋九c其他文本區(qū)分開。

大量統(tǒng)計結(jié)果表明，文本中出現(xiàn)次數(shù)最多的詞語往往是反映句子語法結(jié)構(gòu)的虛詞以及文本作者想要闡述某個問題時所用的核心詞，如果是圍繞同一核心問題的文本，其核心詞匯應(yīng)該是類似的，所以這兩類詞對文本相似度的計算都是沒有用的。因此，最高頻詞和低頻詞都不適宜做文本的特征詞，只有詞頻介于最高頻和低頻之間的這部分詞匯才適合做特征詞。

在文本中出現(xiàn)頻率較高的詞語應(yīng)該具有較高的權(quán)值，因此，在計算詞語對文本的權(quán)重時，應(yīng)考慮詞語在文本中的出現(xiàn)頻率，記為tf。僅考慮這一項是不夠的，如果某一詞語不僅在一個文本中出現(xiàn)，而是在文本集中的很多個文本中都有出現(xiàn)，例如“的”字在中文文本中的出現(xiàn)頻率應(yīng)該是相當高的，但它對于我們區(qū)分各個文本是沒有幫助的，也就是說，這樣的詞語是不具備鑒別能力的。因而，在計算詞語權(quán)重時還應(yīng)考慮詞語的文檔頻率（df）,即含有該詞的文檔數(shù)量。由于詞語的權(quán)重與文檔頻率成反比，又引出與文檔頻率成反比關(guān)系的倒置文檔頻率（idf），其計算公式為idf=logN/n（其中N為文檔集中全部文檔的數(shù)量，n為包含某詞語的文檔數(shù)）。由此得出特征詞t在文檔D中的權(quán)重weight(t,D)=tf(t,D)*idf(t)。用tf*idf公式計算特征項的權(quán)重，既注重了詞語在文本中的重要性，又注重了詞的鑒別能力。因此,有較高的tf*idf值的詞在文檔中一定是重要的,同時它一定在其它文檔中出現(xiàn)很少。因此我們可以通過這種方法來選擇把那些詞語作為文本向量的特征詞。

特征詞選擇出來之后，就能確定文本的向量表示了，有了文本向量，我們就可以通過此向量計算文本的相似度了。相似度的計算方法很多，其中包括：

內(nèi)積法（InnerProduct）

余弦法（Cosine）

Dice系數(shù)法（DiceCoefficient）

Jaccard系數(shù)法（JaccardCoefficient）

2、基于漢明距離的計算方法

上述方法是基于向量空間技術(shù)的，把文本表示成空間中的向量，通過計算向量之間的夾角來得出文本之間的相似程度。而基于漢明距離的文本相似度計算方法與上述方法不同，不是基于向量空間技術(shù)，而是依賴于編碼理論中的漢明距離，通過計算兩文本之間的漢明距離來計算兩文本的相似度。此種方法的優(yōu)點在于運算過程比較簡便。

首先介紹一下什么是編碼理論中的漢明距離。漢明距離是描述兩個長度為n的碼字之間的距離，例如計算碼字x=(x1x2…xi…xn)與y=(y1y2…yi…yn)之間的距離，其計算公式如下：

其中運算符號⊕表示模2加運算，xi和yi的取值為0或1。通過此公式計算得出的數(shù)據(jù)D(x,y)表示的是碼字x與y中不同符號的數(shù)目，也就反映出了碼字x與y之間的差異，D(x,y)值越大說明兩個碼字相似程度越低。

利用此方法計算文本之間的相似度時，首先提取出文本的一些相關(guān)信息，例如文中的關(guān)鍵字等，然后將其排列成字碼形式，文本的信息就通過這些字碼表現(xiàn)出來，形成文本與字碼的一一對應(yīng)關(guān)系。例如，文本D就可以表示成D=(10100111001101011)，其中的0和1表示的是其所在位置對應(yīng)的文本信息在文本中的狀態(tài)，如果0表示文本D在其對應(yīng)位置上的信息是不存在的，那么1就表示文本D在其對應(yīng)位置上的信息是存在的；反過來表示也是可以的。根據(jù)上面的闡述我們就可以很容易的將文本表示成碼字的形式，想要求出兩個文本之間的相似度，就可以依據(jù)上面公式的計算結(jié)果得出。如果碼字的長度為n，則通過上述公式計算出的兩碼字之間的距離值會介于0和n之間，當計算結(jié)果為n時，說明兩文本的所有信息均不相同，反之，當結(jié)果為0時，說明兩文本的所有信息都相同。這樣的推算方法顯然很不直觀，而且如果n值不同，文本相似度的大小也會很難比較。所以，我們首先要確定整個文本集的碼字集，然后將每個文本表示成其對應(yīng)的碼字，對于文本D1=(x1x2…xi…xn)和D2=(y1y2…yi…yn)，定義其相似度計算公式為：

其中，xi和yi分別為文本D1和D2對應(yīng)的碼字中第i位的分量，其值0或1，⊕仍然是模2加運算，此種運算對計算機來說，十分方便快捷。運用Sim（D1,D2）公式計算出來的文本相似度，其值介于0和1之間，當結(jié)果0時，說明兩個文本完全不相似，當結(jié)果為1時，說明兩個文本很相似，符合人們正常的認知規(guī)律。

基于漢明距離的文本相似度計算方法沒有用到基于向量空間技術(shù)中使用的大量復(fù)雜的運算，只是用到計算機運算起來十分快捷的模2加等運算，因而，計算速度比較快。另外，這種方法所用的文本信息不僅僅限于關(guān)鍵字等互相獨立的信息，提供了聯(lián)合的描述文本信息的可能。但是，如何選擇和排列文本信息，使其構(gòu)成與文本一一對應(yīng)的碼字集合，是運用此方法進行文本相似度計算過程中有待于進一步研究的難點問題。

3、基于語義理解的計算方法

基于語義理解的文本相似度計算方法與基于統(tǒng)計學(xué)的計算方法不同，此方法不需要大規(guī)模的語料庫，也不需要長時間和大量的訓(xùn)練，一般需要一個具有層次結(jié)構(gòu)關(guān)系的語義詞典，依據(jù)概念之間的上下位關(guān)系或同義關(guān)系進行計算。文本的相似性計算大多是依賴于組成此文本的詞語，基于語義理解的相似度計算方法也不例外，一般都是通過計算語義結(jié)構(gòu)樹中兩詞語之間的距離來計算詞語的相似度。因此，一般會用到一些具有層次結(jié)構(gòu)關(guān)系的語義詞典，如WordNet、HowNet、同義詞詞林等?；谡Z義詞典的文本相似度計算方法很多，有的通過計算詞語在WordNet中由上下位關(guān)系所構(gòu)成的最短路徑來計算詞語的相似度；也有的根據(jù)兩詞語在詞典中的公共祖先結(jié)點所具有的最大信息量來計算詞語的相關(guān)度；國內(nèi)也有通過知網(wǎng)或同義詞詞林來計算詞語的語義相似度的方法。

標簽：

分享到：

上一篇：英威騰MH500電液伺服故障速查...

下一篇：振動傳感器選擇指南，如何選...

中國傳動網(wǎng)版權(quán)與免責聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責任。

相關(guān)資訊

技術(shù)熱點