技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 用于文本情感分析的深度學(xué)習(xí)方法綜述(上)

用于文本情感分析的深度學(xué)習(xí)方法綜述(上)

時(shí)間:2018-11-21 19:22:39來源:北京大學(xué)深圳研究生學(xué)院 現(xiàn)代信號(hào)與數(shù)據(jù)處理實(shí)驗(yàn)室

導(dǎo)語:?文本情感分析旨在對蘊(yùn)涵在文本中的觀點(diǎn)和情感進(jìn)行挖掘和分析,進(jìn)而可以在個(gè)性化服務(wù)、推薦系統(tǒng)、輿情監(jiān)測和產(chǎn)品調(diào)研等應(yīng)用方面提升性能。

摘要:文本情感分析旨在對蘊(yùn)涵在文本中的觀點(diǎn)和情感進(jìn)行挖掘和分析,進(jìn)而可以在個(gè)性化服務(wù)、推薦系統(tǒng)、輿情監(jiān)測和產(chǎn)品調(diào)研等應(yīng)用方面提升性能。對于文本情感分析,從機(jī)器學(xué)習(xí)的角度,一般可以把它轉(zhuǎn)化成分類問題,其中處理的關(guān)鍵在于文本表示、特征提取以及分類器模型建立,而傳統(tǒng)方法中最為核心的是情感特征詞典構(gòu)建。

近年來,深度學(xué)習(xí)方法在圖像、語音等諸多領(lǐng)域取得了令人矚目的進(jìn)展,相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,該方法的最大優(yōu)勢就是可以從大量的數(shù)據(jù)樣本中自動(dòng)地學(xué)習(xí)出豐富、有效的特征,從而獲得更好的效果。已有研究表明,在文本表示層面,詞語向量表示方法可以獲取文本的語義、語法以及自身結(jié)構(gòu)信息,為情感分析研究提供堅(jiān)實(shí)基礎(chǔ),并成為當(dāng)前該領(lǐng)域的研究熱點(diǎn)。本文首先介紹了文本情感分析的概念和問題分類,對深度學(xué)習(xí)在文本情感分析中的相關(guān)工作進(jìn)行梳理,詳細(xì)討論了文本情感分析中的文本表示方法以及深度學(xué)習(xí)模型,介紹了當(dāng)前深度學(xué)習(xí)在文本情感分析應(yīng)用中存在的問題,并對未來該領(lǐng)域研究方向和趨勢進(jìn)行了展望。

1  引言

在剛剛結(jié)束的人機(jī)世紀(jì)圍棋對抗賽中,谷歌公司出品的人工智能代表AlphaGo以4:1擊敗了圍棋九段李世石,人們驚嘆人工智能進(jìn)步的同時(shí)更為關(guān)注AlphaGo背后的核心算法——深度學(xué)習(xí)。的確,近年來,深度學(xué)習(xí)在圖像、語音識(shí)別、機(jī)器翻譯等領(lǐng)域任務(wù)中都取得了革命性的性能提升,掀起全民追捧深度學(xué)習(xí)的熱潮,AlphaGo的成功讓這股熱潮達(dá)到頂點(diǎn)。人們不僅要問:深度學(xué)習(xí)是否在人類最為獨(dú)特的情感分析世界也扮演獨(dú)特的角色呢?本文并不試圖回答這個(gè)問題,而是從技術(shù)進(jìn)步角度對其在文本情感分析領(lǐng)域進(jìn)行綜述和展望。

文本情感分析(SentimentAnalysis),也稱為觀點(diǎn)挖掘(OpinionMining),通常被定義為對文本中所表達(dá)的喜、怒、哀、樂和批評(píng)、贊揚(yáng)等觀點(diǎn)、情感和情緒等的計(jì)算學(xué)習(xí),屬于情感計(jì)算(AffectionComputing)[67][91]領(lǐng)域的子問題。隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)在生活中各個(gè)領(lǐng)域內(nèi)的應(yīng)用,文本信息越來越豐富多樣,并且蘊(yùn)涵著巨大的商業(yè)、政治和學(xué)術(shù)價(jià)值,文本情感分析逐步成為學(xué)術(shù)界以及工業(yè)界中的研究熱點(diǎn)。

回顧文本情感分析問題研究歷程,國外(特別是英文母語國家)研究起步早,有很多方法被提出,但是國內(nèi)對于該問題的研究還不充分,特別是針對中文文本的情感分析方法,目前比較欠缺。由于中文特有的一些特征,很多針對英文文本的方法無法直接使用。因此,對當(dāng)前文本情感分析以及處理方法研究進(jìn)展進(jìn)行梳理總結(jié),對中文文本情感分析更有意義和需要。

而現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)可以說是文本情感分析的核心工具,在近幾年,深度學(xué)習(xí)方法在許多任務(wù)突出表現(xiàn)正逐步演化成功能最強(qiáng)、最流行的人工智能工具,其在文本情感分析中應(yīng)用已成為最前沿和最活躍的領(lǐng)域。事實(shí)上,與深度學(xué)習(xí)相關(guān)的多層神經(jīng)網(wǎng)絡(luò)的概念在更早之前也已經(jīng)被提出,但當(dāng)時(shí)由于各種原因,深度網(wǎng)絡(luò)模型沒有取得良好的效果,并沒有被人們認(rèn)可,有關(guān)深度學(xué)習(xí)相關(guān)的發(fā)展歷史,可以參看胡曉林[104]在《人工智能通訊》中的總結(jié)。深度神經(jīng)網(wǎng)絡(luò)相關(guān)思想和方法在2006年由Hinton等人[33]以“深度學(xué)習(xí)”的概念再次提出,之后,深度學(xué)習(xí)方法在語音識(shí)別、圖像識(shí)別、語音合成、文字翻譯等領(lǐng)域中取得了令人矚目的成績,許多研究人員投入對深度學(xué)習(xí)方法的模型、訓(xùn)練以及應(yīng)用場景中的研究中去。針對文本情感分析問題,也已經(jīng)有不少研究人員嘗試使用深度學(xué)習(xí)方法進(jìn)行處理,并且取得了較大的效果提升。總結(jié)文本情感分析的深度學(xué)習(xí)方法可以幫助我們理清該領(lǐng)域當(dāng)前研究動(dòng)態(tài)。

 因此,本文主要對文本情感分析的相關(guān)概念和一般方法進(jìn)行梳理,對采用深度學(xué)習(xí)方法進(jìn)行文本情感分析方法進(jìn)行詳細(xì)介紹和總結(jié),為了方便表述,在表1中給出文章使用的英文縮略詞對照表。文章后續(xù)內(nèi)容安排如下:第1節(jié)介紹文本情感分析的研究現(xiàn)狀,對文本情感分析的相關(guān)概念以及主要方法進(jìn)行總結(jié);第2節(jié)介紹文本處理相關(guān)領(lǐng)域常用的文本表示方法,并著重介紹目前被廣大研究人員使用的連續(xù)詞語向量表示方法;第3節(jié)對當(dāng)前研究人員使用較多的深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行介紹,并著重介紹如何使用這些模型進(jìn)行文本情感分析;第4節(jié)對應(yīng)用于文本情感分析的深度學(xué)習(xí)方法進(jìn)行總結(jié),闡述當(dāng)前深度學(xué)習(xí)方法在文本情感分析上的優(yōu)勢與不足,介紹未來可能的研究方向與發(fā)展趨勢。

表1英文縮略詞對照表

2  文本情感分析

2.1問題定義與分類

文本情感分析的目標(biāo)通常是挖掘文本中所表達(dá)的觀點(diǎn)以及情感,可以分為主題相關(guān)的情感分析以及主題無關(guān)的情感分析。主題相關(guān)所指的是除了獲取文本的情感極性,還需要抽取文本中的相關(guān)主題,關(guān)注于對某個(gè)事件、物品的哪種屬性具有什么樣的觀點(diǎn)與評(píng)價(jià)。主題相關(guān)的情感分析也稱為基于屬性的情感分析(Aspect-BasedSentimentAnalysis),LiuB等人[48][99]對屬性的抽取以及主題相關(guān)的情感分析給出了很好的問題定義和方法總結(jié)。主題無關(guān)的情感分析,單純判斷一個(gè)文檔或者一句話的情感極性,而不考慮情感所針對的主題或者屬性[94]。目前來說,大多數(shù)方法都是針對主題無關(guān)的文本情感分析,本文后續(xù)的方法綜述以及深度學(xué)習(xí)方法介紹,都是針對主題無關(guān)的文本情感分析。

文本情感分析除了根據(jù)是否與主題相關(guān)進(jìn)行劃分,還有很多其他劃分方法。從情感類別的劃分粒度上看,在粗粒度上可以分為文本主觀性(Subjectivity)判斷和文本傾向性(Orientation)判斷,主觀性偏重于判斷文本中是否含有主觀情感,傾向性側(cè)重于分析文本中所包含情感的正負(fù);在較細(xì)粒度上,文本情感分析可以對文本中蘊(yùn)涵的情感進(jìn)行細(xì)微情感類別的劃分,如人的基本七種情感——憤怒(anger)、厭惡(disgust)、恐懼(fear)、高興(happiness)、喜好(like)、悲傷(sadness)、驚訝(surprise),在Plutchik的情感模型中[68]則對人類情感進(jìn)行了更細(xì)致的劃分,將人類情感分成了八種基本情感以及八種復(fù)合情感,如圖1所示。從處理語料的粒度上來看,文本情感分析可以分為篇章級(jí)別、語句級(jí)別以及詞語級(jí)別,即一篇文檔、一句話和一個(gè)單詞所蘊(yùn)涵的情感。從機(jī)器學(xué)習(xí)的角度來說,文本情感分析是一種二分或者多分類問題,因此文本情感分析也常常被稱為文本情感分類(SentimentClassification)。圖2對上述有關(guān)文本情感分析相關(guān)概念和分類體系進(jìn)行總結(jié),加粗表示研究、應(yīng)用較多。

文本情感分析的應(yīng)用場景一般是對新聞、博客、貼吧、論壇、微博、以及電商網(wǎng)站上的商品(各種產(chǎn)品以及服務(wù))評(píng)論文本中包含的情感進(jìn)行提取和分析,為輿論監(jiān)督、時(shí)事熱點(diǎn)跟蹤、新聞推薦、商品評(píng)價(jià)等應(yīng)用提供基礎(chǔ)數(shù)據(jù)。相對其他文本數(shù)據(jù),微博和商品評(píng)論往往文本數(shù)量多、實(shí)時(shí)性高、包含信息豐富,蘊(yùn)涵潛在價(jià)值更大,并且由于微博和商品評(píng)論文本自身具有文本長度較短、用語不規(guī)范現(xiàn)象以及新興流行詞匯較多等特征,對這些文本進(jìn)行情感分析具有更大的學(xué)術(shù)以及技術(shù)挑戰(zhàn),因而對于這兩種文本的情感分析方法研究具有更大的學(xué)術(shù)和實(shí)用價(jià)值。

2.2文本情感分析的典型方法

對于文本情感分析問題,目的在于將分析無結(jié)構(gòu)化的目標(biāo)情感文本轉(zhuǎn)化為計(jì)算機(jī)容易識(shí)別和處理的結(jié)構(gòu)化文本,需要對其有意義的信息單元識(shí)別和判斷,進(jìn)而獲得評(píng)價(jià)主體和評(píng)價(jià)觀點(diǎn)信息。獲取評(píng)價(jià)觀點(diǎn)信息常用的方法主要分為基于詞典與規(guī)則的方法,基于一般機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法,前兩者的基礎(chǔ)都在于情感詞典的構(gòu)建,情感詞典的質(zhì)量直接決定了后續(xù)情感判斷。

基于詞典與規(guī)則的方法,一般是用已有的知識(shí)資源,如WordNet等來構(gòu)建情感詞典,然后基于情感詞典,構(gòu)建規(guī)則進(jìn)行情感的判斷[43][96][44]。一種簡單的規(guī)則可以如下構(gòu)建:統(tǒng)計(jì)文本中包含正負(fù)情感詞的個(gè)數(shù),按照表2的規(guī)則進(jìn)行情感極性判斷。

表2基于簡單規(guī)則的情感極性判斷

這種方法其實(shí)是將情感詞看作具有一樣的情感強(qiáng)度,如果構(gòu)建出含有不同強(qiáng)度情感詞的情感詞典,如正負(fù)情感各分五級(jí),也就是每個(gè)詞語的情感強(qiáng)度分布在[-5,5]之間,可以把文本中所含情感詞的強(qiáng)度值相加,根據(jù)整體情感強(qiáng)度的正負(fù)來判斷文本情感的傾向。

基于機(jī)器學(xué)習(xí)的方法,首先由PangB等人[63]提出,在他們的方法中,利用情感詞典構(gòu)建文本的特征表示,然后使用樸素貝葉斯(NaiveBayes,NB)、支持向量機(jī)(SupportVectorMachine,SVM)以及最大熵(MaximumEntropy,ME)模型進(jìn)行情感的正負(fù)分類。在Pang之后,很多人開始嘗試使用機(jī)器學(xué)習(xí)方法進(jìn)行文本情感分析,提出了很多方法[4][19][22][95]?;跈C(jī)器學(xué)習(xí)的方法,把文本情感分析看作一種有監(jiān)督或者半監(jiān)督的分類問題,分類器一般選用SVM,NB以及ME,主要工作在于如何構(gòu)建、學(xué)習(xí)更具表征能力的特征。

對于機(jī)器學(xué)習(xí)方法,一個(gè)很大的困難就是訓(xùn)練數(shù)據(jù)的獲取,通過人工標(biāo)注的方法可以獲取訓(xùn)練樣本,但是這種方法很耗費(fèi)人力,無法獲取大量的標(biāo)注數(shù)據(jù)。對于微博、評(píng)論等文本來說,可以利用文本中的表情符號(hào)來對文本進(jìn)行標(biāo)注[1][62][100],這種標(biāo)注方法會(huì)引入一些噪聲,但是可以很方便的獲取大量訓(xùn)練數(shù)據(jù),依然可以獲得很好的效果。

基于深度學(xué)習(xí)的文本情感分析方法主要是指基于構(gòu)建的深度網(wǎng)絡(luò)模型進(jìn)行文本建模、特征提取以及情感分類。深度神經(jīng)網(wǎng)絡(luò)可以具備很強(qiáng)的數(shù)據(jù)特征表示能力,由于多個(gè)非線性隱含層的存在,一個(gè)多層次的神經(jīng)網(wǎng)絡(luò)幾乎可以學(xué)習(xí)到任意分布的數(shù)據(jù)特征[6]。深度網(wǎng)絡(luò)的最大優(yōu)勢就是可以自動(dòng)地學(xué)習(xí)出多層次的特征表示,這些特征表示被逐層學(xué)習(xí)到并且越在高層越接近語義。自動(dòng)地學(xué)習(xí)特征可以省去很多耗費(fèi)人力的特征提取工作,并且可以獲得適用范圍很廣的特征表示。按照網(wǎng)絡(luò)結(jié)構(gòu)的不同,我們可以將目前應(yīng)用于文本情感分析的深度網(wǎng)絡(luò)分為前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetworks,FNNs)、遞歸神經(jīng)網(wǎng)絡(luò)(RecursiveNeuralNetworks,RecursiveNNs)、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionNeuralNetworks,CNNs)以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RecurrentNNs),在本文第3章,將對這些網(wǎng)絡(luò)的模型結(jié)構(gòu),以及在文本情感分析上的應(yīng)用方法進(jìn)行詳細(xì)介紹。

2.3文本表示、深度網(wǎng)絡(luò)與情感分析關(guān)系

文本情感分析問題一般可以轉(zhuǎn)換為二分或者多分類的問題,在此過程中,同對其他機(jī)器學(xué)習(xí)問題一樣,我們在處理文本情感分析問題時(shí),一般涉及以下環(huán)節(jié):即,文本的表示、特征的提取以及分類模型的選擇。深度學(xué)習(xí)一個(gè)突出特點(diǎn)就是可以學(xué)習(xí)模仿人類認(rèn)知習(xí)慣,將特征提取和分類建模緊密關(guān)聯(lián)一起了,而特征選擇通過網(wǎng)絡(luò)參數(shù)學(xué)習(xí)自動(dòng)可以獲得,典型的處理框架如圖3所示。

其中,文本表示和特征提取是進(jìn)行文本情感分析的關(guān)鍵環(huán)節(jié)。文本表示就是把需要處理的抽象文本符號(hào)表示成計(jì)算機(jī)可以“理解”的形式,其常用方法在第2節(jié)中詳細(xì)介紹。

在傳統(tǒng)的機(jī)器學(xué)習(xí)算法中,特征提取的工作主要由人工進(jìn)行??梢詮囊韵聝蓚€(gè)方面進(jìn)行直覺上的解釋:對于計(jì)算機(jī)來說,所有的數(shù)據(jù)其實(shí)都是二進(jìn)制的0、1串,機(jī)器很難理解數(shù)據(jù)所表達(dá)的抽象含義,而人則可以將數(shù)據(jù)進(jìn)行解釋,給予數(shù)據(jù)具體的含義;另外,特征提取的本質(zhì)可以看作對輸入數(shù)據(jù)逐步的進(jìn)行數(shù)據(jù)變換,比如對于一串?dāng)?shù)字“20151010”,人可能很容易想到是年月日的時(shí)間戳,而對于機(jī)器來說這只是一個(gè)數(shù)字序列或者一個(gè)大整數(shù),將“20151010”映射為“20151010”的過程是一個(gè)需要先驗(yàn)知識(shí)的非線性變換過程,機(jī)器自動(dòng)的學(xué)習(xí)出這個(gè)非線性映射函數(shù)是困難的,而人在看數(shù)據(jù)的時(shí)候會(huì)加上人類積累很多年的先驗(yàn)知識(shí)自動(dòng)進(jìn)行復(fù)雜的非線性變換。但是人工進(jìn)行特征提取具有很多限制:人工特征提取其實(shí)就是根據(jù)先驗(yàn)知識(shí)搜索出一種合理的非線性映射方式,而人的搜索效率是比較低的;不同問題的合理特征表示方式是不同的,針對每一個(gè)具體問題都需要進(jìn)行很多人工特征提取工作,效率很低。

讓機(jī)器模仿人類的特征提取方式是困難的,但可以從機(jī)器本身的方式進(jìn)行——通過大量數(shù)據(jù)和計(jì)算在一個(gè)合理模型表示出的變換函數(shù)空間中進(jìn)行搜索,只要后者獲取的特征是有效的。我們知道,一個(gè)超過三層的深度神經(jīng)網(wǎng)絡(luò)可以表示出任意的數(shù)據(jù)分布以及變換[6],在深度網(wǎng)絡(luò)模型確定的變換函數(shù)空間(網(wǎng)絡(luò)的每一組不同的參數(shù)都表示了一種變換函數(shù))中進(jìn)行搜索(搜索的過程其實(shí)就是對網(wǎng)絡(luò)參數(shù)的訓(xùn)練過程),可以找出有效的特征變換函數(shù)。目前在文本情感分析中使用的幾種深度神經(jīng)網(wǎng)絡(luò)都可以在避免過擬合的前提下學(xué)習(xí)到有效的特征表示,盡管學(xué)習(xí)到的特征表示可能只是一個(gè)局部最優(yōu)解,但是讓機(jī)器自動(dòng)地學(xué)習(xí)到有效的特征表示,依然使得相關(guān)問題獲得了更好的解決。

文本表示和深度學(xué)習(xí)各自都有著很多不同的方法和模型,我們很難說哪一種文本表示方式最優(yōu)或者使用哪一個(gè)深度網(wǎng)絡(luò)最好,對于使用深度網(wǎng)絡(luò)進(jìn)行文本情感分析的深度學(xué)習(xí)方法來說,由于解決目標(biāo)問題的不同,會(huì)選用不同的深度網(wǎng)絡(luò)和文本表示方式。并且,文本的表示方式與深度網(wǎng)絡(luò)的結(jié)構(gòu)特性是緊密相關(guān)的:對于FNNs,一般使用詞袋(Bag-of-Word,BOW)模型以及向量空間模型(VectorSpaceModel,VSM)在文檔級(jí)別對文本進(jìn)行初始表示;RecursiveNNs以及CNNs一般將文本拆分成一個(gè)個(gè)詞語,采用詞語的低維集成向量對文本進(jìn)行初始表示,并且使用其他方法訓(xùn)練好的詞語向量進(jìn)行初始化,之后RecursiveNNs將詞語按照語句的詞法層次關(guān)系進(jìn)行組織而CNNs更偏向與將語句表示成由詞語向量組成的矩陣形式從而進(jìn)行卷積操作等處理;對于RecurrentNNs一般將文本看作詞語序列,將詞語表示成向量,然后學(xué)習(xí)詞語以及文本的向量表示。

2.4文本情感分析的挑戰(zhàn)

大家知道,文本情感分析最終需要回到基本的語言句法和語法基本體系以及人類認(rèn)知問題上來,在讓計(jì)算機(jī)理解文本情感之前,需要有足夠多的樣本來訓(xùn)練我們機(jī)器。這要求我們有足夠的樣本,尤其是有標(biāo)注的樣本,對于不同語言,都需要這樣的足夠龐大的語料庫。隨然文本情感分析已有十多年研究歷史,但還存在許多挑戰(zhàn)問題。

一、高質(zhì)量的有標(biāo)注情感文本語料庫不夠多。傳統(tǒng)的基于詞典和規(guī)則的方法依賴于有良好的情感詞典庫,Wordnet有效弱化了這個(gè)問題但還遠(yuǎn)遠(yuǎn)不夠,同時(shí),在中文應(yīng)用場景中,中文的情感權(quán)威詞典資源更為稀少,這給基于詞典進(jìn)行情感判斷帶來較大障礙;而對于基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法,其成功更依賴于高質(zhì)量的有標(biāo)注情感文本語料庫,缺乏數(shù)據(jù)規(guī)模的統(tǒng)計(jì)學(xué)習(xí)方法是沒有意義的;而深度學(xué)習(xí)模型中動(dòng)輒成千上萬參數(shù),這些參數(shù)的選取取決于百倍于參數(shù)數(shù)目的樣本,可以說語料庫的數(shù)據(jù)規(guī)模越大,訓(xùn)練出的模型可以避免過擬合,對模型學(xué)習(xí)越有利。情感的難以量化也使得獲得有標(biāo)注的情感庫更為困難。

二、文本情感表達(dá)的多樣化(表情符號(hào)、標(biāo)點(diǎn)符號(hào))的影響。文本的情感分析通常有類似于新聞報(bào)道等長文本分析,也有社交網(wǎng)絡(luò)交流中越來越多的短文本情感分析。在后者的情感分析中,表情符號(hào)扮演了越來越重要角色。在網(wǎng)絡(luò)交流或商品評(píng)論中,這些表情符號(hào)由字符、圖形、文字組成,模仿人類的眼神和情感表露的面部表情。人類閱讀到這些表情、一些感嘆好或者省略號(hào)時(shí)能快速解碼成對發(fā)出主體的情感判斷,但對機(jī)器而言,如何綜合這些表情符號(hào)和文字內(nèi)容來理解人類情感的表達(dá)是個(gè)巨大的挑戰(zhàn)。

三、理解語言結(jié)構(gòu)中的順序性。我們也知道,文本表示的詞袋模型(BOW)常常被研究人員所詬病,其的弱點(diǎn)就在于方法忽略了句子中單詞的順序性,而循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)對序列數(shù)據(jù)超強(qiáng)的處理能力能弱化這個(gè)問題,RNN和長短期記憶模型(LongShortTermMemory,LSTM)最近在文本情感分析任務(wù)上都取得了最好的性能。盡管如此,對于語言本身的語法和句法層面的合理表示和理解對自然語言處理仍舊是任重道遠(yuǎn)的問題。

四、深度學(xué)習(xí)模型的調(diào)參和優(yōu)化。深度學(xué)習(xí)模型一方面受制于有標(biāo)注情感語料庫的匱乏,另一方面因?yàn)槠渥陨硖攸c(diǎn)就在于參數(shù)巨多,使得其具有模擬任何函數(shù)的能力,但又帶來調(diào)參的困惑。為了使得模型具有好的泛化能力,我們希望數(shù)據(jù)量越大越好,但如何訓(xùn)練當(dāng)前常常以TB為單位的數(shù)據(jù)規(guī)模是一個(gè)巨大難題。

盡管如此,得益于深度學(xué)習(xí)顛覆自然語言處理各個(gè)研究方向進(jìn)展,深度學(xué)習(xí)充分利用其在字符、單詞、句子乃至段落層面上表達(dá)能力,在文本情感分析領(lǐng)域也取得了驕人的成績,吸引了更多研究人員投身其中。

3  文本表示

對于文本情感分析,首先要考慮的是文本的表示,文字作為一種十分抽象的信息符號(hào),需要使用計(jì)算機(jī)能夠理解的方式進(jìn)行表示,才可以被進(jìn)一步的計(jì)算處理。我們根據(jù)文本表示方法的切入粒度,分為文檔(document)、詞語(word)、以及字符(character)級(jí)別的文本表示方法。為了更清楚的描述問題,這里給出如下說明:文檔不僅僅是普通意義上的文章,根據(jù)所研究語料的粒度,文章、段落、句子以及查詢都可以認(rèn)為是文檔;詞語不僅僅指單獨(dú)的一個(gè)單詞,根據(jù)文檔集生成的詞典集合里面的每一個(gè)詞項(xiàng),都認(rèn)為是詞語,它可以是單獨(dú)的詞語,也可以是n-gram的詞組;字符就是在ASCII字符表中經(jīng)常出現(xiàn)在文本里的字符,對于中文和日文等非字符形式的語言,轉(zhuǎn)換成字符表示(如中文的拼音)。

3.1文檔級(jí)別

文檔級(jí)別的文本表示,最常用的特征表示方法是詞袋(Bag-of-Word,BOW)模型[41]以及向量空間模型(VectorSpaceModel,VSM)[74]。這兩種表示方法都是將文檔表示成與文檔集詞典大小一樣的稀疏向量,不同的是每個(gè)維度值的計(jì)算方式。BOW模型將文檔看成是裝著詞語的袋子,如果某個(gè)詞語在這個(gè)袋子里面,那么該詞語在向量中對應(yīng)維度的取值就是該詞語的頻次,其余維度取值為0。VSM將一個(gè)文檔看作空間中的向量,向量的每個(gè)維度取值與對應(yīng)的詞語在文檔集合中的分布有關(guān),一般采用TF-TDF方式進(jìn)行加權(quán)計(jì)算。

對于文本情感分類問題,2.2中提及的機(jī)器學(xué)習(xí)算法中,很多都是采用VSM對文本進(jìn)行特征表示,然后訓(xùn)練分類器,再進(jìn)行情感分類。在進(jìn)行VSM特征學(xué)習(xí)之前,文檔集詞典的建立是關(guān)鍵的一步,一般可以如下處理:先獲取文檔集中的所有詞項(xiàng),然后按照一定規(guī)則進(jìn)行過濾(如低頻詞、高頻詞過濾,同義詞合并),再結(jié)合已有的情感詞典(如WordNet)來獲取最終的文檔集詞典。關(guān)于詞項(xiàng),一般使用unigram模型,只取在已知詞典(如牛津詞典)的詞語作為詞項(xiàng),有時(shí)也會(huì)使用N-gram模型[15]對詞項(xiàng)進(jìn)行擴(kuò)充。

BOW和VSM可以很方便的表示文本,提取文本特征,在信息檢索、文檔分類和文本情感分析等應(yīng)用中都有較好的效果,但是這兩種表示方法也有一些缺點(diǎn):忽略了詞語在文檔中出現(xiàn)的順序,丟失了上下文信息;無法獲取詞語的詞性以及語義信息;維度大,數(shù)據(jù)稀疏性強(qiáng),計(jì)算復(fù)雜度高。當(dāng)數(shù)據(jù)規(guī)模很大,處理的問題復(fù)雜時(shí)(比如對短文本進(jìn)行情感分析),使用這兩種表示方法的系統(tǒng)在準(zhǔn)確度以及時(shí)間復(fù)雜度上的性能都會(huì)變得很差。由于這些問題的存在,BOW和VSM常常用于文本的初步表示,然后再利用其它方法進(jìn)一步處理,如基于奇異值分解(SingularValueDecomposition,SVD)的隱含語義分析(LatentSemanticAnalysis,LSA)[17][54]。

3.2詞語級(jí)別

詞語級(jí)別的文本表示一般是將文檔集詞典中的每個(gè)詞語用連續(xù)詞語向量(continuouswordvector)表示,這是一種低維度的連續(xù)值向量。連續(xù)詞語向量具有很強(qiáng)的文本特征表達(dá)能力,可以獲取詞語的詞性以及語義信息?;谶B續(xù)詞語向量表示的文本情感分析方法主要有三種:一種是通過與所研究問題相結(jié)合,構(gòu)建模型和優(yōu)化問題來學(xué)習(xí)連續(xù)詞語向量,進(jìn)而獲取文本的特征表示[56][89];一種是利用連續(xù)詞語向量對情感詞進(jìn)行聚類或者擴(kuò)充,對原有的情感詞典進(jìn)行優(yōu)化,進(jìn)而采用基于詞典以及機(jī)器學(xué)習(xí)的方法進(jìn)行文本情感分析[87][93][98];還有一種是以詞語向量表示作為模型的初始輸入,利用深度神經(jīng)網(wǎng)絡(luò)更進(jìn)一步的提取特征,對文本情感進(jìn)行分類,在后續(xù)提及的許多深度學(xué)習(xí)方法與連續(xù)詞語向量表示相結(jié)合。

現(xiàn)在使用最廣泛的連續(xù)詞語向量訓(xùn)練方法是由Mikolov等人[57]提出的word2vec,該方法把文檔集詞典中的每個(gè)詞語映射為一個(gè)獨(dú)特的低維向量,不同詞語在這個(gè)向量空間中的余弦距離可以表示出詞語之間的語義以及語法關(guān)系[24][61],例如,給出“king”,“man”,“queen”,“woman”的詞語向量表示,可以這樣得到這樣的關(guān)系:||“queen”-“woman”||=||“king”-“man”||。

word2vec包含兩種模型:連續(xù)詞袋(continuousbag-of-word,CBOW)模型以及連續(xù)Skip-gram模型,如圖4所示,CBOW模型通過上下文語境來預(yù)測當(dāng)前詞語的分布,Skip-gram則希望通過當(dāng)前詞語來預(yù)測上下文詞語的分布。CBOW模型是對神經(jīng)網(wǎng)絡(luò)語言模型(NeuralNetworkLanguageModel,NNLM)[7]的簡化,將NNLM中使用的三層神經(jīng)網(wǎng)絡(luò)中的多節(jié)點(diǎn)隱含層替換為一個(gè)感知機(jī)(Perceptron)[71],并采用了NNLM中的很多處理方法:在輸入層,將每個(gè)詞語映射為詞語向量,然后將輸入詞語的向量連接起來作為網(wǎng)絡(luò)模型的輸入;詞語向量是作為模型的參數(shù)被隨機(jī)初始化的,隨著模型的訓(xùn)練而不斷優(yōu)化;基于統(tǒng)計(jì)語言模型(statisticallanguagemodels),當(dāng)前詞語的條件概率分布可以根據(jù)前面的詞語進(jìn)行估計(jì),并且只依賴于相鄰的幾個(gè)詞語,即:

在CBOW模型中還考慮了當(dāng)前詞語之后的詞語;對于每個(gè)詞語來說,它們在輸入層與隱含層之間的權(quán)值是共享的。Skip-gram也采用了類似CBOW的處理,只是構(gòu)造了不同的模型目標(biāo),希望預(yù)測當(dāng)前詞語上下文詞語的分布。由于一般文檔集詞典V都很大,會(huì)使上述模型的訓(xùn)練計(jì)算復(fù)雜度很高[9][55][57],word2vec的實(shí)現(xiàn)中使用了兩種供選擇的加速訓(xùn)練方法:Bengio等人[9]提出的重要性采樣(ImportantSampling)和Hinton等人[55]提出的層次化Softmax(HierarchicalSoftmax)。


圖4word2vec中使用的CBOW與Skip-gram模型

類似于NNLM和word2vec的基于統(tǒng)計(jì)語言模型的詞語向量學(xué)習(xí)方法還有很多,基本的思路都是先把詞語映射為詞語向量(待學(xué)習(xí)的參數(shù)),以詞語向量作為模型的輸入,基于統(tǒng)計(jì)語言模型建立目標(biāo)函數(shù)進(jìn)行模型的訓(xùn)練,訓(xùn)練方法都是隨機(jī)梯度(StochasticGradientDescent,SGD)和反向傳播(Back-Propagation,BP)[38]算法,主要的不同在于所選用的網(wǎng)絡(luò)結(jié)構(gòu),如基于RecurrentNNs[58][97]和LSTM(Long-short-termMemory)[26][75]的詞語向量學(xué)習(xí)方法。此外,還有一些學(xué)習(xí)連續(xù)詞語向量的方法,如綜合考慮了文檔全局和局部信息的GloVe[65],以及針對情感分析問題的詞語向量學(xué)習(xí)[56][89]。

相對于VSM以及BOW模型,詞語向量具有更強(qiáng)的特征表示能力,可以獲取詞語的語義以及語法信息,并且根據(jù)詞語在向量空間中的位置分布就可以表示這些信息。詞語向量是一種低維度的非稀疏向量,當(dāng)獲取整個(gè)文檔集詞典中所有詞語的向量表示時(shí),可以很方便的得到詞語集合(如短語和句子)的向量表示[60],獲得低維度的非稀疏文本特征。

在使用詞語向量表示時(shí)也需要注意它的一些缺陷:當(dāng)訓(xùn)練完成后每個(gè)詞語只被映射為一個(gè)向量,這個(gè)向量主要表達(dá)了該詞語在文檔集中最常用的語義和語法含義,但有些詞語在不同的上下文語境中具有不同的語義和語法含義,也就是詞語的多義性很難被表示出來;對于學(xué)習(xí)詞語向量模型的訓(xùn)練,特別是使用word2vec方法時(shí),需要大量的同一領(lǐng)域內(nèi)的訓(xùn)練文本,比如我們建立的模型最終希望對微博進(jìn)行情感分析,那么我們在學(xué)習(xí)詞語向量時(shí),需要準(zhǔn)備大量的微博文本,并且需要進(jìn)行一些預(yù)處理,比如表情符號(hào)、@標(biāo)簽、#標(biāo)簽、URL等的過濾,使訓(xùn)練文本比較干凈。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:面向智能語音控制場景的短語...

下一篇:ORing在潤陽悅達(dá)光伏電池生產(chǎn)...

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號(hào) | 營業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)