期刊關(guān)鍵詞抽取方法
時(shí)間:2022-04-23 05:13:35
導(dǎo)語(yǔ):期刊關(guān)鍵詞抽取方法一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1引言
關(guān)鍵詞是與文章內(nèi)容和主旨密切相關(guān)的短語(yǔ),被廣泛應(yīng)用于新聞報(bào)道、學(xué)術(shù)期刊等領(lǐng)域。關(guān)鍵詞可以提高文檔的管理和檢索效率,還可以為一些文本挖掘任務(wù)提供豐富的語(yǔ)義信息,例如文檔的分類、聚類、檢索、分析和主題搜索等任務(wù)[1]。期刊的關(guān)鍵詞對(duì)應(yīng)學(xué)術(shù)期刊中的keywords部分,包含簡(jiǎn)單關(guān)鍵詞(SimpleWord,SW)和復(fù)雜關(guān)鍵詞(ComplexWord,CW)兩大部分,其中SW表示由一個(gè)簡(jiǎn)單詞組成的關(guān)鍵詞,CW表示由多個(gè)簡(jiǎn)單詞組成的關(guān)鍵詞。根據(jù)IEEEExplorer[2]統(tǒng)計(jì)數(shù)據(jù)顯示,每年約有24萬(wàn)篇新學(xué)術(shù)期刊被收錄。根據(jù)某些學(xué)科期刊的要求,在文獻(xiàn)發(fā)表時(shí)作者需要在期刊中對(duì)關(guān)鍵詞進(jìn)行注明。但仍有一些學(xué)科的出版物與早期發(fā)行的期刊、書籍、文獻(xiàn)的部分章節(jié)不包含關(guān)鍵詞等信息。缺乏關(guān)鍵詞會(huì)在期刊的查閱和參考過(guò)程中造成困難。雖然可以使用索引對(duì)全文進(jìn)行檢索,但這種方法工作量大、且檢索結(jié)果依賴于分詞效果,難以給出準(zhǔn)確的檢索結(jié)果。而關(guān)鍵詞抽取就是從文章中選擇一小部分單詞或短語(yǔ)來(lái)描述文章重要內(nèi)容[3]。因此,需要尋找一種有效的期刊關(guān)鍵詞抽取方法。針對(duì)傳統(tǒng)方法的不足并結(jié)合最新研究成果,本文提出了一種基于融合詞性的BiLSTM-CRF的期刊關(guān)鍵詞提取方法。在實(shí)現(xiàn)數(shù)據(jù)時(shí)序和語(yǔ)義信息挖掘的同時(shí),也保證了單詞與單詞之間的關(guān)聯(lián)性。在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明融合詞性的BiLSTM-CRF模型是一種有效的期刊關(guān)鍵詞自動(dòng)抽取方法。
2相關(guān)工作
目前,關(guān)鍵詞抽取任務(wù)主要有兩種方法,基于無(wú)監(jiān)督的方法和基于有監(jiān)督的方法[4,5]:2.1基于無(wú)監(jiān)督的方法:無(wú)監(jiān)督方法僅通過(guò)一些事先規(guī)定的關(guān)鍵詞權(quán)重的量化指標(biāo),計(jì)算權(quán)重排序關(guān)鍵詞重要性來(lái)實(shí)現(xiàn)。TFIDF是字符串頻率關(guān)鍵詞[6,7]抽取的一種典型方法,其本質(zhì)是無(wú)監(jiān)督的,可以簡(jiǎn)單快捷的進(jìn)行關(guān)鍵詞抽取。該方法僅掃描語(yǔ)料庫(kù)一次,即可獲得所有單詞的文本頻率。但除了詞頻之外,仍需要考慮許多因素,例如詞的詞性以及在文本中的位置等。為了提高該方法的性能,必須人工的對(duì)其許多規(guī)則進(jìn)行設(shè)計(jì)[5]。在新聞?lì)I(lǐng)域,字符串頻率方法比有監(jiān)督的機(jī)器學(xué)習(xí)方法更有效。因?yàn)闄C(jī)器學(xué)習(xí)的方法在模型訓(xùn)練時(shí)需要花費(fèi)大量的時(shí)間,并且文檔需要標(biāo)注。其次,每天都會(huì)發(fā)生新事件,新聞的內(nèi)容具有多樣性。但無(wú)監(jiān)督方法只提供了單詞在文本中的相對(duì)重要程度,無(wú)法有效地綜合利用詞法和語(yǔ)義信息對(duì)候選關(guān)鍵詞進(jìn)行排序[8]。2.2基于有監(jiān)督的方法:有監(jiān)督的方法將關(guān)鍵詞抽取問(wèn)題視為判斷每個(gè)候選關(guān)鍵詞是否為關(guān)鍵詞的二分類問(wèn)題,它需要一個(gè)已經(jīng)標(biāo)注關(guān)鍵詞的文檔集合來(lái)訓(xùn)練分類模型,即通過(guò)在一個(gè)有標(biāo)注的數(shù)據(jù)集上訓(xùn)練分類器,以便決定候選詞中哪些是關(guān)鍵詞。不同的機(jī)器學(xué)習(xí)算法可以訓(xùn)練出不同的分類器,如樸素貝葉斯[9],決策樹[10]、最大熵算法[11]和支持向量機(jī)[12]等是關(guān)鍵詞抽取中的代表性方法,通過(guò)大量數(shù)據(jù)來(lái)訓(xùn)練分類器。可見有監(jiān)督方法可以利用更多信息具有更大的優(yōu)勢(shì),且實(shí)驗(yàn)效果比無(wú)監(jiān)督方法好[4]。這種方法具有較高的準(zhǔn)確性和較強(qiáng)的穩(wěn)定性,但需要很大的語(yǔ)料庫(kù),且所有文本需要進(jìn)行標(biāo)注。標(biāo)注人員具有一定的主觀性并且標(biāo)注任務(wù)具有復(fù)雜性。不同的標(biāo)注人員在進(jìn)行同一個(gè)文本的標(biāo)注時(shí),具有不同的認(rèn)知和看法,標(biāo)注的質(zhì)量會(huì)影響模型的性能。并且上述方法都將關(guān)鍵詞抽取問(wèn)題視為一個(gè)二分類問(wèn)題,對(duì)每個(gè)單詞獨(dú)立處理,忽略了文本結(jié)構(gòu)信息。為解決該問(wèn)題,可以將關(guān)鍵詞抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,常用的模型有最大熵模型(MaximumEntropy,ME),隱馬爾科夫模型(HiddenMarkovModel,HMM),條件隨機(jī)場(chǎng)模型(ConditionalRandomField,CRF)。其中CRF模型的應(yīng)用最為廣泛,性能也最好,可以較為精確的實(shí)現(xiàn)關(guān)鍵詞的有效提取,但卻需要人工設(shè)計(jì)特征,特征設(shè)計(jì)的優(yōu)劣與否將會(huì)直接影響到模型的性能和最終的抽取效果。隨著深度學(xué)習(xí)的不斷發(fā)展,深度神經(jīng)網(wǎng)絡(luò),尤其是長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM)模型,前一時(shí)刻隱藏層的信息可以加入到當(dāng)前時(shí)刻的輸出,通過(guò)LSTM層可以高效地利用上下文信息,處理長(zhǎng)序列依賴問(wèn)題。通過(guò)結(jié)合LSTM模型和CRF模型,綜合利用多種信息,可以使得效果更好[13]。在近期的研究中,已有學(xué)者將BiLSTM-CRF網(wǎng)絡(luò)模型用于開放式關(guān)系抽取[14]、命名實(shí)體識(shí)別[15]、中文分詞[16]等自然語(yǔ)言處理任務(wù)中。Alzidy等已經(jīng)將BiLSTM-CRF網(wǎng)絡(luò)用于關(guān)鍵詞抽取任務(wù)中[17],使用固定的詞嵌入來(lái)表示單詞,輸入網(wǎng)絡(luò),得到序列標(biāo)注結(jié)果。
3融合詞性與BiLSTM-CRF的抽取模型
針對(duì)從文本中自動(dòng)抽取關(guān)鍵詞的問(wèn)題,現(xiàn)有的解決方法大多基于二分類的思想。這種方法忽略了單詞之間的關(guān)聯(lián)性,將每個(gè)詞視為獨(dú)立的部分,因此無(wú)法通過(guò)聯(lián)系上下文來(lái)準(zhǔn)確把握文的有效信息,從而導(dǎo)致模型具有較差的關(guān)鍵詞抽取能力。針對(duì)該問(wèn)題,本文結(jié)合條件隨機(jī)場(chǎng)與深度學(xué)習(xí)中雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BidirectionalLongShortTermMemory,BiLSTM)模型可以自動(dòng)提取特征的優(yōu)勢(shì),將期刊關(guān)鍵詞的抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,提出了融合詞性與BiLSTM-CRF的期刊關(guān)鍵詞抽取方法。融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型如圖1所示:關(guān)鍵詞自動(dòng)抽取模型共包含三大部分:(1)對(duì)期刊文本進(jìn)行分詞和詞性標(biāo)注的預(yù)處理;(2)將預(yù)處理后的文本使用word2vec模型進(jìn)行WordEmbedding向量化,獲取字詞的向量表達(dá)式;(3)使用BiLSTM-CRF模型實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)抽取。3.1特征提取:(1)詞性標(biāo)注在關(guān)鍵詞組合的過(guò)程中,可能會(huì)采用不同的詞性組合方式,但通過(guò)對(duì)期刊中大量的關(guān)鍵詞研究發(fā)現(xiàn),期刊中的關(guān)鍵詞一般由名詞,形容詞和動(dòng)詞組合形成[13],因此在實(shí)驗(yàn)中需要對(duì)詞性進(jìn)行標(biāo)注,例如:信號(hào)控制單元(n+vn+n),高性能電池(ad+n),其中,n表示名詞,vn表示動(dòng)詞,ad表示形容詞。加入詞性特征對(duì)期刊關(guān)鍵詞的識(shí)別有一定作用。(2)依存句法分析依存句法分析就是確定一個(gè)句子中詞語(yǔ)與詞語(yǔ)之間的依存關(guān)系或者對(duì)句子的句法結(jié)構(gòu)進(jìn)行分析。詞語(yǔ)之間的依存關(guān)系主要有介賓關(guān)系、動(dòng)賓關(guān)系、主謂關(guān)系等。本文采用語(yǔ)言技術(shù)平臺(tái)[18](LanguageTechnologyPlatform,LTP),對(duì)期刊文本進(jìn)行依存句法分析,通過(guò)過(guò)濾不可能組成關(guān)鍵詞的依存關(guān)系,可以提高識(shí)別關(guān)鍵詞的效果。(3)詞向量表示本文采用Word2Vec模型[19]中的Skip-gram模型[21]來(lái)訓(xùn)練詞向量。Skip-gram模型是在已知當(dāng)前詞語(yǔ)的情況下,去預(yù)測(cè)上下文信息。模型的目的是要學(xué)到好的詞向量表示,然后能夠很好的預(yù)測(cè)它上下文的詞語(yǔ)。Skip-gram模型如圖2所示。在訓(xùn)練詞向量的過(guò)程中分別將詞、詞性、依存句法分析等特征通過(guò)word2vec工具轉(zhuǎn)換成詞向量表示,詞的維度為200維,詞性和依存句法分析的維度分別為10維,最后通過(guò)嵌入式向量引入模型進(jìn)行融合,生成最終的特征向量表示。3.2LSTM網(wǎng)絡(luò):循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[20]被廣泛應(yīng)用于命名實(shí)體識(shí)別、語(yǔ)音識(shí)別等自然語(yǔ)言處理任務(wù)中,具有記憶歷史信息的能力,能夠使模型通過(guò)長(zhǎng)距離的特征對(duì)當(dāng)前的輸出進(jìn)行預(yù)測(cè)。但隨著RNN網(wǎng)絡(luò)深度和訓(xùn)練時(shí)長(zhǎng)的增加,在對(duì)較長(zhǎng)序列數(shù)據(jù)處理時(shí)存在梯度消失和梯度爆炸的問(wèn)題。LSTM網(wǎng)絡(luò)與傳統(tǒng)的RNN具有相似的網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)使用專門構(gòu)建的記憶細(xì)胞代替RNN網(wǎng)絡(luò)中隱藏層的更新模塊,使LSTM網(wǎng)絡(luò)具有發(fā)現(xiàn)和探索數(shù)據(jù)中長(zhǎng)時(shí)間的依賴信息的能力。LSTM的神經(jīng)元結(jié)構(gòu)如圖3[21]所示。由上圖可知,LSTM模型使用門結(jié)構(gòu)對(duì)細(xì)胞狀態(tài)進(jìn)行保持和更新,一個(gè)LSTM存儲(chǔ)單元主要由輸入門(i),輸出門(o),遺忘門(f)和記憶細(xì)胞(c)組成。LSTM模型可以通過(guò)下列公式實(shí)現(xiàn):其中,σ表示Sigmoid函數(shù),tanh是雙曲正切函數(shù),t表示當(dāng)前時(shí)刻,t-1表示前一時(shí)刻,it、ft、ot、ct分別表示當(dāng)前時(shí)刻輸入門、遺忘門、輸出門和記憶細(xì)胞的輸出,W和b分別表示模型訓(xùn)練過(guò)程中的權(quán)重矩陣和偏置向量。在序列標(biāo)注任務(wù)中,由于引入了記憶單元和門結(jié)構(gòu),在輸入句子較長(zhǎng)時(shí),可以防止距離當(dāng)前詞語(yǔ)較遠(yuǎn)但依賴關(guān)系較強(qiáng)的信息被遺忘。本文定義標(biāo)簽集{B,M,E,O},其中,B表示CW的首部和SW,M表示CW的中部,E表示CW的尾部,O表示其他文本,LSTM模型[22]如圖4所示。在對(duì)期刊的關(guān)鍵詞進(jìn)行抽取時(shí),通常需要在給定時(shí)間訪問(wèn)過(guò)去或未來(lái)的輸入特征,而單向LSTM網(wǎng)絡(luò)只能處理和存儲(chǔ)前一時(shí)刻信息,因此可以使用圖5所示的雙向LSTM網(wǎng)絡(luò)[22]來(lái)完成該任務(wù)。這樣可以在指定的時(shí)間范圍內(nèi)有效地使用上下文信息。其中,過(guò)去的特征通過(guò)Forward狀態(tài)獲取,未來(lái)的特征通過(guò)Backward狀態(tài)獲取。然后使用時(shí)間的反向傳播來(lái)訓(xùn)練BiLSTM網(wǎng)絡(luò)。隨著時(shí)間推移,在展開的網(wǎng)絡(luò)上進(jìn)行的前向和后向傳播與傳統(tǒng)網(wǎng)絡(luò)的前向和后向傳播類似,但需要設(shè)置隱藏狀態(tài)。在對(duì)整個(gè)句子進(jìn)行前向和后向傳播的時(shí)候僅需要在句子的開頭將隱藏狀態(tài)重置為0。由圖5可知,BiLSTM網(wǎng)絡(luò)可以同時(shí)獲取較長(zhǎng)語(yǔ)句的前后文信息,保證了上下文之間的依賴關(guān)系。在期刊關(guān)鍵詞抽取任務(wù)中,若起始詞為關(guān)鍵詞,LSTM網(wǎng)絡(luò)會(huì)忽略語(yǔ)句開頭與結(jié)尾間的依賴關(guān)系,因此會(huì)導(dǎo)致誤判。因此,BiLSTM模型為有效的進(jìn)行關(guān)鍵詞抽取奠定了基礎(chǔ)。3.3融合詞性特征的BiLSTM-CRF模型:條件隨機(jī)場(chǎng)是一種針對(duì)序列標(biāo)注問(wèn)題效果最顯著的條件概率模型,其本質(zhì)是一個(gè)無(wú)向圖模型。本文在BiLSTM模型的基礎(chǔ)上,結(jié)合CRF處理序列標(biāo)注問(wèn)題的天然優(yōu)勢(shì),有效的引入標(biāo)簽之間的轉(zhuǎn)移關(guān)系,構(gòu)建轉(zhuǎn)移狀態(tài)矩陣,從而更有效的實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)抽取。將BiLSTM網(wǎng)絡(luò)和CRF網(wǎng)絡(luò)整合為BiLSTM-CRF模型,如圖6所示。通過(guò)BiLSTM網(wǎng)絡(luò),模型可以有效的利用過(guò)去的輸入特征和未來(lái)的輸入特征挖掘期刊文本數(shù)據(jù)的隱含特征,通過(guò)CRF層,利用狀態(tài)轉(zhuǎn)移矩陣模型可以有效的利用過(guò)去和未來(lái)的文本的標(biāo)簽信息預(yù)測(cè)當(dāng)前的標(biāo)簽。由圖6可知,BiLSTM-CRF主要包含WordEmbedding向量化,BiLSTM網(wǎng)絡(luò),CRF三個(gè)部分。模型的輸入為分詞和進(jìn)行詞性標(biāo)注后的序列文本。在WordEmbedding向量化過(guò)程中使用Word2Vec模型[19]通過(guò)訓(xùn)練后,根據(jù)給定的語(yǔ)料庫(kù)可以快速有效地把對(duì)文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算,將一個(gè)詞語(yǔ)表達(dá)成向量形式,從而可以使用向量空間上的相似度來(lái)表示文本語(yǔ)義上的相似度。本文使用Word2Vec模型中的Skip-Gram模型,通過(guò)給定單詞來(lái)預(yù)測(cè)上下文信息,使用無(wú)監(jiān)督的方式通過(guò)學(xué)習(xí)文本來(lái)用詞向量的方式表征詞的語(yǔ)義信息。將獲取的融合詞性后的詞向量輸入BiLSTM網(wǎng)絡(luò)中,得到包含前后文信息的文本序列的雙向表達(dá),通過(guò)CRF預(yù)測(cè)最終的標(biāo)簽序列。
4實(shí)驗(yàn)結(jié)果與分析
本文使用中國(guó)知網(wǎng)的期刊數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)包括基礎(chǔ)科學(xué)、工程科技Ⅰ輯、工程科技Ⅱ輯、農(nóng)業(yè)科技、醫(yī)藥衛(wèi)生科技、哲學(xué)與人文科學(xué)、社會(huì)科學(xué)Ⅰ輯、社會(huì)科學(xué)Ⅱ輯、信息科技、經(jīng)濟(jì)與管理科學(xué)10個(gè)大類以及168個(gè)二級(jí)分類。實(shí)驗(yàn)期刊數(shù)據(jù)是1989年到1992年約300萬(wàn)的期刊量。其中每篇期刊數(shù)據(jù)包括來(lái)源庫(kù)、題名、作者、單位、文獻(xiàn)來(lái)源、關(guān)鍵詞、摘要、發(fā)表時(shí)間、第一責(zé)任人、基金、年、期、卷、期、頁(yè)碼等數(shù)據(jù)項(xiàng)。在實(shí)驗(yàn)過(guò)程中,需要在保證數(shù)據(jù)多樣性的同時(shí)確保數(shù)據(jù)的有效性,因此從采集到的期刊數(shù)據(jù)中的各個(gè)大類和二級(jí)分類中隨機(jī)選出5040篇作為訓(xùn)練數(shù)據(jù)集,1680篇作為驗(yàn)證數(shù)據(jù)集,1680篇作為測(cè)試數(shù)據(jù)集。本實(shí)驗(yàn)采用融合詞性與BiLSTM-CRF的關(guān)鍵詞抽取模型,需要在WordEmbedding詞向量的訓(xùn)練過(guò)程中結(jié)合期刊的詞性特征。同時(shí),論文的題目和摘要最能表達(dá)文章的核心內(nèi)容,所以在實(shí)驗(yàn)過(guò)程中,本文使用jieba分詞工具對(duì)獲取的期刊數(shù)據(jù)的摘要和題目進(jìn)行分詞和詞性標(biāo)注處理,除了對(duì)測(cè)試數(shù)據(jù)進(jìn)行中文分詞和詞性標(biāo)注處理外,不進(jìn)行任何數(shù)據(jù)預(yù)處理操作。通過(guò)模型獲取最終的關(guān)鍵詞抽取結(jié)果并與期刊數(shù)據(jù)中的獲取關(guān)鍵詞進(jìn)行比對(duì),得到最終的實(shí)驗(yàn)結(jié)果。數(shù)據(jù)的標(biāo)注樣例如表1所示,本文將關(guān)鍵詞抽取問(wèn)題轉(zhuǎn)換為序列標(biāo)注問(wèn)題,定義標(biāo)簽集{B,M,E,O},其中,B表示CW的中部,E表示CW的尾部,O表示其他文本。標(biāo)注樣例如表1所示:4.1評(píng)價(jià)指標(biāo):為度量模型的性能病并驗(yàn)證本文所提模型的準(zhǔn)確性和有效性,在實(shí)驗(yàn)中采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F值(Fscore)對(duì)關(guān)鍵詞抽取模型的性能進(jìn)行評(píng)價(jià),將模型抽取的關(guān)鍵詞與原始期刊文獻(xiàn)中的關(guān)鍵詞進(jìn)行對(duì)比,可以得到:準(zhǔn)確率P,召回率R和F值得取值范圍均為0到1,P越大表示抽取出的關(guān)鍵詞正確率越高,R越大表示越多的關(guān)鍵詞被正確抽取,F(xiàn)值是基于P和R的調(diào)和平均定義的,故F值越大則表示模型的性能越好,當(dāng)取值為1時(shí),表示所有的關(guān)鍵詞均被正確的抽取。4.2實(shí)驗(yàn)結(jié)果與分析本文實(shí)驗(yàn)均在硬件配置為Nvidia1080Ti顯卡,I77700K處理器,64G運(yùn)行內(nèi)存,運(yùn)行環(huán)境為Ubuntu16.04操作系統(tǒng)的計(jì)算機(jī)上實(shí)現(xiàn)的。編程語(yǔ)言為python3.5,模型的搭建使用TensorFlow框架。實(shí)驗(yàn)過(guò)程中,期刊關(guān)鍵詞抽取模型的超參數(shù)設(shè)置可能會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生直接影響。為確定參數(shù)設(shè)置對(duì)模型性能的影響,使模型性能最優(yōu),本文開展了大量的超參數(shù)比選實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明詞向量和詞性向量的維度對(duì)實(shí)驗(yàn)結(jié)果具有較大影響,而BiLSTM網(wǎng)絡(luò)模型中的參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響較小。在比選實(shí)驗(yàn)后,最終關(guān)鍵詞抽取模型的參數(shù)設(shè)置如表2所示:為確定所提融合詞性的BiLSTM-CRF模型對(duì)期刊關(guān)鍵詞的抽取的有效性,本文共設(shè)置了五組實(shí)驗(yàn)進(jìn)行對(duì)比。將本文模型與LSTM模型,BiLSTM模型,BiLSTM-CRF模型,融合詞性的BiLSTM模型,融合詞性的BiLSTM-CRF模型進(jìn)行對(duì)比,并分別設(shè)置實(shí)驗(yàn)編號(hào)為Case1,Case2,Case3,Case4,Case5。不同模型組合得到的實(shí)驗(yàn)結(jié)果如表3所示:表3不同Case2是在Case1的基礎(chǔ)上將LSTM模型改進(jìn)為BiLSTM模型,無(wú)論是在CW還是SW的層面上,準(zhǔn)確率,召回率和F值都得到了提升,表明BiLSTM模型更適合作為基礎(chǔ)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)鍵詞抽取。Case4是在Case2的基礎(chǔ)上融入詞性特征,在CW和SW上,F(xiàn)值分別從82.73%和44.27%增加到83.43%和47.19%。分別提升了0.70%和2.92%。而Case3和Case5則分別在Case2和Case4的基礎(chǔ)上加入CRF模型,就CW而言,兩組對(duì)比實(shí)驗(yàn)的準(zhǔn)確率分別提升了0.42%和2.05%,召回率分別提升了2.46%和2.79%,F值分別提升了1.46%和2.43%,就SW而言,兩組對(duì)比實(shí)驗(yàn)的準(zhǔn)確率分別提升了5.62%和10.06%,召回率分別提升了5.93%和9.19%,F值分別提升了5.82%和9.62%。實(shí)驗(yàn)結(jié)果表明,在加入CRF模型后,關(guān)鍵詞的自動(dòng)提取性能在SW層面上的提升比在CW層面上的提升更為顯著,融入詞性特征后模型性能的提升比未加入詞性特征的模型性能的提升更為顯著。同時(shí)可以看出,在BiLSTM模型的基礎(chǔ)上,加入CRF模型比僅融入詞性特征對(duì)模型的提升更為顯著,這是由于在訓(xùn)練模型的過(guò)程中,CRF可以自動(dòng)學(xué)習(xí)一些約束添加至最終的預(yù)測(cè)標(biāo)簽中,保證預(yù)測(cè)結(jié)果的有效性,在模型訓(xùn)練過(guò)程中,這些約束可以通過(guò)CRF模型自動(dòng)學(xué)習(xí)到。在五組對(duì)比試驗(yàn)中,無(wú)論是CW還是SW,融合詞性的BiLSTM-CRF模型均獲得最高的F值,模型對(duì)關(guān)鍵詞的抽取能力更強(qiáng)。為進(jìn)一步證明方法的有效性,將本文方法與三種常用的關(guān)鍵詞抽取方法:TextRank[23]SGRank[24]SingleRank[25]行比較,實(shí)驗(yàn)結(jié)果如表4所示:BiLSTM-CRF模型性能顯著優(yōu)于三種常用的關(guān)鍵詞抽取方法。在三種無(wú)監(jiān)督的算法中,SGRank對(duì)CW和SW類關(guān)鍵詞提取的準(zhǔn)確率,召回率和F值均優(yōu)于其余兩種算法。結(jié)合表3中的實(shí)驗(yàn)結(jié)果,使用到的方法均不能有效抽取CW類關(guān)鍵詞,需要在后續(xù)的研究中更為充分的考慮文本中的上下文等有效信息來(lái)解決這一問(wèn)題。
本文針對(duì)傳統(tǒng)BiLSTM網(wǎng)絡(luò)忽略了文本結(jié)構(gòu)信息以及人工抽取特征困難的問(wèn)題,提出了一種基于融合詞性的BiLSTM-CRF的關(guān)鍵詞抽取方法。該方法將關(guān)鍵詞自動(dòng)抽取問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,在傳統(tǒng)BiLSTM網(wǎng)絡(luò)的輸出層后加入CRF模型,可以自動(dòng)學(xué)習(xí)一些約束并添加至最終的預(yù)測(cè)標(biāo)簽中,使得最終的輸出標(biāo)簽前后具有關(guān)聯(lián)性。同時(shí),在輸出網(wǎng)絡(luò)時(shí),顯性的加入詞性特征,構(gòu)成最終的詞向量矩陣。實(shí)驗(yàn)結(jié)果表明,本文提出的基于融合詞性的BiLSTM-CRF模型相較未加入CRF以及未融合詞性的模型具有更高的準(zhǔn)確率,召回率和F值,是一種有效的關(guān)鍵詞自動(dòng)抽取方法。但是本文的方法仍存在一定的局限性,針對(duì)CW類型的關(guān)鍵詞抽取問(wèn)題,模型性能較差。在未來(lái)的研究中,需要著重解決對(duì)復(fù)雜關(guān)鍵詞的自動(dòng)抽取問(wèn)題并進(jìn)一步提升對(duì)簡(jiǎn)單關(guān)鍵詞的自動(dòng)抽取的準(zhǔn)確率,結(jié)合其他有效信息對(duì)模型進(jìn)行改進(jìn),進(jìn)一步提升對(duì)關(guān)鍵詞的自動(dòng)抽取效果。
作者:成彬 施水才 都云程 肖詩(shī)斌
熱門標(biāo)簽
期刊雜志 期刊編輯 期刊雜志 期刊產(chǎn)業(yè) 期刊經(jīng)濟(jì)管理 心理培訓(xùn) 人文科學(xué)概論
精品范文
1期刊論文