文本分類結(jié)合人工智能信息獲取論文
時(shí)間:2022-06-07 05:40:00
導(dǎo)語(yǔ):文本分類結(jié)合人工智能信息獲取論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
編者按:本文主要從問(wèn)題的提出;文本分類技術(shù)的基本原理;文本分類技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用分析;結(jié)束語(yǔ)進(jìn)行論述。其中,主要包括:數(shù)字圖書(shū)館在我國(guó)高校、政府以及科研機(jī)構(gòu)都得到了有效發(fā)展、文本分類技術(shù)是人工智能和信息獲取技術(shù)的結(jié)合、數(shù)字圖書(shū)館是一個(gè)巨大的知識(shí)寶庫(kù)、文本分類是指根據(jù)文本的內(nèi)容或?qū)傩裕瑢⒋罅康奈谋練w到一個(gè)或多個(gè)類別的過(guò)程、文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息、系統(tǒng)使用訓(xùn)練樣本進(jìn)行特征選擇和分類器訓(xùn)練、特征選擇的結(jié)果是初始特征項(xiàng)集合的子集、文本特征項(xiàng)、文本的特征項(xiàng)應(yīng)該具特點(diǎn)、特征項(xiàng)選擇、特征值的提取等,具體請(qǐng)?jiān)斠?jiàn)。
一、問(wèn)題的提出
隨著計(jì)算機(jī)技術(shù)與網(wǎng)絡(luò)技術(shù)的普及和發(fā)展,數(shù)字圖書(shū)館在我國(guó)高校、政府以及科研機(jī)構(gòu)都得到了有效發(fā)展。數(shù)字圖書(shū)館來(lái)源于圖書(shū)館館藏的數(shù)字化從而充分地高效地利用圖書(shū)館信息資源。現(xiàn)有的圖書(shū)館資料主要是書(shū)籍、雜志、報(bào)刊、技術(shù)報(bào)告等。人們希望利用因特網(wǎng)把所有的數(shù)字化的資源站點(diǎn)連接起來(lái),這樣要管理的信息除了圖書(shū)館中的文本信息外,還希望管理博物館、展覽館、檔案館、學(xué)術(shù)組織以及其它Web站點(diǎn)上千差萬(wàn)別的信息。
面對(duì)浩瀚無(wú)邊的數(shù)字化信息使得數(shù)字圖書(shū)館關(guān)鍵核心技術(shù)之一的文本分類成為一個(gè)日益重要的研究領(lǐng)域。文本分類技術(shù)是人工智能和信息獲取技術(shù)的結(jié)合,是基于內(nèi)容的自動(dòng)信息管理的核心技術(shù)。
二、文本分類技術(shù)的基本原理
數(shù)字圖書(shū)館是一個(gè)巨大的知識(shí)寶庫(kù)。數(shù)字圖書(shū)館的服務(wù)重點(diǎn)是以人為主,而不是以館以書(shū)為主。數(shù)字圖書(shū)館的特點(diǎn)使得其服務(wù)要深入到知識(shí)的層次,通過(guò)對(duì)信息內(nèi)容的組織和加工的自動(dòng)化,把資源組織成一個(gè)知識(shí)系統(tǒng)。文本的自動(dòng)分類是為提高信息內(nèi)容服務(wù)的質(zhì)量而產(chǎn)生的文本處理技術(shù)。它們的出現(xiàn)使得信息內(nèi)容服務(wù)出現(xiàn)了新的局面。
文本分類是指根據(jù)文本的內(nèi)容或?qū)傩裕瑢⒋罅康奈谋練w到一個(gè)或多個(gè)類別的過(guò)程。文本分類算法是有監(jiān)督學(xué)習(xí)的算法,它需要有一個(gè)己經(jīng)手工分好類的訓(xùn)練文檔集,文檔的類別已標(biāo)識(shí),在這個(gè)訓(xùn)練集上構(gòu)造分類器,然后對(duì)新的文檔分類。如果訓(xùn)練集的類別未標(biāo)識(shí),就是無(wú)監(jiān)督的學(xué)習(xí)算法,無(wú)監(jiān)督學(xué)習(xí)算法從數(shù)據(jù)集中找出存在的類別或者聚集。
從數(shù)學(xué)角度來(lái)看文本分類是個(gè)映射程,它將未標(biāo)明類別的文本映射到已有的類別中,用數(shù)學(xué)公式表示如下:
f:A→B其中,A為待分類的文本集合,B為分類體系中的類別集合
文本分類的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類若干樣本的數(shù)據(jù)信息,總結(jié)出分類的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時(shí),根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類別。但是由于大量的文本信息是一維的線性字符流,因此文本自動(dòng)分類首先要解決的問(wèn)題就是文本信息的結(jié)構(gòu)化。在模式識(shí)別領(lǐng)域里,把文本信息的結(jié)構(gòu)化稱為"特征提取"。在文本信息內(nèi)容處理領(lǐng)域,這項(xiàng)工作被稱為文本的"向量空間表示"。其基本流程如圖1所示:
系統(tǒng)使用訓(xùn)練樣本進(jìn)行特征選擇和分類器訓(xùn)練。系統(tǒng)根據(jù)選擇的特征將待分類的輸入樣本形式化,然后輸入到分類器進(jìn)行類別判定,得到輸入樣本所屬的類別。
三、文本分類技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用分析
為了提高數(shù)字圖書(shū)館中分類準(zhǔn)確率,加快系統(tǒng)運(yùn)行速度,需要對(duì)文本特征進(jìn)行選擇和提取。兩者的差別在于,特征選擇的結(jié)果是初始特征項(xiàng)集合的子集,而特征提取的結(jié)果不一定是初始特征項(xiàng)集合的子集(例如初始特征項(xiàng)集合是漢字,而結(jié)果可能是漢字組成的字符串)。特征選擇、提取和賦權(quán)方法對(duì)分類結(jié)果都有明顯影響。
(一)文本特征項(xiàng)
文本的特征項(xiàng)應(yīng)該具有以下特點(diǎn):特征項(xiàng)是能夠?qū)ξ谋具M(jìn)行充分表示的語(yǔ)言單位;文本在特征項(xiàng)空間中的分布具有較為明顯的統(tǒng)計(jì)規(guī)律;文本映射到特征項(xiàng)空間的計(jì)算復(fù)雜度不太大。對(duì)于計(jì)算機(jī)來(lái)說(shuō),文本就是由最基本的語(yǔ)言符號(hào)組成的字符串。西文文本是由字母和標(biāo)點(diǎn)符號(hào)組成的字符串,中文文本就是由漢字和標(biāo)點(diǎn)符號(hào)組成的字符串。
概念也可以作為特征項(xiàng),"計(jì)算機(jī)"和"電腦"具有同義關(guān)系,在計(jì)算文檔的相似度之前,應(yīng)該將兩個(gè)詞映射到同一個(gè)概念類,可以增加匹配的準(zhǔn)確率。但是概念的判斷和處理相對(duì)復(fù)雜,自然語(yǔ)言中存在同義關(guān)系(如老鼠、耗子)、近義關(guān)系(如憂郁、憂愁)、從屬關(guān)系(如房屋、房頂)和關(guān)聯(lián)關(guān)系(如老師、學(xué)生)等各種關(guān)系。如何很好地劃分概念特征項(xiàng),確定概念類,以及概念類的數(shù)量都是需要反復(fù)嘗試和改進(jìn)的問(wèn)題。
(二)特征項(xiàng)選擇
不同的特征項(xiàng)對(duì)于文檔的重要性和區(qū)分度是不同的,通常高頻特征項(xiàng)在多個(gè)類中出現(xiàn),并且分布較為均勻,因此區(qū)分度較小;而低頻特征項(xiàng)由于對(duì)文檔向量的貢獻(xiàn)較小,因此重要性較低。
文檔頻次就是文檔集合中出現(xiàn)某個(gè)特征項(xiàng)的文檔數(shù)目在特征項(xiàng)選擇中計(jì)算每個(gè)特征項(xiàng)在訓(xùn)練集合中出現(xiàn)的頻次,根據(jù)預(yù)先設(shè)定的閩值去除那些文檔頻次特別低和特別高的特征項(xiàng)。
信息增益方法是機(jī)器學(xué)習(xí)的常用方法,在分類問(wèn)題中用于度量特征項(xiàng)在某種分類下表示信息量多少,通過(guò)計(jì)算信息增益得到那些在正例樣本中出現(xiàn)頻率高而在反例樣本中出現(xiàn)頻率低的特征項(xiàng),以及那些在反例樣本中出現(xiàn)頻率高而在正例樣本中出現(xiàn)頻率低的特征項(xiàng)。
(三)特征值的提取
在文本分類中,我們稱用來(lái)表示文檔內(nèi)容的基本單元為特征,特征可以是詞、短語(yǔ)。目前,大多數(shù)有關(guān)文本分類的文獻(xiàn)基本上采用詞的集合來(lái)表示文檔的內(nèi)容。采用短語(yǔ)來(lái)表示文檔存在兩個(gè)缺點(diǎn):第一短語(yǔ)的提取較困難,特別是準(zhǔn)確的提取,需要較多的自然語(yǔ)言處理技術(shù),而這些技術(shù)還不夠成熟;第二采用詞組表示文檔在信息檢索和文本分類中的效果并不比基于詞的效果好,有時(shí)反而更差。
四、結(jié)束語(yǔ)
近年來(lái),國(guó)內(nèi)外數(shù)字圖書(shū)館的建設(shè)發(fā)展地很快,各國(guó)政府在建設(shè),而且大學(xué)、企事業(yè)等也在建設(shè)各自的數(shù)字圖書(shū)館。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷成熟,困擾數(shù)字圖書(shū)館發(fā)展的一些技術(shù)瓶頸也逐漸地被解決了。隨著數(shù)字圖書(shū)館中對(duì)精度要求較高,而且要處理的文本數(shù)據(jù)量也相當(dāng)龐大,今后對(duì)文本分類技術(shù)在數(shù)字圖書(shū)館中應(yīng)用的精度和速度有待進(jìn)一步改進(jìn)。