Web數(shù)據(jù)挖掘與圖書館個(gè)性化服務(wù)
時(shí)間:2022-10-11 02:51:55
導(dǎo)語:Web數(shù)據(jù)挖掘與圖書館個(gè)性化服務(wù)一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
近幾年,高校數(shù)字圖書館的發(fā)展速度非常快,其數(shù)據(jù)類型和總量也顯著提升,數(shù)字資源覆蓋多個(gè)領(lǐng)域,如電子圖書、電子期刊、多媒體數(shù)據(jù)、海量的web數(shù)據(jù)庫等,這些數(shù)字化資源的出現(xiàn)為用戶查閱資料提供了方便,但由于數(shù)據(jù)信息量大,用戶在查找資料的過程中很難找準(zhǔn)目標(biāo)定位,因而會花費(fèi)較多時(shí)間,而Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用則可以在很大程度上解決該問題。
1Web數(shù)據(jù)挖掘與數(shù)字圖書館的概述
1.1Web數(shù)據(jù)挖掘的概述
所謂Web數(shù)據(jù)挖掘,指的就是將有價(jià)值的、感興趣的信息從大量的Web文檔中提取出來,通常來說,可將Web數(shù)據(jù)挖掘劃分為三種類型,即Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用記錄挖掘。其中,Web結(jié)構(gòu)挖掘指的是從WWW的鏈接關(guān)系或者組織體系中推導(dǎo)出相關(guān)知識,通過文檔之間的相互關(guān)系,WWW可以為用戶提供文檔內(nèi)容之外的有價(jià)值數(shù)據(jù)信息,通過這些有價(jià)值信息,能夠?qū)撁婕右耘判颍M(jìn)而更好地發(fā)現(xiàn)其中的關(guān)鍵頁面信息,整個(gè)Web結(jié)構(gòu)挖掘過程需要用到HITS算法以及PageRank算法。Web內(nèi)容挖掘指的是將相關(guān)知識從文檔內(nèi)容或描述中抽取出來,這項(xiàng)工作可被當(dāng)作是基本搜索引擎所負(fù)責(zé)的工作的延伸,主要包括立足于數(shù)據(jù)庫的挖掘以及立足于的挖掘兩大部分。從性質(zhì)上看,Web內(nèi)容挖掘?qū)儆谖谋就诰虻囊环N形式,其作用的對象大部分是Web文檔的文本區(qū)域,文本挖掘涵蓋針對搜索工具的查詢結(jié)果所開展的分析、整理、歸類等工作。Web使用記錄的挖掘主要針對的是Web日志以及Web使用數(shù)據(jù),它能根據(jù)Web的訪問記錄直接定位到感興趣的模式,Web日志的涵蓋面非常廣,主要包括服務(wù)器上與Web訪問有關(guān)的各類日志文件,如日志、引用日志、訪問日志等,其中涉及到用戶的諸多訪問信息,包括訪問時(shí)間、訪問途徑、用戶的IP地址、訪問結(jié)果等。
1.2高校數(shù)字圖書館概述
隨著信息化、網(wǎng)絡(luò)化、數(shù)字化時(shí)代的到來,人們在工作和學(xué)習(xí)過程中對數(shù)據(jù)信息的需求量也逐漸上升,信息資源的類型及其表現(xiàn)形式越來越豐富,比較常見的主要包括電子圖書、期刊等,在這樣的時(shí)代背景下,數(shù)字圖書館也逐漸出現(xiàn),它是以傳統(tǒng)圖書館為基礎(chǔ)的一種新型信息系統(tǒng),它的主要功能是可以對文本、圖像、數(shù)據(jù)、聲音等多樣化的信息進(jìn)行采集、分析和整理,徹底顛覆了以往圖書館中采用其他非數(shù)字化介質(zhì)來進(jìn)行存儲的落后方法。數(shù)字圖書館主要采用現(xiàn)代化的先進(jìn)技術(shù),把圖書館中的重要文獻(xiàn)進(jìn)行數(shù)字化存儲,用戶可以利用互聯(lián)網(wǎng)在任意時(shí)間和空間查看信息,這就使圖書館的服務(wù)范圍突破了時(shí)空限制,能為用戶帶來更多的方便,與傳統(tǒng)的圖書館相比,數(shù)字圖書館具有多方面的優(yōu)勢,具體表現(xiàn)在以下幾點(diǎn):(1)相同的數(shù)據(jù)信息可在同一時(shí)間被多個(gè)用戶查看,這就有效避免了傳統(tǒng)圖書館中紙質(zhì)書本只能在同一時(shí)間為一個(gè)人提供服務(wù)的缺陷。(2)數(shù)字圖書館的信息查詢更加方便,它能為用戶提供遠(yuǎn)程信息檢索功能。(3)數(shù)字圖書館的數(shù)據(jù)信息存儲空間比較小,其存儲的數(shù)據(jù)信息能得到有效保護(hù),不易被破壞。
2Web數(shù)據(jù)挖掘在高校數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用
2.1發(fā)現(xiàn)用戶偏好,為其提供個(gè)性化的訪問區(qū)域
Web站點(diǎn)在設(shè)計(jì)的時(shí)候大多是采用的同一種分類形式,也就是同一個(gè)頁面內(nèi)的分頁面往往是按照其類別來組織的,用戶在對Web站點(diǎn)進(jìn)行訪問的時(shí)候,可在很大程度上反映出其偏好,一般來說,用戶在訪問某頁面時(shí)停留的時(shí)間越長或查看的字?jǐn)?shù)越多,就表明該用戶對這一頁面的內(nèi)容越感興趣,對于不感興趣的頁面,用戶停留的時(shí)間通常都比較短。對用戶感興趣程度進(jìn)行計(jì)算一般采用的是收集用戶瀏覽頁面的時(shí)間信息及其途徑等方式,這些信息能充分反映出該頁面對用戶的吸引力,進(jìn)而便于系統(tǒng)按照用戶的偏好,為之提供個(gè)性化的訪問區(qū)域。
2.2識別高頻率訪問路徑,提升圖書館資源的利用率
利用Web數(shù)據(jù)挖掘技術(shù),能對數(shù)字圖書館中的高頻率訪問路徑以及相關(guān)頁面的重要頁面進(jìn)行精確識別,從而將一些關(guān)鍵的新書信息和分類信息放在經(jīng)常訪問的路徑或者頁面之上,便于用戶找到所需信息,進(jìn)而達(dá)到提升圖書利用效率的目標(biāo)。
2.3使鏈接結(jié)構(gòu)得到進(jìn)一步優(yōu)化,為用戶提供便利
Web數(shù)字挖掘在高校數(shù)字圖書館中的應(yīng)用能促進(jìn)鏈接結(jié)構(gòu)的進(jìn)一步優(yōu)化,具體來說,主要表現(xiàn)在下列兩個(gè)方面:(1)經(jīng)過挖掘WebLog,可以了解到用戶所訪問的頁面之間的關(guān)聯(lián),進(jìn)而在具有緊密關(guān)系的頁面之間加強(qiáng)鏈接,使用戶更加快速地找到所需信息。(2)經(jīng)過挖掘WebLog,可以精確地找到用戶的期望位置,若遇到期望位置的訪問次數(shù)比實(shí)際位置的訪問次數(shù)更多的情況,則可以采取在實(shí)際位置與期望位置之間設(shè)立導(dǎo)航鏈接的方式來最大限度提升Web站點(diǎn)的優(yōu)化效果。
3結(jié)語
總而言之,Web數(shù)據(jù)挖掘與當(dāng)代高校數(shù)字圖書館的建設(shè)息息相關(guān),為了提高數(shù)字圖書館的服務(wù)質(zhì)量,最大限度滿足用戶的個(gè)性化需求,就必須學(xué)會科學(xué)地利用Web數(shù)據(jù)挖掘技術(shù),把握Web數(shù)據(jù)挖掘的類型及其特征,使其在發(fā)現(xiàn)用戶興趣愛好、識別高頻率訪問路徑以及鏈接結(jié)構(gòu)優(yōu)化等方面發(fā)揮出應(yīng)有的作用,讓用戶在訪問數(shù)字圖書館的過程中可以快速尋找到所需信息,充分感受到圖書館的人性化服務(wù)。
作者:孟玫 單位:南陽醫(yī)學(xué)高等專科學(xué)校
參考文獻(xiàn)
[1]歐陽烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書館個(gè)性化服務(wù)[J].現(xiàn)代情報(bào),2008,28(01):103-104,107.
[2]歐陽烽.基于數(shù)據(jù)挖掘的高校數(shù)字圖書館信息資源管理[D].中南大學(xué),2009.
[3]孫士新.高校數(shù)字圖書館個(gè)性化服務(wù)的應(yīng)用研究[D].鄭州大學(xué),2009.
[4]陳雪.WEB挖掘在高校數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用[J].蘭臺世界,2008(24):73-74.