個(gè)性化推薦范文
時(shí)間:2023-03-31 18:05:17
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇個(gè)性化推薦,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:個(gè)性化推薦;推薦技術(shù);關(guān)聯(lián)規(guī)則;協(xié)同過(guò)濾
隨著信息技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,人們逐漸從信息匱乏時(shí)代進(jìn)入了信息過(guò)載時(shí)代。這個(gè)時(shí)代,對(duì)于信息生產(chǎn)者而言,如何讓自己生產(chǎn)的信息脫穎而出,收到廣大用戶(hù)的關(guān)注是一件很困難的事情。對(duì)于用戶(hù)而言,信息量的增大加重了找到感興趣信息的負(fù)擔(dān),從而降低了信息的使用效率。推薦系統(tǒng)正是在這一環(huán)境中誕生的,它是根據(jù)用戶(hù)的信息需求、興趣等,將用戶(hù)感興趣的信息、產(chǎn)品等推薦給用戶(hù)的個(gè)性化信息推薦系統(tǒng)。
1 推薦系統(tǒng)概念、組成要素
目前被廣泛接受的推薦系統(tǒng)的概念和定義是Resnick和Varian在1997年給出的:“它是利用電子商務(wù)網(wǎng)站向客戶(hù)提供商品信息和建議,幫助用戶(hù)決定應(yīng)該購(gòu)買(mǎi)什么產(chǎn)品,模擬銷(xiāo)售人員幫助客戶(hù)完成購(gòu)買(mǎi)過(guò)程”。個(gè)性化推薦系統(tǒng)主要由三個(gè)要素組成,分別是:候選對(duì)象、用戶(hù)、推薦算法。推薦系統(tǒng)把用戶(hù)模型中興趣需求信息和推薦對(duì)象模型中的特征信息匹配,同時(shí)使用相應(yīng)的推薦算法進(jìn)行計(jì)算篩選,找到用戶(hù)可能感興趣的推薦對(duì)象,然后推薦給用戶(hù)。
2 推薦技術(shù)
推薦算法是整個(gè)推薦系統(tǒng)中核心的部分,在很大程度上決定了推薦系統(tǒng)的質(zhì)量。目前主要的推薦技術(shù)基本包括以下幾種:基于關(guān)聯(lián)規(guī)則的推薦技術(shù),基于內(nèi)容的推薦技術(shù),協(xié)同過(guò)濾推薦技術(shù)和混合推薦技術(shù)。
2.1 基于關(guān)聯(lián)規(guī)則的推薦技術(shù)
關(guān)聯(lián)規(guī)則是數(shù)據(jù)中所蘊(yùn)含的一類(lèi)重要規(guī)律,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘是數(shù)據(jù)挖掘中的一項(xiàng)根本任務(wù),關(guān)聯(lián)規(guī)則挖掘就是從數(shù)據(jù)項(xiàng)目中找出所有的并發(fā)關(guān)系,這種關(guān)系也稱(chēng)為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘的經(jīng)典應(yīng)用就是購(gòu)物籃數(shù)據(jù)分析,目的是找出顧客在商場(chǎng)(或普通店鋪)所選購(gòu)商品之間的關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則可以這樣表述。設(shè)I={i1,i2,…,in}為所有項(xiàng)的集合,事務(wù)T表示事務(wù)集合。數(shù)據(jù)庫(kù)D為事務(wù)數(shù)據(jù)庫(kù)。關(guān)聯(lián)規(guī)則形如XY的蘊(yùn)含式,其中X、Y均為項(xiàng)目集,并且X、Y沒(méi)有交集。關(guān)聯(lián)規(guī)則的強(qiáng)度可以用支持度和置信度表示。支持度為同時(shí)包含X、Y 項(xiàng)集的事務(wù)在數(shù)據(jù)庫(kù)D中的百分比。置信度為包含X的事務(wù)同時(shí)也包含Y在數(shù)據(jù)庫(kù)D中的百分比。目前已有大量文獻(xiàn)提出關(guān)聯(lián)規(guī)則挖掘算法,在眾多算法中,最著名的是Apriori 算法。
Apriori算法是由Agrawal等人在1994年提出來(lái)的,是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。該算法分兩步進(jìn)行:第一步,生成所有繁瑣項(xiàng)目集,繁瑣項(xiàng)目集是支持度高于最小支持度的項(xiàng)目集;第二步,從繁瑣項(xiàng)目集中生成所有可信的關(guān)聯(lián)規(guī)則,可信關(guān)聯(lián)規(guī)則是置信度大于最小置信度的規(guī)則。
基于關(guān)聯(lián)規(guī)則的推薦技術(shù)其優(yōu)點(diǎn)是:簡(jiǎn)單直接,領(lǐng)域通用性強(qiáng),規(guī)則的挖掘可以離線進(jìn)行,可以保證推薦算法的實(shí)時(shí)性要求。其缺點(diǎn)是:存在著嚴(yán)重的"冷啟動(dòng)"問(wèn)題,新加入的項(xiàng)目由于缺少相關(guān)的用戶(hù)數(shù)據(jù),難以被系統(tǒng)中的規(guī)則發(fā)現(xiàn),從而得不到推薦,并且隨著系統(tǒng)項(xiàng)目數(shù)量的不斷增加,規(guī)則也會(huì)呈出相應(yīng)的增長(zhǎng)趨勢(shì),使得規(guī)則的管理成本相應(yīng)升高,降低了系統(tǒng)的運(yùn)行效率。
2.2 基于內(nèi)容的推薦技術(shù)
基于內(nèi)容的推薦算法重要的是建立項(xiàng)目特征屬性庫(kù),系統(tǒng)通過(guò)用戶(hù)已關(guān)注項(xiàng)目的特征屬性值,來(lái)掌握目標(biāo)用戶(hù)興趣點(diǎn),依據(jù)用戶(hù)興趣點(diǎn)與待推薦項(xiàng)目屬性值的匹配程度進(jìn)行推薦。用戶(hù)興趣點(diǎn)的產(chǎn)生依賴(lài)于系統(tǒng)所采用的機(jī)器學(xué)習(xí)算法,如基于向量的表示、文本挖掘、判別樹(shù)、神經(jīng)網(wǎng)絡(luò)等技術(shù)?;趦?nèi)容的推薦結(jié)果直觀易理解,不需要過(guò)多的領(lǐng)域知識(shí),但是需要有足夠數(shù)據(jù)構(gòu)造分類(lèi)器,一些例如稀疏問(wèn)題、新用戶(hù)問(wèn)題和復(fù)雜屬性等問(wèn)題不易處理。
2.3 協(xié)同過(guò)濾推薦技術(shù)
基于協(xié)同過(guò)濾推薦技術(shù)是當(dāng)前主流的,應(yīng)用最為廣泛的一種推薦技術(shù)。該推薦技術(shù)可以分為兩種,一種是基于用戶(hù)的協(xié)同過(guò)濾推薦技術(shù);另一種是基于項(xiàng)目的協(xié)同過(guò)濾推薦技術(shù),這兩種協(xié)同過(guò)濾推薦技術(shù)的不同之處在于兩者針對(duì)的對(duì)象不同?;谟脩?hù)的協(xié)同過(guò)濾推薦技術(shù)是給用戶(hù)推薦和他有共同興趣的用戶(hù)喜歡的物品;基于項(xiàng)目的協(xié)同過(guò)濾推薦技術(shù)是給用戶(hù)推薦和他之前喜歡的物品相似的物品。
2.3.1 基于用戶(hù)的協(xié)同過(guò)濾推薦技術(shù)
基于用戶(hù)的協(xié)同過(guò)濾技術(shù)是推薦系統(tǒng)中最古老的算法。該算法在1992年被提出,并應(yīng)用于郵件過(guò)濾系統(tǒng),1994年被GroupLens應(yīng)用于新聞過(guò)濾。該算法主要包括兩個(gè)步驟:第一步,找到和目標(biāo)用戶(hù)興趣相似的用戶(hù)集合;第二步,找到這個(gè)集合中用戶(hù)喜歡的,且目標(biāo)用戶(hù)還沒(méi)有聽(tīng)說(shuō)過(guò)的物品,將該物品推薦給目標(biāo)用戶(hù)。
2.3.2 基于項(xiàng)目的協(xié)同過(guò)濾推薦技術(shù)
基于項(xiàng)目的協(xié)同過(guò)濾技術(shù)是基于這樣一個(gè)假設(shè):用戶(hù)更傾向于選擇與用戶(hù)喜歡的項(xiàng)目相近的項(xiàng)目。該推薦過(guò)程分為兩個(gè)步驟,第一,計(jì)算物品之間的相似度;第二,根據(jù)物品的相似度和用戶(hù)的歷史行為為用戶(hù)生成推薦列表。
2.4 混合推薦技術(shù)
目前,推薦技術(shù)已經(jīng)發(fā)展出了很多種,但每種推薦技術(shù)都在不同程度上存在各自的缺點(diǎn),每種推薦技術(shù)在針對(duì)特定的用戶(hù)或者項(xiàng)目時(shí)才能發(fā)揮出自己的優(yōu)勢(shì)。因此人們提出了混合推薦來(lái)互補(bǔ)推薦技術(shù)各自的不足,已達(dá)到一個(gè)理想的推薦效果。在大部分的混合推薦技術(shù)研究當(dāng)中,是將基于內(nèi)容的推薦技術(shù)和基于協(xié)同過(guò)濾技術(shù)相結(jié)合。相對(duì)于使用單一途徑算法的推薦技術(shù),基于混合推薦技術(shù)往往表現(xiàn)出更高的推薦精度和更好的推薦質(zhì)量。
3 推薦系統(tǒng)的應(yīng)用
自推薦系統(tǒng)誕生近20年的時(shí)間里,推薦系統(tǒng)的應(yīng)用領(lǐng)域迅速擴(kuò)展。從電子商務(wù)、音樂(lè)視頻網(wǎng)站,到作為互聯(lián)網(wǎng)經(jīng)濟(jì)支柱的在線廣告和新穎的在線應(yīng)用推薦,到處都有推薦系統(tǒng)的身影。下面簡(jiǎn)單介紹個(gè)性化推薦系統(tǒng)的應(yīng)用以及該領(lǐng)域較成功的網(wǎng)站。
3.1 電子商務(wù)
電子商務(wù)網(wǎng)站是個(gè)性化推薦系統(tǒng)的一大應(yīng)用領(lǐng)域。著名的電子商務(wù)網(wǎng)站亞馬遜是個(gè)性化推薦系統(tǒng)的積極應(yīng)用者和推廣者,被讀寫(xiě)網(wǎng)稱(chēng)為“推薦系統(tǒng)之王”。亞馬遜的推薦系統(tǒng)深入到了各類(lèi)產(chǎn)品中,其中最主要的應(yīng)用有個(gè)性化商品推薦列表和相關(guān)商品的推薦列表。
3.2 電影和視頻網(wǎng)站
在電影和視頻網(wǎng)站中,個(gè)性化推薦系統(tǒng)能夠幫助用戶(hù)在大量視頻信息中找到令他們滿(mǎn)意的視頻。該領(lǐng)域較成功的一家公司就是Netflix。Netflix在2006年開(kāi)始舉辦著名的Netflix Prize推薦系統(tǒng)比賽。該比賽對(duì)推薦系統(tǒng)的發(fā)展起到了重要的推動(dòng)作用。
3.3 個(gè)性化音樂(lè)網(wǎng)絡(luò)電臺(tái)
個(gè)性化推薦的成功應(yīng)用需要具備兩個(gè)條件。第一是存在信息過(guò)載的問(wèn)題,第二是用戶(hù)大部分時(shí)候沒(méi)有明確的需求。在這兩個(gè)條件下,個(gè)性化網(wǎng)絡(luò)電臺(tái)無(wú)疑是最合適的個(gè)性化推薦產(chǎn)品。目前國(guó)際上著名的有Pandora和Last.fm,國(guó)內(nèi)的代表則是豆瓣電臺(tái)。
3.4 個(gè)性化閱讀
閱讀文章是很多互聯(lián)網(wǎng)用戶(hù)每天都會(huì)做的事情。目前互聯(lián)網(wǎng)上的個(gè)性化閱讀工具很多,國(guó)際知名的有Google Reader,國(guó)內(nèi)有鮮果網(wǎng)等。同時(shí),隨著移動(dòng)設(shè)備的流行,移動(dòng)設(shè)備上針對(duì)個(gè)性化閱讀的應(yīng)用也很多,其中具有代表性的有Zite和Flipboard。
[參考文獻(xiàn)]
[1]Resnick P.Varian HR Recommender systems[外文期刊].1997(03).
[2]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009.20(2):350.362.
[3]王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7).
[4]劉興濤,石冰,解英文.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的一種改進(jìn)[J]. 山東大學(xué)學(xué)報(bào),2008,43(11):67-71.
[5]胡斌.基于高階潛在語(yǔ)義分析的音樂(lè)推薦系統(tǒng)的研究,碩士論文.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,2009.
[6]Schafer JB,Konstan J,Riedl J.Recommender systems in e-commerce[M].On Electronic Commerce,1999.P367-461.
[7]Deshpande M,Karypis G.Item-based top-N recommendation algorithms[J].ACM TransInformation Systems,22(1):143-177,2004.
篇2
關(guān)鍵詞:綜合云模型;屬性評(píng)價(jià);評(píng)分聚類(lèi);屬性聚類(lèi);協(xié)同過(guò)濾
0 引言
亞馬遜、當(dāng)當(dāng)網(wǎng)、數(shù)字圖書(shū)館等,幾乎都不同程度地使用個(gè)性化推薦系統(tǒng),向用戶(hù)推薦圖書(shū)、論文、商品等項(xiàng)目,實(shí)現(xiàn)個(gè)性化服務(wù)[1]。其中,協(xié)同過(guò)濾推薦算法是最成功的個(gè)性化推薦技術(shù)之一。但因用戶(hù)評(píng)分?jǐn)?shù)據(jù)的稀疏性,導(dǎo)致傳統(tǒng)推薦質(zhì)量下降。
為解決數(shù)據(jù)稀疏性帶來(lái)的傳統(tǒng)基于向量相似度的問(wèn)題,比較典型的方法之一是將利用云模型實(shí)現(xiàn)定性、定量知識(shí)轉(zhuǎn)換的優(yōu)勢(shì)應(yīng)用到推薦中:由云模型計(jì)算用戶(hù)評(píng)分特征相似度 [2]、項(xiàng)目評(píng)分特征相似度[3]的協(xié)同過(guò)濾算法;在云模型計(jì)算項(xiàng)目評(píng)分特征相似度的基礎(chǔ)上,預(yù)測(cè)未評(píng)分項(xiàng)目的評(píng)分,然后利用云模型計(jì)算用戶(hù)相似度,最終獲取用戶(hù)鄰居再進(jìn)行推薦[4],但沒(méi)有利用有益于推薦的用戶(hù)、項(xiàng)目屬性;利用云模型填充評(píng)分矩陣,結(jié)合項(xiàng)目屬性加權(quán)推薦[5] 、結(jié)合云模型通過(guò)比較項(xiàng)目屬性相似度的推薦[6],在類(lèi)內(nèi)利用云模型獲得項(xiàng)目鄰居,進(jìn)行類(lèi)內(nèi)評(píng)分填充,結(jié)合云模型的用戶(hù)相似度進(jìn)行推薦[7],這三種方法也沒(méi)有充分利用用戶(hù)屬性信息;研究云模式在用戶(hù)行為相似度、用戶(hù)等級(jí)的模式,并通過(guò)聚類(lèi)算法改進(jìn)推薦算法[8]。以上改進(jìn)算法都沒(méi)有考慮綜合云模型下的推薦。
本文在前面研究的基礎(chǔ)上,利用用戶(hù)對(duì)項(xiàng)目各個(gè)屬性的評(píng)價(jià)值和評(píng)價(jià)時(shí)間,計(jì)算綜合云模型的用戶(hù)項(xiàng)目屬性評(píng)價(jià)相似度,獲取基于屬性評(píng)價(jià)的用戶(hù)鄰居。利用改進(jìn)的聚類(lèi)算法Kmedoids,根據(jù)用戶(hù)評(píng)分對(duì)用戶(hù)聚類(lèi),獲得基于評(píng)分的用戶(hù)鄰居。對(duì)用戶(hù)原始屬性進(jìn)行標(biāo)準(zhǔn)化,再進(jìn)行Kmedoids聚類(lèi)。結(jié)合綜合云模型的屬性評(píng)價(jià)、用戶(hù)評(píng)分聚類(lèi)、用戶(hù)屬性聚類(lèi)產(chǎn)生的鄰居的并集,向目標(biāo)用戶(hù)推薦項(xiàng)目。實(shí)驗(yàn)驗(yàn)證,提出的方法有效地緩解推薦算法數(shù)據(jù)稀疏的問(wèn)題。
1 云模型
云模型能夠?qū)崿F(xiàn)定性概念與其定量數(shù)值表示之間的不確定性轉(zhuǎn)換模型,反映自然、社會(huì)中的模糊性、隨機(jī)性,已經(jīng)應(yīng)用于電子商務(wù)、模糊評(píng)測(cè)等領(lǐng)域[9]。
定義1 一維云模型。設(shè)T={x}是用精確數(shù)值表示的定量論域,C是定量論域T的定性概念,若T中的元素x對(duì)C的隸屬度μ(x)∈[0,1]是一個(gè)具有穩(wěn)定傾向的隨機(jī)數(shù),μ:T[0,1],x∈T,xμ(x),則x在T中的分布C(X)稱(chēng)為云(Cloud),每個(gè)x叫作一個(gè)云滴。云的數(shù)字特征用期望Ex、熵En和超熵He來(lái)表示。Ex為云滴的重心位置,反映云滴在論域中的分布期望;En是定性概念亦此亦彼的度量,反映定性概念在論域中被接受的范圍。超熵He是En的熵,用于度量熵的不確定性,由熵的隨機(jī)性、模糊性決定[9]。
定義2 綜合云模型。將兩朵及以上的同類(lèi)型子云進(jìn)行綜合,產(chǎn)生一朵高層概念的父云。計(jì)算所有子云的數(shù)字特征,得到作為父云的綜合云的數(shù)字特征[9]。例如:由論域中的b個(gè)同類(lèi)型子云C1(Ex1,En1,He1),C2(Ex2,En2,He2),…,Cb(Exb,Enb,Heb),可產(chǎn)生作為父云的綜合云C(Ex,En,He),并且
篇3
【關(guān)鍵詞】個(gè)性化;智能化推薦系統(tǒng);推薦技術(shù)
不斷擴(kuò)大規(guī)模的電子商務(wù)系統(tǒng),在為消費(fèi)者提供越來(lái)越多購(gòu)物選擇的同時(shí),其自身商業(yè)結(jié)構(gòu)也變得更加復(fù)雜。消費(fèi)者經(jīng)常會(huì)迷失在大量的商品信息空間中,無(wú)法順利找到自己需要的商品;另一方面,商家也失去了與消費(fèi)者之間的聯(lián)系,不能準(zhǔn)確獲知消費(fèi)者的消費(fèi)需求、消費(fèi)建議。推薦系統(tǒng)就像商店導(dǎo)購(gòu)人員,直接面對(duì)消費(fèi)者,為其提供商品推薦。這種能準(zhǔn)確獲取不同消費(fèi)者消費(fèi)需求的推薦系統(tǒng)就是我們要研究的個(gè)性化智能推薦系統(tǒng)。
一、電子商務(wù)個(gè)性化智能推薦系統(tǒng)
個(gè)性化智能推薦系統(tǒng)是指通過(guò)收集、統(tǒng)計(jì)和分析不同消費(fèi)者消費(fèi)特征,使用推薦算法研究消費(fèi)者的興趣偏好和購(gòu)買(mǎi)行為,并適時(shí)更新數(shù)據(jù),實(shí)現(xiàn)主動(dòng)向消費(fèi)者推薦其所需商品的工作過(guò)程。
智能推薦系統(tǒng)運(yùn)作的中心是準(zhǔn)確得出消費(fèi)者的個(gè)體需求,建立以消費(fèi)者本身消費(fèi)特征為中心的個(gè)性化的營(yíng)銷(xiāo)策略,滿(mǎn)足不同消費(fèi)者的不同偏好。電子商務(wù)推薦系統(tǒng)通過(guò)個(gè)性化推薦技術(shù)對(duì)網(wǎng)站整體結(jié)構(gòu)進(jìn)行調(diào)整,增加商品的曝光數(shù),提升用戶(hù)平均訪問(wèn)步長(zhǎng)和商品頁(yè)訪問(wèn)量,從而提高網(wǎng)站整體營(yíng)銷(xiāo)能力。
如何使電子商務(wù)個(gè)性推薦系統(tǒng)更好地根據(jù)消費(fèi)者的需求推薦消費(fèi)者感興趣的商品,答案就在其采用的推薦技術(shù)上。推薦技術(shù)是電子商務(wù)推薦系統(tǒng)中最核心,最關(guān)鍵的技術(shù),很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。
二、推薦技術(shù)
從電子商務(wù)個(gè)性化推薦系統(tǒng)的主動(dòng)性上分類(lèi),可以將推薦技術(shù)分為主動(dòng)式推薦和被動(dòng)式推薦。
所謂主動(dòng)式推薦,是指推薦系統(tǒng)通過(guò)對(duì)消費(fèi)者信息和行為的分析,給出恰當(dāng)?shù)囊庖?jiàn)和建議主動(dòng)引導(dǎo)消費(fèi);而被動(dòng)式推薦是指消費(fèi)者通過(guò)自己的努力獲得所需要的商品信息。
根據(jù)目前主流的推薦技術(shù)分類(lèi),制作下表。
(一)被動(dòng)推薦
被動(dòng)式推薦技術(shù)的優(yōu)點(diǎn)是技術(shù)比較成熟,用戶(hù)易于使用。主要有下面兩大類(lèi):
1、分類(lèi)瀏覽式推薦
分類(lèi)瀏覽是一種按照主題分類(lèi)進(jìn)行信息查詢(xún)的方法。它用樹(shù)形結(jié)構(gòu)將分類(lèi)的商品和服務(wù)信息表現(xiàn)出來(lái),易于實(shí)現(xiàn),同時(shí)操作方便。
幾乎所有的電子商務(wù)交易網(wǎng)站都提供這種方式的推薦。但是推薦效率低,且分類(lèi)方法不統(tǒng)一,對(duì)新出現(xiàn)的商品和信息很難準(zhǔn)確歸類(lèi)。
2、關(guān)鍵詞查詢(xún)式推薦
關(guān)鍵詞查詢(xún)由用戶(hù)輸入查找目標(biāo)的關(guān)鍵詞,系統(tǒng)尋找與關(guān)鍵詞匹配的內(nèi)容進(jìn)行推薦。這種方法也是比較常見(jiàn)的推薦方法,技術(shù)較為成熟,且易于用戶(hù)接受查找結(jié)果,但是對(duì)關(guān)鍵詞的選擇要求較高,且不易發(fā)現(xiàn)用戶(hù)的潛在興趣點(diǎn)。
被動(dòng)式推薦自動(dòng)化程度低,無(wú)法發(fā)掘用戶(hù)潛在興趣與消費(fèi)需求,因此目前研究比較多的是主動(dòng)式推薦,即智能推薦技術(shù)
(二)智能推薦技術(shù)
篇4
隨著互聯(lián)網(wǎng)走進(jìn)各家各戶(hù),電子商務(wù)發(fā)展越來(lái)越快,服務(wù)和產(chǎn)品也越來(lái)越多,這就造成信息過(guò)于冗雜,客戶(hù)面對(duì)海量選擇,往往要浪費(fèi)很多時(shí)間來(lái)挑選自己需要的商品。為了使消費(fèi)者避免浪費(fèi)時(shí)間,已更加從容的心態(tài)來(lái)購(gòu)買(mǎi)商品,電子商務(wù)推薦系統(tǒng)可以精確識(shí)別消費(fèi)者的喜好,模擬銷(xiāo)售人員幫助消費(fèi)者完成購(gòu)買(mǎi),給消費(fèi)者想要的推薦,讓挑選變得簡(jiǎn)單。統(tǒng)計(jì)學(xué)、人工智能數(shù)據(jù)挖掘等技術(shù)都應(yīng)用于電子商務(wù)推薦系統(tǒng)(Recommendation Systems)中,想要引導(dǎo)消費(fèi)者完成購(gòu)買(mǎi)行為,就要先分析消費(fèi)者的購(gòu)買(mǎi)意愿,所謂知己知彼百戰(zhàn)不殆,分析消費(fèi)者訪問(wèn)網(wǎng)站的行為,并最后給出令客戶(hù)滿(mǎn)意的推薦結(jié)果,來(lái)產(chǎn)生豐厚的利潤(rùn)。所以說(shuō),推薦系統(tǒng)的核心便是推薦結(jié)果是否準(zhǔn)確,如果是客戶(hù)需要的,則會(huì)提高顧客的購(gòu)買(mǎi)意愿;反之如果推薦結(jié)果不合顧客的意,那便是端起石頭砸自己的腳,客戶(hù)也會(huì)對(duì)推薦系統(tǒng)產(chǎn)生懷疑,購(gòu)買(mǎi)興趣大大降低。
1 推薦系統(tǒng)介紹
對(duì)客戶(hù)行為信息進(jìn)行收集的記錄模塊、對(duì)用戶(hù)喜好進(jìn)行分析的模型分析模塊、推薦系統(tǒng)的核心推薦算法模塊以及處理售后服務(wù)的反饋處理模塊組成了一個(gè)完整的推薦系統(tǒng)。將對(duì)的商品推薦給對(duì)的人就是推薦系統(tǒng)的目標(biāo),常見(jiàn)的推薦機(jī)制算法有三種,分別是基于關(guān)聯(lián)規(guī)則的算法(Association Rule_based Recommendation)、基于內(nèi)容的推薦算法(Content-based Recommendation)、協(xié)同過(guò)濾推薦算法(Collaborative Filtering Recommendation)。算法數(shù)據(jù)的表示不是很復(fù)雜,一個(gè)二維表或者是一個(gè)MXN的矩陣足以。把日志或消費(fèi)類(lèi)的數(shù)據(jù)通過(guò)一定的預(yù)處理,所有的商品類(lèi)目用列表示,所有用戶(hù)用行表示。
把用戶(hù)的購(gòu)買(mǎi)需求轉(zhuǎn)化成購(gòu)買(mǎi)結(jié)果,這是一個(gè)電子商務(wù)推薦系統(tǒng)的終極目標(biāo),也是衡量推薦機(jī)制好壞的標(biāo)準(zhǔn)。在實(shí)際生活中,消費(fèi)者去實(shí)體店購(gòu)買(mǎi)商品,會(huì)有“導(dǎo)購(gòu)員”進(jìn)行服務(wù),提高消費(fèi)者的購(gòu)買(mǎi)意愿,而在電子商務(wù)網(wǎng)站中,推薦系統(tǒng)就是這個(gè)“導(dǎo)購(gòu)員”。一個(gè)好的推薦系統(tǒng)就像一個(gè)好的“導(dǎo)購(gòu)員”一樣,讓消費(fèi)者了解商品后更加愿意購(gòu)買(mǎi)商品。主要實(shí)現(xiàn)一下功能:①完善用戶(hù)體驗(yàn),給出個(gè)性化推薦;②更好的向消費(fèi)者展示商品,提高轉(zhuǎn)換率;③發(fā)現(xiàn)消費(fèi)者潛在需求,挖掘更廣的市場(chǎng)。
網(wǎng)站的推薦形式多種多樣,經(jīng)常用到的有三種:①根據(jù)會(huì)員的歷史購(gòu)買(mǎi)記錄,來(lái)進(jìn)行推薦機(jī)制的營(yíng)銷(xiāo);②由購(gòu)物車(chē)或物品收藏來(lái)做相似物品推薦;③針對(duì)消費(fèi)者的歷史信息來(lái)做相關(guān)推薦。
個(gè)性化推薦系統(tǒng)能夠深度挖掘電商消費(fèi)者的興趣,增強(qiáng)消費(fèi)者持續(xù)購(gòu)買(mǎi)的意愿,從而形成信任關(guān)系達(dá)到維系老客戶(hù),減緩以及解決現(xiàn)在電商平臺(tái)存在消費(fèi)者持續(xù)購(gòu)買(mǎi)意愿不強(qiáng)的問(wèn)題。我們假設(shè)一下,如果沒(méi)有了推薦系統(tǒng)的精準(zhǔn)推薦,消費(fèi)者可能將要花更多的時(shí)間來(lái)找自己中意的商品;如果失去了系統(tǒng)的熱門(mén)推薦,消費(fèi)者將很難買(mǎi)到質(zhì)量好價(jià)格低的產(chǎn)品;如果失去了推薦系統(tǒng)的輔助政策,消費(fèi)者做出的選擇往往不是最優(yōu)的,這樣也不會(huì)購(gòu)買(mǎi)到自己感到滿(mǎn)意的產(chǎn)品,對(duì)網(wǎng)站也不會(huì)有好感度,二次購(gòu)買(mǎi)也不會(huì)再有了。這對(duì)賣(mài)家和買(mǎi)家來(lái)說(shuō)都是損失,因此電商平臺(tái)是一種雙贏的表現(xiàn)。
2 協(xié)同過(guò)濾推薦
假如兩個(gè)用戶(hù)過(guò)去有相似的喜好產(chǎn)品,那么他們現(xiàn)在依然有相似的喜好產(chǎn)品,這是基于用戶(hù)(user-based)的協(xié)同過(guò)濾;假如有用戶(hù)過(guò)去喜好某產(chǎn)品,那么他現(xiàn)在任然喜好與該產(chǎn)品類(lèi)似的產(chǎn)品,這是基于項(xiàng)目(item-based)的協(xié)同過(guò)濾。傳統(tǒng)協(xié)同過(guò)濾算法一般就分為這兩種,協(xié)同過(guò)濾不需要獲得產(chǎn)品或用戶(hù)特征,而是憑借相似性度量方法和評(píng)分?jǐn)?shù)據(jù)來(lái)進(jìn)行預(yù)測(cè),只要評(píng)分?jǐn)?shù)據(jù)越多,預(yù)測(cè)也會(huì)變得更精準(zhǔn)。
協(xié)同過(guò)濾作為目前最成功的推薦技術(shù)之一,已被廣泛應(yīng)用于各類(lèi)電子商務(wù)推薦系統(tǒng)及互聯(lián)網(wǎng)的相關(guān)領(lǐng)域,譬如國(guó)外的Amazon, eBay, NetFlix以及國(guó)內(nèi)的淘寶網(wǎng)和當(dāng)當(dāng)網(wǎng)等等。伴隨電子商務(wù)的不斷發(fā)展,用戶(hù)數(shù)量也飛速增加,用戶(hù)―項(xiàng)目評(píng)分?jǐn)?shù)據(jù)的維度急劇增高,可是用戶(hù)給予的評(píng)價(jià)卻不是很多,使得傳統(tǒng)的協(xié)同過(guò)濾推薦面臨嚴(yán)峻的用戶(hù)評(píng)分?jǐn)?shù)據(jù)稀疏性問(wèn)題。同時(shí),用戶(hù)的需求也在隨著時(shí)間改變,而傳統(tǒng)協(xié)同過(guò)濾并不能很好的解決這個(gè)問(wèn)題,存在著局限性。所以,如何捕捉移動(dòng)的用戶(hù)感興趣的信息已經(jīng)變成電子商務(wù)亟待解決的問(wèn)題。
3 典型應(yīng)用
亞馬遜作為電商平臺(tái)的領(lǐng)頭羊,推薦商品占銷(xiāo)售總量的百分之四十,同時(shí)也是較早使用推薦系統(tǒng)的電子商務(wù)平臺(tái),當(dāng)然他們的推薦形式也是別出心裁。例如,一位顧客買(mǎi)了一個(gè)相機(jī),系統(tǒng)就會(huì)自動(dòng)的給他推薦能用到的電池產(chǎn)品。但是由于商品多樣化的趨勢(shì),亞馬遜電商平臺(tái)不斷更新后數(shù)據(jù)分析能力的增強(qiáng),推薦系統(tǒng)可以推薦購(gòu)買(mǎi)過(guò)該產(chǎn)品的用戶(hù)還購(gòu)買(mǎi)的其他產(chǎn)品。
由于使用真實(shí)的購(gòu)買(mǎi)數(shù)據(jù),而不是假設(shè)消費(fèi)者會(huì)購(gòu)買(mǎi)什么商品,亞馬遜能夠提出非常精準(zhǔn)的提?h。例如提示“購(gòu)買(mǎi)此商品的用戶(hù)同時(shí)購(gòu)買(mǎi)”,就是一種很機(jī)智的營(yíng)銷(xiāo)手法,可以讓消費(fèi)者橫向比較,開(kāi)闊自己的眼界,更加容易找到自己的需要。
亞馬遜使用的是“協(xié)同過(guò)濾”算法,這種算法把消費(fèi)者串聯(lián)起來(lái),有相似興趣行為的劃為一組,參照消費(fèi)者的購(gòu)買(mǎi)歷史,經(jīng)常做到事半功倍。任何人的興趣都不是孤立的,這就是“協(xié)同過(guò)濾”算法的出發(fā)點(diǎn),應(yīng)該處于一個(gè)群體所感興趣的產(chǎn)品中,就是如果一群消費(fèi)者對(duì)一個(gè)商品的評(píng)分很相似,那么他們對(duì)另一個(gè)商品的評(píng)分也不會(huì)相差很多。該推薦算法的核心在于采用技術(shù)找到于目標(biāo)消費(fèi)者有相似興趣的消費(fèi)者,然后根據(jù)相似消費(fèi)者對(duì)目標(biāo)商品的評(píng)分做出推薦,并且把測(cè)試評(píng)分最高的多項(xiàng)商品作為該消費(fèi)者推薦列表。
亞馬遜的頁(yè)面分為非登錄用戶(hù)和登錄用戶(hù)。對(duì)于非登錄用戶(hù),亞馬遜會(huì)推薦各個(gè)類(lèi)目的暢銷(xiāo)品,換言之就是排行榜。查詢(xún)?yōu)g覽頁(yè)面和詳細(xì)的商品頁(yè)面則會(huì)有關(guān)聯(lián)推薦,比如“購(gòu)買(mǎi)此物品還可購(gòu)買(mǎi)”;通過(guò)人的相似興趣來(lái)推薦,像“購(gòu)買(mǎi)此物品的顧客也購(gòu)買(mǎi)了”,“看過(guò)此商品的顧客購(gòu)買(mǎi)的其他商品”。
而對(duì)于登錄用戶(hù),亞馬遜的推薦方式卻截然不同,首頁(yè)的頁(yè)面會(huì)有一個(gè)今日推薦的欄目,這個(gè)欄目是由用戶(hù)的歷史瀏覽記錄生成出來(lái)的,在下面是最近一次購(gòu)買(mǎi)商品給的記錄以及類(lèi)似商品的推薦,如“根據(jù)瀏覽推薦給我的產(chǎn)品”,“瀏覽XX商品的用戶(hù)會(huì)買(mǎi)XX的概率”,有意思的是,每個(gè)頁(yè)面的最下方都會(huì)根據(jù)消費(fèi)者的瀏覽內(nèi)容給出對(duì)應(yīng)的推薦,沒(méi)有瀏覽記錄的會(huì)推薦系統(tǒng)暢銷(xiāo)。
4 結(jié)論
篇5
智能Web時(shí)代的到來(lái)意味著大數(shù)據(jù)分析在各個(gè)行業(yè)的運(yùn)用成為必然趨勢(shì),推薦系統(tǒng)作為典型的智能Web應(yīng)用,通過(guò)對(duì)用戶(hù)行為數(shù)據(jù)的積累和分析,將傳統(tǒng)用戶(hù)的搜索行為轉(zhuǎn)化為推送行為,從而實(shí)現(xiàn)原始電商到智能電商的轉(zhuǎn)變。本文以智能Web時(shí)代為引,就旅游電商推薦系統(tǒng)的基本實(shí)現(xiàn)方法和思路展開(kāi)了討論和分析。
【關(guān)鍵詞】智能Web 個(gè)性化旅游電商
1 智能Web時(shí)代的到來(lái)
當(dāng)我們?nèi)ビ啿偷臅r(shí)候,飯店訂餐系統(tǒng)引用了我們公開(kāi)的健康調(diào)查數(shù)據(jù),從而為我們搭配適宜的綠色飲食;當(dāng)我們與陌生人在線聊天時(shí),對(duì)話內(nèi)容得到通訊軟件后臺(tái)的事實(shí)核查,保證交流內(nèi)容的真實(shí)和安全(如facebook);當(dāng)我們?cè)诰€購(gòu)書(shū)時(shí),電商平臺(tái)能夠根據(jù)用戶(hù)購(gòu)物行為的相似度判斷來(lái)給出最合理的推薦(如亞馬遜)。這一系列的發(fā)生與正在發(fā)生的案例為我們?cè)忈屃艘粋€(gè)時(shí)代的到來(lái),智能Web時(shí)代。
所謂智能,是指能夠不斷通過(guò)大數(shù)據(jù)分析抽象出普遍規(guī)則,進(jìn)而替代窮舉的一種高效機(jī)器學(xué)習(xí)方式。拓展開(kāi)講,一款智能Web應(yīng)用要首先具備大數(shù)據(jù)能力,或者叫內(nèi)容聚合,這是機(jī)器學(xué)習(xí)的基礎(chǔ)條件;然后需要具備參考結(jié)構(gòu),參考結(jié)構(gòu)為原始大數(shù)據(jù)提供了科學(xué)的解釋和展示形式,它為原始數(shù)據(jù)的分析和展現(xiàn)提供了重要的助力;最后還要具備合理的算法,算法為從數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔⑻峁┝丝尚械姆椒?,并將信息抽象為引?dǎo)用戶(hù)交互的規(guī)則,這三大要素構(gòu)成了智能Web應(yīng)用的充要條件。
2 旅游電商推薦系統(tǒng)研究與設(shè)計(jì)
作為一類(lèi)典型的智能Web應(yīng)用,推薦系統(tǒng)因?yàn)楣雀璧膹V告和亞馬遜的商品推薦等形式為人們所熟知,它的出現(xiàn)為當(dāng)下信息過(guò)載的大環(huán)境帶來(lái)了良好的解決方案。通過(guò)對(duì)用戶(hù)行為數(shù)據(jù)的積累和分析,將傳統(tǒng)用戶(hù)的搜索行為轉(zhuǎn)化為推送行為,從而實(shí)現(xiàn)原始電商到智能電商的轉(zhuǎn)變。
旅游電商對(duì)推薦系統(tǒng)的認(rèn)識(shí)度和重視度目前還處于比較初級(jí)的狀態(tài),遠(yuǎn)不如消費(fèi)品電商平臺(tái),這也反映出了旅游電商企業(yè)對(duì)大數(shù)據(jù)的分析處理意識(shí)與主流消費(fèi)品電商的差距。我們認(rèn)為,實(shí)現(xiàn)高效用的旅游電商推薦系統(tǒng),需要在精準(zhǔn)度和展現(xiàn)形式兩方面進(jìn)行深入研究,第一是要對(duì)旅游產(chǎn)品進(jìn)行精確建模,只有精確建模才能在推薦計(jì)算中獲得準(zhǔn)確的結(jié)果。第二是推薦引擎的科學(xué)選擇,常見(jiàn)的推薦系統(tǒng)引擎分為兩類(lèi),協(xié)同過(guò)濾推薦和基于內(nèi)容分析的推薦。協(xié)同過(guò)濾推薦是基于用戶(hù)的行為數(shù)據(jù)積累做出推薦,例如基于相似用戶(hù)的推薦和基于相似條目的推薦?;趦?nèi)容分析的推薦則需要考量用戶(hù)之間、條目之間和用戶(hù)與條目?jī)?nèi)容之間的相似度。其中,相似度算法是不同推薦引擎的核心,我們通過(guò)如下常用代碼片段來(lái)說(shuō)明相似度的計(jì)算方法。
由代碼1可知,事實(shí)上相似度計(jì)算的方法是多樣化的,需要根據(jù)實(shí)際的問(wèn)題進(jìn)行相似度算法的選擇,目前大量的實(shí)驗(yàn)表明,基于歐氏距離的相似度算法效果相對(duì)較好。
在大數(shù)據(jù)的精確分析基礎(chǔ)上,再將推薦結(jié)果以服務(wù)而非廣告的展示形式推送到旅游電商的各個(gè)營(yíng)銷(xiāo)環(huán)節(jié),必將會(huì)極大的推動(dòng)產(chǎn)品購(gòu)買(mǎi)的轉(zhuǎn)化率。
3 旅游電商推薦系統(tǒng)展望
在智能Web時(shí)代,隨著人們對(duì)信息和服務(wù)的智能化要求,推薦系統(tǒng)必定會(huì)在旅游電商營(yíng)銷(xiāo)環(huán)節(jié)占據(jù)愈加重要的地位,同時(shí),單一的旅游產(chǎn)品推薦將會(huì)無(wú)法滿(mǎn)足用戶(hù)的需求,旅游推薦系統(tǒng)的衍生形態(tài)將會(huì)慢慢發(fā)展起來(lái),推薦系統(tǒng)的內(nèi)容和展示方式也都將會(huì)呈現(xiàn)出多元化和個(gè)性化的趨勢(shì)。作為旅游電商的從業(yè)者,必須清楚的認(rèn)識(shí)到推薦系統(tǒng)、大數(shù)據(jù)分析、智能Web等要素對(duì)旅游電商發(fā)展的推動(dòng)作用,并隨勢(shì)而動(dòng),才能在互聯(lián)網(wǎng)+的時(shí)代獲得市場(chǎng)和用戶(hù)的青睞。
參考文獻(xiàn)
[1]吳婷,熊前興,賀曦春.基于用戶(hù)特征和用戶(hù)興趣變化的協(xié)同過(guò)濾推薦[J].電腦知識(shí)與技術(shù),2008,4(7).
[2]王國(guó)霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7).
[3]張娜.電子商務(wù)環(huán)境下的個(gè)性化信息推薦服務(wù)及應(yīng)用研究[D].合肥工業(yè)大學(xué),2007.
[4]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報(bào),2009,20(2).
[5]王巧榮,趙海燕,曹健.個(gè)性化服務(wù)中的用戶(hù)建模技術(shù)[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(1).
作者簡(jiǎn)介
嚴(yán)杰(1981-),男,浙江省衢州市人。碩士學(xué)位?,F(xiàn)為浙江旅游職業(yè)學(xué)院講師。研究方向?yàn)閃eb開(kāi)發(fā)和電子商務(wù)。
篇6
[關(guān)鍵詞]個(gè)性化推薦聚類(lèi)分析協(xié)同過(guò)濾平均絕度誤差
中圖分類(lèi)號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)1120074-01
一、研究現(xiàn)狀
1.傳統(tǒng)算法中在線執(zhí)行效率低的問(wèn)題。所謂的執(zhí)行效率低即在海量用戶(hù)數(shù)據(jù)中在線尋找目標(biāo)用戶(hù)鄰居的過(guò)程非常浪費(fèi)時(shí)間,針對(duì)該問(wèn)題新的算法將采用用戶(hù)聚類(lèi)的方法建立離線模型,從而縮小鄰居用戶(hù)查找時(shí)的搜索空間,節(jié)省在線處理數(shù)據(jù)的時(shí)間,然后可對(duì)數(shù)據(jù)進(jìn)行定期的更新,提高算法的執(zhí)行效率。2.數(shù)據(jù)稀疏性問(wèn)題。通過(guò)分析Web日志信息,將一些隱性信息轉(zhuǎn)化為顯性信息,可以解決此類(lèi)問(wèn)題的產(chǎn)生。
二、算法的整體框架
該算法首先采用web日志和數(shù)據(jù)庫(kù)記錄的方法,將用戶(hù)的行為記錄下來(lái),并將這些隱性的用戶(hù)行為轉(zhuǎn)化為顯性的用戶(hù)對(duì)項(xiàng)目評(píng)價(jià);然后采用改進(jìn)后的相似度計(jì)算方法計(jì)算用戶(hù)之間的相似度;接著對(duì)用戶(hù)進(jìn)行聚類(lèi),將用戶(hù)按照他們的行為自動(dòng)地劃分為若干個(gè)用戶(hù)聚類(lèi)簇;最后根據(jù)用戶(hù)對(duì)最近鄰居的評(píng)分來(lái)預(yù)測(cè)其對(duì)目標(biāo)項(xiàng)目的評(píng)分,進(jìn)而產(chǎn)生推薦。
三、數(shù)據(jù)的預(yù)處理
本文采取了隱性提取用戶(hù)信息的方法,通過(guò)分析電子商務(wù)網(wǎng)站服務(wù)器日志的方法去尋找用戶(hù)的興趣所在。一個(gè)用戶(hù)對(duì)商品(或項(xiàng)目)的興趣度可以體現(xiàn)在以下幾個(gè)方面:用戶(hù)是否對(duì)對(duì)商品和項(xiàng)目進(jìn)行顯性的評(píng)分;用戶(hù)是否購(gòu)買(mǎi)或收藏過(guò)某商品或項(xiàng)目,購(gòu)買(mǎi)的數(shù)目;用戶(hù)是否將一個(gè)商品或項(xiàng)目從自己的收藏列表中移除;用戶(hù)對(duì)某商品或項(xiàng)目的點(diǎn)擊次數(shù);用戶(hù)在某商品或項(xiàng)目的頁(yè)面上停留的時(shí)間。
以上提到的各個(gè)因素都可以以web日志或數(shù)據(jù)庫(kù)的形式保存。用戶(hù)對(duì)商品的評(píng)分值就可以根據(jù)上面的幾個(gè)因素來(lái)設(shè)定。如公式1.1所示,i表示用戶(hù)編號(hào);j表示商品或項(xiàng)目編號(hào);表示用戶(hù)i對(duì)商品j的隱性評(píng)分值;
表示用戶(hù)i對(duì)商品j的顯性評(píng)分值;表示用戶(hù)i購(gòu)買(mǎi)商品j的數(shù)目;表示用戶(hù)i是否將商品j添加到收藏,添加為1,否則為0;表示用戶(hù)i對(duì)商品j的點(diǎn)擊次數(shù);表示用戶(hù)i在商品j的頁(yè)面上停留的時(shí)間。隱性評(píng)分的計(jì)算公式如下:
其中,公式1.1中的是線性權(quán)重系數(shù),它的大小可以通過(guò)經(jīng)驗(yàn)來(lái)人為地確定。比如說(shuō)用戶(hù)顯性評(píng)分的重要性一定要高于其他的權(quán)重值,而相比之下的值應(yīng)該是最小的。第二種確定權(quán)重系數(shù)的方法就是通過(guò)統(tǒng)計(jì)的方法,利用線性回歸來(lái)計(jì)算出 的具體的值。
通過(guò)上面的數(shù)據(jù)的預(yù)處理方法,我們就可以將隱性的用戶(hù)行為轉(zhuǎn)化為顯性的用戶(hù)對(duì)商品的評(píng)價(jià)。這樣我們就可以得到用戶(hù)-項(xiàng)目評(píng)價(jià)矩陣,該矩陣就是聚類(lèi)分析算法的輸入。
四、離線聚類(lèi)過(guò)程
聚類(lèi)過(guò)程的輸入就是上一節(jié)得到的用戶(hù)-項(xiàng)目評(píng)價(jià)矩陣,通過(guò)這一矩陣,使用相似度計(jì)算方法,既可以計(jì)算出用戶(hù)之間的相似度,將這些計(jì)算結(jié)果用矩陣表示,即得到了用戶(hù)相似度矩陣。接著我們采用4基于K-Means的用戶(hù)行為聚類(lèi)算法將用戶(hù)進(jìn)行聚類(lèi)。
算法大致描述如下:使用改進(jìn)后的相似度計(jì)算方法計(jì)算兩兩用戶(hù)之間的相似度,得到相似度矩陣;采用聚類(lèi)初始中心選取算法選取K個(gè)用戶(hù)樣本點(diǎn)形成K個(gè)聚類(lèi),每個(gè)聚類(lèi)中只有一個(gè)用戶(hù)樣本點(diǎn),其評(píng)分向量作為初始的聚類(lèi)中心;計(jì)算其他每個(gè)用戶(hù)樣本點(diǎn)與各個(gè)聚類(lèi)中心的相似性,將加入到與其最相似的聚類(lèi) 中,并調(diào)整 的聚類(lèi)中心,以 中與其他所有樣本點(diǎn)距離和最近的點(diǎn)作為新的中心量;聚類(lèi)終止條件:經(jīng)過(guò)第C步的調(diào)整后,比較各個(gè)聚類(lèi)中心是否與上一次聚類(lèi)一致;或者調(diào)整前后,兩個(gè)聚類(lèi)中心的誤差不超過(guò)一定的閾值。如果滿(mǎn)足聚類(lèi)終止條件,則聚類(lèi)結(jié)束,否則回到C繼續(xù)。最后得到聚類(lèi)簇 。
五、最近鄰居用戶(hù)的查找
由聚類(lèi)的性質(zhì)可知,目標(biāo)用戶(hù)的最近鄰居大部分都在與它同屬于一個(gè)聚類(lèi)簇中,因此不需要在整個(gè)用戶(hù)空間上查找目標(biāo)用戶(hù)的最近鄰居。所以,基于項(xiàng)目聚類(lèi)的方法可以大大提高在線的最近鄰居查找速度,滿(mǎn)足推薦系統(tǒng)的實(shí)時(shí)性要求。
當(dāng)用戶(hù)U登陸以后,個(gè)性化推薦系統(tǒng)就會(huì)啟動(dòng)一個(gè)后臺(tái)進(jìn)程,來(lái)查找當(dāng)前用戶(hù)U的N個(gè)鄰居用戶(hù),查找算法的大致描述如下:在數(shù)據(jù)庫(kù)中查找用戶(hù)U的所屬的聚類(lèi)簇這一字段,如果這一字段為空,則運(yùn)行步驟B;如果對(duì)應(yīng)的字段為i,及用戶(hù)U屬于聚類(lèi)簇,運(yùn)行步驟C;計(jì)算用戶(hù)U與每一個(gè)聚類(lèi)中心的相似度,找到相似度最小時(shí)對(duì)應(yīng)的聚類(lèi)簇,記做,運(yùn)行步驟C;計(jì)算中每一個(gè)用戶(hù)樣本點(diǎn)與用戶(hù)U的相似度,取相似度值最大的前N個(gè)用戶(hù)作為用戶(hù)U的最近鄰居用戶(hù)。
六、預(yù)測(cè)和推薦的產(chǎn)生
通過(guò)第五部分提到的方法得到用戶(hù) 的最近鄰居后,根據(jù)鄰居用戶(hù)集合中用戶(hù)對(duì)各個(gè)項(xiàng)目的實(shí)際評(píng)分,我們就可以預(yù)測(cè)用戶(hù) 對(duì)各個(gè)項(xiàng)目的評(píng)分。假設(shè),用戶(hù) 的鄰居用戶(hù)集合是,則用戶(hù) 對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分的計(jì)算公式如下:
其中 表示用戶(hù) 與用戶(hù)之間的相似度,表示用戶(hù)對(duì)項(xiàng)目 的實(shí)際評(píng)分, 表示用戶(hù)對(duì)所有項(xiàng)目的平均評(píng)分, 。表示用戶(hù)
對(duì)所有項(xiàng)目的平均評(píng)分。
最后,根據(jù)上述方法預(yù)測(cè)的用戶(hù) 對(duì)所有目標(biāo)項(xiàng)目的評(píng)分,選取預(yù)測(cè)評(píng)分最高的前N個(gè)項(xiàng)目(top-N)作為推薦結(jié)果返回給用戶(hù)。
七、小結(jié)
本文我們提出并實(shí)現(xiàn)了基于用戶(hù)行為聚類(lèi)的個(gè)性化推薦算法,對(duì)用戶(hù)進(jìn)行聚類(lèi),利用得到的用戶(hù)聚類(lèi)尋找目標(biāo)項(xiàng)目的最近鄰居,只需要在與目標(biāo)項(xiàng)目最相似的若干個(gè)聚類(lèi)簇中搜索鄰居,最后根據(jù)用戶(hù)對(duì)鄰居的評(píng)分來(lái)預(yù)測(cè)他對(duì)目標(biāo)項(xiàng)目的評(píng)分。
參考文獻(xiàn):
[1]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.Introduction to Data Mining[M].人民郵電出版社,2006,5:305-402.
[2]魯為,協(xié)同過(guò)濾算法及其在個(gè)性化推薦系統(tǒng)中的應(yīng)用[D].北京郵電大學(xué)信息工程學(xué)院,2007.
篇7
目標(biāo)群體:追求主流性能
點(diǎn)評(píng):
宅男,顧名思義,指的是“足不出戶(hù) ”或是“喜歡坐在電視或電腦前呆一整天”的人群,因此這類(lèi)用戶(hù)對(duì)電腦的要求并不低,而且在使用舒適性上也比較講究。
具體配置方面,考慮到Intel平臺(tái)的傳統(tǒng)強(qiáng)項(xiàng)在娛樂(lè)視頻方面,尤其在最新的45nm處理器E7200中還加入了對(duì)SEE4指令集的支持,更是如虎添翼,使得其在高清解碼、播放、圖形渲染等多方面性能有了大幅度的提升。而超頻的能力上,E7200也更有優(yōu)勢(shì),上400MHz外頻并非天方夜譚,這點(diǎn)也滿(mǎn)足了部分宅男超頻的需要。
CPU Intel Core 2 Duo E7200(盒) 960元
內(nèi)存 金士頓 2GB DDR2 800 280元
主板 微星 P45 Neo 785元
硬盤(pán) 日立 250GB 8MB/SATA 330元
顯卡 七彩虹 逸彩9600GT-GD3 5F/512MB 1165元
顯示器 明基 G2400W 2810元
光驅(qū) 三星 TS-H353B 135元
鍵鼠 明基BV110無(wú)雙游俠鍵鼠套裝 89元
機(jī)箱 金河田 SOHO7606B 375元
音箱 現(xiàn)代 HY-203 99元
總計(jì) 7028元
作為“私房”配置,鍵盤(pán)鼠標(biāo)也要對(duì)得起自己的手。明基BV110無(wú)雙游俠鍵鼠套裝采用特殊排水孔及防水薄膜設(shè)計(jì)鍵盤(pán),高彈按鍵技術(shù),7鍵同擊不沖突,鼠標(biāo)采用“逆向工程”設(shè)計(jì),對(duì)稱(chēng)式凹槽設(shè)計(jì),有效防止“鼠標(biāo)手”,這點(diǎn)正合宅男之意。
如果你是DIY一族,請(qǐng)看……
目標(biāo)群體:追求玩家品味
CPU Intel Pentium E 2180(盒) 430元
內(nèi)存 金士頓 1GB DDR2 800 150元
硬盤(pán) 西部數(shù)據(jù) 160GB 8MB/SATA 315元
主板 昂達(dá)P35魔劍 620元
顯卡 迪蘭恒進(jìn)HD3650冰鉆 399元
顯示器 三星 T190 1380元
光驅(qū) 先鋒 DVD-129D 129元
鍵鼠 多彩 DLK8021P+M320BP 80元
機(jī)箱 航嘉 e盾 H101 340元
音箱 三諾N-15G 125元
共計(jì) 3968元
可選升級(jí)方案:
處理器Intel Core 2 Duo E4500(盒)
可別小看Pentium E 2180的主頻才2GHz,搭配上P35的主板,超頻能力可不容小看,上個(gè)3.0GHz也不是什么難事。另外,后的Pentium E對(duì)多任務(wù)的處理并不十分理想??梢陨?jí)為E4500,性能有一定的提升。+420元
內(nèi)存金士頓 2GB DDR2 800
玩家的使用經(jīng)驗(yàn)表明,相同配置下增大內(nèi)存容量可以明顯地改善系統(tǒng)運(yùn)行的環(huán)境。但是也不能盲目地增加內(nèi)存,要看內(nèi)存的行情,目前再增加一條內(nèi)存并不比2GB的便宜很多,這樣一來(lái)對(duì)速度提升有限的雙通道,在性?xún)r(jià)比方面就失去了優(yōu)勢(shì),而且單條2GB傳輸數(shù)據(jù)較雙通道要穩(wěn)定。+145元
顯卡昂達(dá) HD3850/512MB/DDR3
對(duì)于入門(mén)級(jí)別的用戶(hù),HD 3690的功力還是蠻不錯(cuò)的,但是對(duì)于追求游戲畫(huà)質(zhì), HD3690就應(yīng)付不了了。如果用戶(hù)升級(jí)選擇主流的HD3850,建議購(gòu)買(mǎi)顯存容量512MB的,雖然價(jià)格比顯存為256MB貴100元左右,但是對(duì)游戲的提升效果要明顯許多。+300元
如果你是高清發(fā)燒友,請(qǐng)看……
目標(biāo)群體:追求視覺(jué)震撼
CPU AMD Athlon64 X2 5400+(黑盒版) 570元
內(nèi)存 金泰克 DDR2 800 1GB×2 290元
主板 華碩 M3A78-EMH HDMI 490元
硬盤(pán) 希捷 160GB 8MB/SATA 320元
顯卡 集成 ------
顯示器 優(yōu)派 VX2255wmb 2100元
光驅(qū) 先鋒 DVR-215CH 260元
鍵鼠 明基雙塔奇兵 155元
機(jī)箱 多彩 DLC-K023 270元
音箱 漫步者S2.1M 540元
總計(jì) 4995元
點(diǎn)評(píng):
為了能實(shí)現(xiàn)看高清這個(gè)最終目的,別無(wú)他求,因而主板選用了780G芯片組,其集成的HD3200顯示核心(性能接近X1300),不但是首款支持DX10的集成產(chǎn)品,而且最重要的是,顯示核心內(nèi)建UVD解碼單元,可以對(duì)VC-1和H.264兩種壓縮格式提供較完美的全面解碼,不再需要軟解方式播放,播放主流高清視頻會(huì)變得更順暢。
既然顯卡承擔(dān)了高清解碼的任務(wù),對(duì)處理器的要求也就可以降低了,三核、四核大可不必要,雙核5400+黑盒版就足已。另外,黑盒版不鎖倍頻,僅需調(diào)整一下倍頻,采用普通風(fēng)冷措施,便可輕松上3.2GHz。硬盤(pán)沒(méi)有選大容量的,因?yàn)閷?duì)于下載的高清影片,一部就是好幾個(gè)GB,哪怕是500GB的硬盤(pán)也存不了多少,還不如刻盤(pán)來(lái)得實(shí)惠。
如果你是時(shí)髦一族,請(qǐng)看……
目標(biāo)群體:追求時(shí)尚品味
CPU Intel 奔騰雙核 E2200(盒) 510元
內(nèi)存 威剛DDR2 800 2GB 220元
主板 技嘉 GA-EG31M-S2 530元
硬盤(pán) 西部數(shù)據(jù)250GB/SATA 350元
顯卡 集成 -------
顯示器 明基Bling-Bling E900WN限量版 1799元
光驅(qū) 索尼 DDU1632 130元
鍵鼠 新貴無(wú)線鍵鼠套裝 199元
機(jī)箱 天使之戀SG-5020+鑫谷勁翔370 489元
音箱 奮達(dá)C-20 298元
總計(jì) 4525元
可選升級(jí)方案:
鍵鼠雷柏8800
如果想進(jìn)一步提升整套配置的時(shí)尚外觀和舒適體驗(yàn),那么可以考慮更換成雷柏全新推出的超薄無(wú)線鍵鼠套裝,特別是它那靚麗水晶風(fēng)格,定會(huì)引起不少時(shí)尚一族的共鳴。+189元
音箱創(chuàng)艦 CJC-680(竹簡(jiǎn))
初見(jiàn)CJC-680,它給人的第一感覺(jué),并不是音箱,而是一本展開(kāi)的大書(shū)簡(jiǎn)。古典味極濃,同時(shí),風(fēng)雅的感覺(jué)撲面而來(lái),另外,產(chǎn)品的倒相孔側(cè)置,音量、高、低音旋鈕均獨(dú)立可調(diào)。調(diào)時(shí)量感適當(dāng),彰顯品質(zhì)內(nèi)涵。特別是產(chǎn)品的主色調(diào)以香檳金為主,高貴奢華,體現(xiàn)了潮流的元素。+20元
篇8
關(guān)鍵詞:個(gè)性化搜索;個(gè)性化推薦系統(tǒng);隱私保護(hù);信息安全;網(wǎng)絡(luò)安全
中圖分類(lèi)號(hào):TP315 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2015.04.014
0.引言
篇9
關(guān)鍵詞:圖書(shū)推薦;借閱特征;協(xié)同過(guò)濾;特征提取
中圖分類(lèi)號(hào):G250.71 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0156-03
1 引言
目前高校圖書(shū)館的館藏資源通常成千上萬(wàn),而且種類(lèi)繁多,因此讀者會(huì)花費(fèi)大量的時(shí)間用于尋找自己感興趣的圖書(shū)。而隨著圖書(shū)行業(yè)的繁榮,書(shū)目與種類(lèi)日益增多。傳統(tǒng)的搜索引擎已經(jīng)不能完全的滿(mǎn)足讀者對(duì)圖書(shū)的辨識(shí)。因此,針對(duì)這種信息獲取的困難,出現(xiàn)了許多針對(duì)于個(gè)性化圖書(shū)推薦系統(tǒng)的相關(guān)研究。
目前高校圖書(shū)館的推薦系統(tǒng)存在以下一些問(wèn)題。第一,推薦系統(tǒng)不夠個(gè)性化,一些高校的圖書(shū)推薦模塊僅僅是依靠于借閱量以及根據(jù)借閱記錄基于圖書(shū)本身的內(nèi)容進(jìn)行推薦。第二,許多個(gè)性化圖書(shū)推薦系統(tǒng)雖然采用協(xié)同過(guò)濾的技術(shù),實(shí)現(xiàn)了個(gè)性化,但是協(xié)同過(guò)濾算法本身依賴(lài)于用戶(hù)對(duì)項(xiàng)目的評(píng)分,而大部分高校圖書(shū)館的借閱記錄中都沒(méi)有讀者對(duì)圖書(shū)的評(píng)分這一項(xiàng)。第三,由于數(shù)據(jù)稀疏性的原因,導(dǎo)致一些沒(méi)有借閱過(guò)的或被借閱次數(shù)很少的圖書(shū)無(wú)法被有效的推薦給其他人。
如之前所說(shuō),協(xié)同過(guò)濾依賴(lài)于用戶(hù)對(duì)物品的評(píng)分,而對(duì)于高校圖書(shū)館,如何根據(jù)讀者的借閱記錄將其特征轉(zhuǎn)化為對(duì)圖書(shū)的評(píng)分,從而提高推薦的準(zhǔn)確性。是本文研究的重點(diǎn)。同時(shí),本文也將根據(jù)借閱記錄提取與時(shí)間相關(guān)的特征,考慮時(shí)間因素,例如圖書(shū)借閱的先后順序,或者在某些大型綜合考試如英語(yǔ)四、六級(jí)考試前為讀者推薦相關(guān)的圖書(shū)。
本文的核心步驟主要分為兩大類(lèi):
(1)利用基于用戶(hù)的協(xié)同過(guò)濾算法對(duì)推薦結(jié)果進(jìn)行粗召回。
(2)利用特征提取算法對(duì)用戶(hù)及借閱記錄進(jìn)行特征提取,構(gòu)建讀者偏好模型。
本文第2節(jié)介紹了個(gè)性化推薦方法的研究工作,第3節(jié)詳細(xì)闡述本文提出方案的具體原理;第4節(jié)是關(guān)于本文提出的推薦方案在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)分析與討論;最后第5節(jié)給出結(jié)論和未來(lái)的工作。
2 方案原理
該方案主要分為兩個(gè)部分,第一部分利用基于協(xié)同過(guò)濾算法對(duì)借閱記錄進(jìn)行推薦,得出一個(gè)粗召回的結(jié)果集。第二部分利用特征提取算法對(duì)借閱記錄進(jìn)行特征提取,將提取的特征以向量的形式作為讀者偏好模型的維度,訓(xùn)練讀者的偏好模型。
2.1 推薦算法比較
推薦算法比較,當(dāng)前,個(gè)性化推薦方法通常采用三類(lèi)核心推薦算法[1]:(1)基于關(guān)聯(lián)規(guī)則的推薦算法(Association Rule-based Rcommendation);(2)基于內(nèi)容的推薦算法(Content-based Rcommendation);(3)基于協(xié)同過(guò)濾的推薦算法(Collaborative Filtering Rcommendation)下面U述三類(lèi)推薦算法的原理以及優(yōu)缺點(diǎn)。
基于關(guān)聯(lián)規(guī)則的推薦算法是以關(guān)聯(lián)規(guī)則為基礎(chǔ),研究的核心問(wèn)題即項(xiàng)目集A與其他項(xiàng)目集的關(guān)聯(lián)關(guān)系。直觀的意義就是對(duì)圖書(shū)A偏好的讀者又借閱了圖書(shū)B(niǎo)和C,那么可以說(shuō)B與C和A存在關(guān)聯(lián)關(guān)系。比如借閱了大數(shù)據(jù)相關(guān)圖書(shū)的讀者一般還會(huì)借閱hadoop相關(guān)的圖書(shū)?;陉P(guān)聯(lián)規(guī)則的推薦算法優(yōu)點(diǎn)在于算法的復(fù)雜程度,因此可以深度挖掘讀者的興趣偏好,提高推薦精準(zhǔn)度。缺點(diǎn)在于算法實(shí)現(xiàn)較為復(fù)雜,如何在成百上千萬(wàn)的項(xiàng)目中計(jì)算每個(gè)項(xiàng)目之間的關(guān)聯(lián)規(guī)則是算法的核心和難點(diǎn),因此生成個(gè)性化推薦結(jié)果較為耗時(shí)。
基于內(nèi)容的推薦算法,是以產(chǎn)生關(guān)系的項(xiàng)目為中心,提取項(xiàng)目的特征,尋找與該項(xiàng)目相似的其他項(xiàng)目推薦給用戶(hù),例如讀者借閱了朱自清的散文集,可能也會(huì)對(duì)冰心的散文感興趣?;趦?nèi)容的推薦算法在圖書(shū)推薦方面優(yōu)點(diǎn)在于,不存在冷啟動(dòng)問(wèn)題,即對(duì)新書(shū)以及新讀者都比較容易產(chǎn)生推薦,缺點(diǎn)在于不夠個(gè)性化,不能挖掘出讀者深度的興趣偏好。
基于協(xié)同過(guò)濾的推薦算法是當(dāng)前個(gè)性化推薦領(lǐng)域中最流行的推薦算法。它包括兩大類(lèi),一是基于用戶(hù)的協(xié)同過(guò)濾,二是基于項(xiàng)目的協(xié)同過(guò)濾[2]。以基于用戶(hù)的協(xié)同過(guò)濾為例,它的原理就是利用用戶(hù)與項(xiàng)目之間的評(píng)分計(jì)算目標(biāo)用戶(hù)與每個(gè)用戶(hù)的相似度,根據(jù)相似度的排序選定最近鄰用戶(hù)[3],將近鄰用戶(hù)中所產(chǎn)生關(guān)系的項(xiàng)目中選取目標(biāo)用戶(hù)沒(méi)有產(chǎn)生關(guān)系的項(xiàng)目作為推薦項(xiàng)目推薦給目標(biāo)用戶(hù)。同理,基于項(xiàng)目的協(xié)同過(guò)濾是計(jì)算項(xiàng)目間[4]的相似度從而產(chǎn)生項(xiàng)目間的近鄰,生成推薦。基于協(xié)同過(guò)濾的推薦算法優(yōu)點(diǎn)很明顯,就是與內(nèi)容無(wú)關(guān),通過(guò)計(jì)算用戶(hù)的相似度,來(lái)深度挖掘用戶(hù)的潛在興趣,真正的可以實(shí)現(xiàn)個(gè)性化推薦。由于算法的基礎(chǔ)是依賴(lài)于用戶(hù)與項(xiàng)目之間的作用關(guān)系,因此基于協(xié)同過(guò)濾的推薦算法缺點(diǎn)在于冷啟動(dòng)問(wèn)題,即對(duì)新用戶(hù)或新項(xiàng)目的推薦不夠好。
2.2 基于用戶(hù)的協(xié)同過(guò)濾算法
綜合上一小節(jié),由于基于協(xié)同過(guò)濾的推薦算法是目前推薦領(lǐng)域的主流,而且它可以實(shí)現(xiàn)真正的個(gè)性化推薦,因此本文中提出的推薦方案第一部分選取基于協(xié)同過(guò)濾的推薦算法?;谟脩?hù)的協(xié)同過(guò)濾算法第一步是生成用戶(hù)-項(xiàng)目的評(píng)分矩陣,如圖1所示是一個(gè)m x n的二維矩陣。其中m表示用戶(hù)數(shù),n表示項(xiàng)目數(shù),Rm,n表示用戶(hù)m對(duì)項(xiàng)目n的評(píng)分。由于本文的研究背景是高校圖書(shū)館的借閱記錄,沒(méi)有讀者對(duì)圖書(shū)的評(píng)分項(xiàng),因此只記錄其作用關(guān)系,即借閱過(guò)的記為1,未借閱的記為0。
基于用戶(hù)的協(xié)同過(guò)濾第二步是生成根據(jù)用戶(hù)-項(xiàng)目矩陣生成最近鄰用戶(hù),這個(gè)過(guò)程的本質(zhì)相當(dāng)于為目標(biāo)用戶(hù)在矩陣R中計(jì)算一個(gè)相似性的排序集合。計(jì)算用戶(hù)相似度的方法主要有2種:
(1)余弦相似性(Cosine):設(shè)用戶(hù)i 和用戶(hù)j 在m維對(duì)象空間上的評(píng)分表示為向量i,j,則sim(i,j)的相似性計(jì)算方法如下:
(2)相關(guān)相似性(Correlation):設(shè)用戶(hù)i 和用戶(hù)j 共同評(píng)分的對(duì)象集合用Iij 表示[5],則用戶(hù)i 和用戶(hù)j 之間的相似性通過(guò)Pearson 相關(guān)系數(shù)度量,方法如下:
基于用戶(hù)的協(xié)同過(guò)濾第三步是生成推薦結(jié)果,由第二步計(jì)算得出目標(biāo)用戶(hù)的最近鄰集合,設(shè)用戶(hù)u的最近鄰用戶(hù)集合為Su,則用戶(hù)u對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)分Pu,i可以通過(guò)用戶(hù)u對(duì)最近鄰用戶(hù)集合Su中的項(xiàng)目評(píng)分得到[6]。計(jì)算公式如下:
其中sim(u,n)表示用戶(hù)u與用戶(hù)n之間的相似性,Rn,i表示用戶(hù)n對(duì)項(xiàng)目i的評(píng)分,Rn分別表示用戶(hù)u和用戶(hù)n對(duì)項(xiàng)目的平均評(píng)分。
2.3 利用特征提取算法對(duì)借閱記錄進(jìn)行特征提取
上一小節(jié)闡述了本文中推薦方案的第一部分,即利用協(xié)同過(guò)濾算法對(duì)推薦結(jié)果集進(jìn)行粗召回,可以對(duì)閾值進(jìn)行設(shè)置,產(chǎn)生大量的可能的推薦對(duì)象。而研究背景的借閱數(shù)據(jù)中,存在很多的可以描述用戶(hù)興趣偏好的特征,因此,本節(jié)闡述的是推薦方案中的第二部分,即利用特征提取算法對(duì)借閱記錄進(jìn)行特征提取,建立用戶(hù)偏好模型。通過(guò)實(shí)際數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,最終產(chǎn)生更精確的推薦結(jié)果。
本文的研究背景是基于高校圖書(shū)館的借閱記錄,而借閱記錄是表示讀者興趣偏好的直接來(lái)源。因此,如何對(duì)讀者的借閱記錄進(jìn)行特征提取,建立興趣偏好模型,是提高推薦精確度的關(guān)鍵。也是本文中推薦方案的第二部分的核心。以我校圖書(shū)館的借閱數(shù)據(jù)分析,其中包括三類(lèi)特征信息,第一類(lèi)是用戶(hù)的基本信息,第二類(lèi)是圖書(shū)的特征信息,第三類(lèi)是關(guān)于借閱行為的特征信息。包括的特征可以整理為:
通過(guò)上述整理的特征構(gòu)建讀者-特征矩陣,如圖2。
y值表示user(i)最終是否借閱了圖書(shū),利用讀者每一年的數(shù)據(jù)中第一學(xué)期的和第二學(xué)期的一部分作為訓(xùn)練集,余下的部分作為測(cè)試集。建立讀者偏好模型。利用偏好模型,對(duì)該推薦方案中第一部分粗召回結(jié)果集進(jìn)行評(píng)分?jǐn)M合。按照擬合評(píng)分的排序結(jié)果,產(chǎn)生最終優(yōu)化的推薦結(jié)果。
目前,利用機(jī)器學(xué)習(xí)技術(shù)領(lǐng)域中相關(guān)的有監(jiān)督學(xué)習(xí)算法,可以對(duì)數(shù)據(jù)進(jìn)行建模,并訓(xùn)練模型。最終根據(jù)興趣偏好模型擬合推薦結(jié)果集。
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),GBDT模型是一種解決回歸問(wèn)題的樹(shù)模型,本質(zhì)是一種迭代的決策樹(shù)算法。該算法由多棵決策樹(shù)組成,所有樹(shù)的結(jié)論累加起來(lái)做最終結(jié)果。它在被提出之初就和SVM一起被認(rèn)為是泛化能力較強(qiáng)的算法。GBDT主要有三個(gè)部分組成:
(1)DT:回歸樹(shù) Regression Decision Tree。GBDT的核心在于累加所有樹(shù)的結(jié)果作為最終結(jié)果,而分類(lèi)樹(shù)的結(jié)果顯然是沒(méi)辦法累加的,所以GBDT中的樹(shù)都是回歸樹(shù),不是分類(lèi)樹(shù)。
(2)Boosting,迭代,即通過(guò)迭代多棵樹(shù)來(lái)共同決策。GBDT的核心就在于,每一棵樹(shù)學(xué)的是之前所有樹(shù)結(jié)論和的殘差,這個(gè)殘差就是一個(gè)加預(yù)測(cè)值后能得真實(shí)值的累加量。
(3)Shrinkage即縮減。Shrinkage的思想認(rèn)為,每次走一小步逐漸逼近結(jié)果的效果,要比每次邁一大步很快逼近結(jié)果的方式更容易避免過(guò)擬合。即它不完全信任每一個(gè)棵殘差樹(shù),它認(rèn)為每棵樹(shù)只學(xué)到了真理的一小部分,累加的時(shí)候只累加一小部分,通過(guò)多學(xué)幾棵樹(shù)彌補(bǔ)不足。
目前來(lái)說(shuō),GBDT幾乎可用于所有回歸問(wèn)題(線性/非線性),相對(duì)logistic regression僅能用于線性回歸,GBDT的適用面非常廣。亦可用于二分類(lèi)問(wèn)題(設(shè)定閾值,大于閾值為正例,反之為負(fù)例)。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
本文的研究背景是高校圖書(shū)館,因此本文實(shí)驗(yàn)數(shù)據(jù)采用北京市某高校的圖書(shū)館借閱記錄作為本文所提出方案的實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)涵蓋了近10年200萬(wàn)條借閱記錄,20萬(wàn)條圖書(shū)信息以及17000的讀者信息。
3.2 實(shí)驗(yàn)評(píng)價(jià)
對(duì)于推薦領(lǐng)域而言,對(duì)于推薦結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)一般從如下幾個(gè)方面考慮:推薦準(zhǔn)確度、推薦結(jié)果的多樣性以及推薦結(jié)果的覆蓋性等。由于本文的研究背景是面向高校讀者的圖書(shū)個(gè)性化推薦,因此選取當(dāng)前推薦領(lǐng)域普遍采取的評(píng)價(jià)標(biāo)準(zhǔn),即準(zhǔn)確度指標(biāo)。
準(zhǔn)確度是當(dāng)前推薦領(lǐng)域?qū)ν扑]算法結(jié)果評(píng)價(jià)中最常用、最基礎(chǔ)也是最普遍的指標(biāo)。大部分的推薦算法都采用準(zhǔn)確度指標(biāo)來(lái)衡量一個(gè)推薦算法的好壞。準(zhǔn)確度指標(biāo)的原理是通過(guò)描述預(yù)測(cè)打分與用戶(hù)實(shí)際打分的相似程度來(lái)評(píng)估結(jié)果。目前,對(duì)于準(zhǔn)確度指標(biāo)的衡量方法最常用的是平均絕對(duì)誤差(Mean Absolute Error , MAE)。MAE通過(guò)計(jì)算預(yù)測(cè)用戶(hù)評(píng)分和實(shí)際用戶(hù)評(píng)分之間的偏差來(lái)度量預(yù)測(cè)的準(zhǔn)確性[5]。MAE越小,推薦質(zhì)量越高。平均絕對(duì)誤差(MAE)的計(jì)算公式如下:
其中,c為用戶(hù)i所產(chǎn)生關(guān)系的項(xiàng)目數(shù)量,ria為用戶(hù)的實(shí)際評(píng)分,via為推薦算法的預(yù)測(cè)評(píng)分。
3.3 實(shí)驗(yàn)結(jié)果
為了檢驗(yàn)本文所提出方案中的推薦算法,我們將以傳統(tǒng)的僅僅依靠于協(xié)同過(guò)濾算法作為對(duì)照,在傳統(tǒng)的協(xié)同過(guò)濾算法中,分別以余弦相似性和相關(guān)相似性作為相似性的度量標(biāo)準(zhǔn),分別計(jì)算其MAE。并設(shè)置近鄰個(gè)數(shù)從20增加到40,間隔為5。然后與本文提出的推薦算法作比較,由數(shù)據(jù)可以看出,本文提出的推薦方案,即在基礎(chǔ)的協(xié)同過(guò)濾算法之上對(duì)借閱記錄進(jìn)行特征提取,根據(jù)實(shí)際情況提取更能代讀者興趣偏好的特征,構(gòu)建讀者偏好模型,最終得到的推薦結(jié)果,相比僅僅依靠于協(xié)同過(guò)濾算法得到的推薦結(jié)果。具有較小的MAE。因此,本文提出的推薦算法可以針對(duì)于高校圖書(shū)館的研究背景得出更精準(zhǔn)的推薦結(jié)果。
4 結(jié)語(yǔ)
隨著圖書(shū)行業(yè)的繁榮,讀者需要在浩瀚的圖書(shū)海洋中選擇自己感興趣的圖書(shū)。因此一個(gè)好的推薦系統(tǒng)起著至關(guān)總要的作用。本文所闡述的推薦方案能夠根據(jù)現(xiàn)有的數(shù)據(jù)進(jìn)行有效的推薦,但是仍存在著一些其他問(wèn)題,例如冷啟動(dòng)、數(shù)據(jù)稀疏等問(wèn)題。這些問(wèn)題也是整個(gè)推薦領(lǐng)域需要進(jìn)一步研究的問(wèn)題。
參考文獻(xiàn)
[1]Hofmann,T.Latent Semantic Models for Collabora―tive Filtering[J].ACM Transactions on Information Systems,2004,22(1).
篇10
關(guān)鍵詞:協(xié)同過(guò)濾;推薦系統(tǒng);聚類(lèi)
中圖分類(lèi)號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼:A
0引言
個(gè)性化推薦系統(tǒng)被用來(lái)幫助用戶(hù)在大量的信息中尋找感興趣的內(nèi)容,它體現(xiàn)的“個(gè)性化”服務(wù)目前越來(lái)越為大型網(wǎng)站、電子圖書(shū)館等眾多領(lǐng)域所接受,成為它們的一個(gè)重要的功能[1]。在個(gè)性化推薦系統(tǒng)中,最近鄰協(xié)同過(guò)濾技術(shù)是當(dāng)前應(yīng)用最成功的技術(shù)。其基本思想是基于評(píng)分相似的最近鄰居的評(píng)分?jǐn)?shù)據(jù)向目標(biāo)用戶(hù)產(chǎn)生推薦。由于最近鄰居對(duì)項(xiàng)目的評(píng)分與目標(biāo)用戶(hù)對(duì)該項(xiàng)目的評(píng)分非常相似,因此目標(biāo)用戶(hù)對(duì)未評(píng)分項(xiàng)目的評(píng)分可以通過(guò)最近鄰居對(duì)該項(xiàng)目評(píng)分的加權(quán)平均值逼近[2]。
最近鄰協(xié)同過(guò)濾推薦需要在整個(gè)用戶(hù)空間上搜索目標(biāo)用戶(hù)的最近鄰居,隨著系統(tǒng)規(guī)模的擴(kuò)大,用戶(hù)和項(xiàng)目數(shù)量急劇增加,在整個(gè)用戶(hù)空間上搜索目標(biāo)用戶(hù)的最近鄰居比較耗時(shí),難以滿(mǎn)足推薦系統(tǒng)的實(shí)時(shí)性要求。針對(duì)上述問(wèn)題,本文提出了基于用戶(hù)聚類(lèi)的協(xié)同過(guò)濾推薦算法,通過(guò)用戶(hù)對(duì)項(xiàng)目評(píng)分的相似性對(duì)用戶(hù)進(jìn)行聚類(lèi),將具有相似興趣的用戶(hù)放入同一個(gè)聚類(lèi)中。當(dāng)目標(biāo)用戶(hù)到達(dá)時(shí),判斷用戶(hù)所屬聚類(lèi),再在對(duì)應(yīng)聚類(lèi)中搜索目標(biāo)用戶(hù)的最近鄰居,從而在盡量小的用戶(hù)空間上搜索目標(biāo)用戶(hù)的最近鄰居,最后根據(jù)最近鄰居對(duì)項(xiàng)目的評(píng)分預(yù)測(cè)目標(biāo)用戶(hù)對(duì)項(xiàng)目的評(píng)分并產(chǎn)生推薦列表。對(duì)項(xiàng)目進(jìn)行聚類(lèi)比較耗時(shí),但可以離線進(jìn)行。協(xié)同過(guò)濾推薦需要對(duì)一個(gè)聚類(lèi)內(nèi)的所有用戶(hù)進(jìn)行相似系數(shù)的計(jì)算,在研究中發(fā)現(xiàn),其所需計(jì)算量隨用戶(hù)數(shù)目的增長(zhǎng)急劇增加,嚴(yán)重影響了在線推薦的效率,為此,本文提出將協(xié)同過(guò)濾分為類(lèi)內(nèi)相似系數(shù)計(jì)算和產(chǎn)生推薦兩個(gè)階段。把相似系數(shù)的計(jì)算放在離線數(shù)據(jù)處理部分,減少了在線推薦的計(jì)算量,從而提高了在線推薦的實(shí)時(shí)響應(yīng)速度。
1協(xié)同過(guò)濾技術(shù)
協(xié)同過(guò)濾技術(shù)通過(guò)分析歷史數(shù)據(jù),生成與當(dāng)前用戶(hù)行為興趣最相近的用戶(hù)集,將他們感興趣的項(xiàng)作為當(dāng)前用戶(hù)的推薦結(jié)果,即topN推薦?;趨f(xié)同過(guò)濾技術(shù)的推薦過(guò)程可分為3個(gè)階段:數(shù)據(jù)表述;發(fā)現(xiàn)最近鄰居;產(chǎn)生推薦數(shù)據(jù)集。
在一個(gè)典型的基于協(xié)同過(guò)濾技術(shù)的推薦系統(tǒng)中,輸入數(shù)據(jù)通??梢员硎鰹橐粋€(gè)m×n的用戶(hù)蠶釔攔讕卣R, m是用戶(hù)數(shù),n是項(xiàng)數(shù),rij是第i個(gè)用戶(hù)對(duì)第j項(xiàng)的評(píng)估數(shù)值。本文中,rij表示用戶(hù)對(duì)頁(yè)面的興趣度。
基于協(xié)同過(guò)濾技術(shù)的推薦系統(tǒng)的核心是為一個(gè)需要推薦服務(wù)的用戶(hù)尋找其最相似的“最近鄰居”集合,即:對(duì)一個(gè)用戶(hù)u,要產(chǎn)生一個(gè)依相似度的大小排列的“鄰居”集合N={N1,N2,…,Nt},u不屬于N,從N1,到Nt,sim(u,Nt)從大到小排列。
度量用戶(hù)相似性的方法主要包括如下兩種:余弦相似性和相關(guān)相似性。
余弦相似性:設(shè)用戶(hù)u1和用戶(hù)u2在n維項(xiàng)目空間上的評(píng)分分別表示為向量u1,u2,則用戶(hù)u1和用戶(hù)u2之間的相似性sim(u1,u2)為:
相關(guān)相似性(correlation):設(shè)經(jīng)用戶(hù)i和用戶(hù)j共同評(píng)分的項(xiàng)目集合用Iij表示,則用戶(hù)i和用戶(hù)j之間的相似性sim(i,j)通過(guò)Pearson相關(guān)系數(shù)度量:
協(xié)同過(guò)濾技術(shù)在個(gè)性化推薦系統(tǒng)中獲得了極大的成功,但隨著系統(tǒng)規(guī)模的擴(kuò)大,逐漸暴露出來(lái)一些缺點(diǎn):評(píng)估矩陣數(shù)據(jù)稀疏、可擴(kuò)展性差、推薦的可信度低等。
為了解決協(xié)同過(guò)濾技術(shù)存在的問(wèn)題,學(xué)者提出了基于評(píng)分預(yù)測(cè)的協(xié)作過(guò)濾方法[3,5]、維數(shù)簡(jiǎn)化算法[2]等技術(shù)。但是這些算法都增加了在線處理的計(jì)算復(fù)雜度,不能很好的對(duì)用戶(hù)做出響應(yīng)。本文提出基于用戶(hù)聚類(lèi)的方法,通過(guò)用戶(hù)對(duì)項(xiàng)目評(píng)分的相似性對(duì)用戶(hù)進(jìn)行聚類(lèi),將具有相似興趣的用戶(hù)放入同一類(lèi)中,當(dāng)目標(biāo)用戶(hù)到達(dá)時(shí),首先判斷用戶(hù)所屬聚類(lèi),再在這個(gè)聚類(lèi)中搜索目標(biāo)用戶(hù)的最近鄰居,從而在盡量少的用戶(hù)空間上搜索目標(biāo)用戶(hù)的最近鄰居。
2基于用戶(hù)聚類(lèi)的協(xié)同過(guò)濾推薦系統(tǒng)
2.1基于用戶(hù)聚類(lèi)的協(xié)同過(guò)濾推薦算法
KMeans聚類(lèi)算法,也被稱(chēng)為K簿值算法,是一種得到廣泛使用的算法。
設(shè)k是kMeans算法的輸入?yún)?shù),代表該算法在數(shù)據(jù)集上分割并計(jì)算后輸出的數(shù)量。數(shù)據(jù)集是由n個(gè)數(shù)據(jù)點(diǎn)組成的,在初始化時(shí),根據(jù)輸入?yún)?shù)從n個(gè)數(shù)據(jù)點(diǎn)中找出k個(gè)聚類(lèi)中心。通過(guò)KMeans聚類(lèi)算法對(duì)用戶(hù)進(jìn)行聚類(lèi)的具體算法如下[6]:
輸入:聚類(lèi)數(shù)目k和用戶(hù)評(píng)分?jǐn)?shù)據(jù)表
輸出:k個(gè)聚類(lèi)
方法:
1) 從用戶(hù)評(píng)分?jǐn)?shù)據(jù)表中檢索所有n個(gè)項(xiàng)目,記為集合I={i1,i2,…,in};
2) 從用戶(hù)評(píng)分?jǐn)?shù)據(jù)表中檢索所有m個(gè)用戶(hù),記為集合U={u1,u2,…,um};
3) 從m個(gè)用戶(hù)中選擇訪問(wèn)量最高的k個(gè)用戶(hù)作為初始的聚類(lèi)中心,記為{W1,W2,…,Wk},其中Wj*=il,j∈{1,2,…,k},l∈{1,2,…,n},使每一個(gè)聚類(lèi)cj與聚類(lèi)中心相對(duì)應(yīng);
4) Repeat
For 每一個(gè)輸入向量il,其中l(wèi)∈{1,2,…,n} do
將il分配給最近的聚類(lèi)中心Wj*所屬的聚類(lèi)cj*
For 每一個(gè)聚類(lèi)cj,其中j∈{1,2,…,k} do
將聚類(lèi)中心更新為當(dāng)前的cj中所有樣本的質(zhì)心點(diǎn),
即 wj=∑i∈cjil/|cj|
計(jì)算誤差函數(shù):E=∑kj=1∑i∈cjil-wj2
程序后
5) Until E 不再明顯的改變或者聚類(lèi)的成員不再變化。
傳統(tǒng)的KMeans聚類(lèi)算法的初始聚類(lèi)中心是隨機(jī)選取的,在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),聚類(lèi)后會(huì)出現(xiàn)較多孤立點(diǎn)。因?yàn)閰f(xié)同過(guò)濾算法是在搜索最近鄰居的基礎(chǔ)上進(jìn)行推薦的,無(wú)法對(duì)孤立點(diǎn)進(jìn)行個(gè)性化推薦。研究發(fā)現(xiàn),訪問(wèn)量高的用戶(hù)可以代表一部分用戶(hù),這些用戶(hù)作為聚類(lèi)中心具有很好的代表性。因此,本文選擇訪問(wèn)量高的k個(gè)用戶(hù)作為初始聚類(lèi)中心,經(jīng)實(shí)驗(yàn)驗(yàn)證能較好的減少孤立點(diǎn)。
2.2基于用戶(hù)聚類(lèi)的最近鄰居查詢(xún)和產(chǎn)生推薦
2.2.1基于用戶(hù)聚類(lèi)的最近鄰居查詢(xún)
研究中發(fā)現(xiàn),用戶(hù)相似系數(shù)的計(jì)算所需計(jì)算量很大,嚴(yán)重影響實(shí)時(shí)推薦的速度,由此會(huì)延長(zhǎng)用戶(hù)的等待時(shí)間,導(dǎo)致用戶(hù)對(duì)網(wǎng)站的忠誠(chéng)度降低,甚至導(dǎo)致客戶(hù)流失。
為了減少實(shí)時(shí)推薦的計(jì)算量,本文提出將用戶(hù)相似度的計(jì)算離線進(jìn)行,并將其保存在數(shù)據(jù)庫(kù)中。具體實(shí)現(xiàn)如下:建立相似度計(jì)算表 SimiCoefficient,該表包括四個(gè)字段:SimilarCoefficient, User1Id, User2Id,CenterId,分別表示相似度值、用戶(hù)1標(biāo)識(shí)、用戶(hù)2標(biāo)識(shí)和所屬聚類(lèi)標(biāo)識(shí),該表用來(lái)保存用戶(hù)之間的相似度數(shù)據(jù)。表結(jié)構(gòu)如下:
程序前
當(dāng)目標(biāo)用戶(hù)到達(dá)時(shí),首先判斷出他所屬的聚類(lèi),然后在該聚類(lèi)中查詢(xún)與目標(biāo)用戶(hù)的相似系數(shù)最大的若干個(gè)用戶(hù)。
2.2.2產(chǎn)生推薦
“最近鄰居”產(chǎn)生后,就可以計(jì)算用戶(hù)對(duì)任意項(xiàng)的興趣度和topN推薦集。設(shè)用戶(hù)u和相應(yīng)的已選項(xiàng)集Iu,則其對(duì)任意項(xiàng)t(tIu)的興趣度如式(3)所示:
prediction=+∑ni=1(corri)×(ratingi)-∑ni=1(corri)(3)
式(3)中是用戶(hù)u對(duì)項(xiàng)的平均評(píng)估值,i是“最近鄰居”集的用戶(hù),corri是用戶(hù)u和用戶(hù)i之間的Pearson系數(shù),ratingi是用戶(hù)i對(duì)項(xiàng)t的評(píng)估值,是用戶(hù)i對(duì)項(xiàng)的平均評(píng)估值。通過(guò)上述方法預(yù)測(cè)用戶(hù)對(duì)未瀏覽資源的興趣度,然后選擇預(yù)測(cè)興趣度最高的若干項(xiàng)推薦給用戶(hù)。
2.3推薦系統(tǒng)體系結(jié)構(gòu)
在本文提出的推薦系統(tǒng)中,采用基于用戶(hù)聚類(lèi)的協(xié)同過(guò)濾推薦技術(shù)向用戶(hù)推薦可能感興趣的資源,在網(wǎng)站上以鏈接的形式發(fā)送給用戶(hù),該推薦系統(tǒng)的結(jié)構(gòu)如圖1所示,分為兩個(gè)部分:第一個(gè)是離線處理部分,主要完成Web日志的預(yù)處理以及對(duì)用戶(hù)進(jìn)行聚類(lèi)和相似系數(shù)的計(jì)算;第二部分為在線推薦部分,利用離線階段的處理結(jié)果,通過(guò)公式(3)預(yù)測(cè)目標(biāo)用戶(hù)對(duì)未訪問(wèn)項(xiàng)的興趣度,把興趣度高的前N項(xiàng)作為推薦結(jié)果推薦給用戶(hù)。
3實(shí)驗(yàn)結(jié)果及其分析
3.1數(shù)據(jù)集
本文采用河南科技大學(xué)校園文化網(wǎng)的日志數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后從中選擇16653條評(píng)分?jǐn)?shù)據(jù)作為試驗(yàn)數(shù)據(jù)集,該數(shù)據(jù)集中包括1055個(gè)用戶(hù)和1839個(gè)項(xiàng)目。
3.2度量標(biāo)準(zhǔn)
本文采用統(tǒng)計(jì)精度度量方法中被廣泛采用的平均絕對(duì)偏差MAE(Mean Absolute Error)作為推薦精度度量標(biāo)準(zhǔn)。平均絕對(duì)偏差MAE通過(guò)計(jì)算預(yù)測(cè)的用戶(hù)評(píng)分與實(shí)際的用戶(hù)評(píng)分之間的偏差度量預(yù)測(cè)的準(zhǔn)確性,MAE越小,推薦質(zhì)量越高。設(shè)預(yù)測(cè)的用戶(hù)評(píng)分集合表示為{p1,p2,…,pn},對(duì)應(yīng)的實(shí)際用戶(hù)評(píng)分集合為{q1,q2,…,qn},則平均絕對(duì)偏差
3.3推薦精度試驗(yàn)
試驗(yàn)過(guò)程中,分別指定用戶(hù)聚類(lèi)的數(shù)目為30,40,目標(biāo)用戶(hù)的最近鄰居個(gè)數(shù)從10增加到40,間隔為10,分別計(jì)算本文提出的算法與傳統(tǒng)的協(xié)同過(guò)濾推薦算法的MAE,試驗(yàn)結(jié)果如圖2和圖3所示。
由圖2和圖3可以看出,在聚類(lèi)數(shù)目分別為30和40時(shí),本文提出的基于用戶(hù)聚類(lèi)的協(xié)同過(guò)濾推薦算法均具有最小的MAE。由聚類(lèi)的性質(zhì)可知,目標(biāo)用戶(hù)的最近鄰居大部分分布在與目標(biāo)用戶(hù)相似性最高的聚類(lèi)中,因此不需要在整個(gè)用戶(hù)空間上查詢(xún)目標(biāo)用戶(hù)的最近鄰居,而只需要在與目標(biāo)用戶(hù)相似性最高的聚類(lèi)中就能查詢(xún)到目標(biāo)用戶(hù)的大部分最近鄰居。由于傳統(tǒng)的協(xié)同過(guò)濾算法是在所有的用戶(hù)空間上進(jìn)行最近鄰居的搜索,而本文提出的算法是在聚類(lèi)后的用戶(hù)空間上進(jìn)行搜索,因此推薦的精度大大提高。由此可知,與傳統(tǒng)的最近鄰協(xié)同過(guò)濾推薦算法比較,本文提出的算法可以顯著提高推薦系統(tǒng)的推薦質(zhì)量。
3.4實(shí)時(shí)性效果檢驗(yàn)
為了檢驗(yàn)算法的實(shí)時(shí)性效果,將傳統(tǒng)的在線計(jì)算相似系數(shù)與本文提出的離線計(jì)算相似系數(shù)作比較,分別進(jìn)行在線推薦,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4中用橫軸表示聚類(lèi)的數(shù)目k,用縱軸表示進(jìn)行實(shí)時(shí)推薦所需耗費(fèi)的時(shí)間t??梢钥闯?,采用離線計(jì)算相似系數(shù)后,實(shí)時(shí)推薦所需時(shí)間明顯少于在線計(jì)算相似系數(shù)所需時(shí)間。特別是當(dāng)聚類(lèi)的數(shù)目比較小的時(shí)候,兩者的效率幾乎相差一倍。這是因?yàn)榫垲?lèi)中的數(shù)目小的時(shí)候,聚類(lèi)中的項(xiàng)目數(shù)相對(duì)較大,計(jì)算相似系數(shù)所需時(shí)間長(zhǎng),采用離線計(jì)算相似系數(shù)就可以大大提高推薦的效率。而隨著聚類(lèi)數(shù)目的增大,聚類(lèi)中項(xiàng)目的平均數(shù)目會(huì)變小,此時(shí)需要在線計(jì)算相似系數(shù)的項(xiàng)目相對(duì)較少,離線和在線計(jì)算所需時(shí)間相差不大,但本文提出的算法效率仍?xún)?yōu)于改進(jìn)前的算法執(zhí)行效率。
熱門(mén)標(biāo)簽
個(gè)性化教學(xué)論文 個(gè)性發(fā)展 個(gè)性化服務(wù) 個(gè)性化教學(xué) 個(gè)性主義 個(gè)性特征 個(gè)性培養(yǎng) 個(gè)性化傳播 個(gè)性化閱讀 個(gè)性化教育 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
2視頻營(yíng)銷(xiāo)對(duì)旅游品牌個(gè)性感知的影響
3小學(xué)語(yǔ)文個(gè)性化作文教學(xué)路徑
4個(gè)性化智能工具優(yōu)化英語(yǔ)測(cè)評(píng)研究