數(shù)據(jù)挖掘技術(shù)對手機應(yīng)用市場的運用

時間:2022-01-30 09:22:25

導(dǎo)語:數(shù)據(jù)挖掘技術(shù)對手機應(yīng)用市場的運用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘技術(shù)對手機應(yīng)用市場的運用

【摘要】在信息時代,移動設(shè)備是人們生活必不可少的工具,而各類應(yīng)用則是移動設(shè)備的功能所在。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,我們能夠看到手機應(yīng)用市場中不同應(yīng)用所起到的不同作用。本文將據(jù)此為背景,通過數(shù)據(jù)挖掘技術(shù)對手應(yīng)用市場進(jìn)行淺析,為今后的應(yīng)用開發(fā)提出一些建議。同時根據(jù)對各類應(yīng)用的綜合分析設(shè)計手機應(yīng)用推薦系統(tǒng),為用戶提供質(zhì)量高且符合需求的應(yīng)用。

【關(guān)鍵詞】數(shù)據(jù)挖掘;機器學(xué)習(xí);手機應(yīng)用;推薦系統(tǒng)

1前言

隨著移動設(shè)備的普及與更新,人們對移動設(shè)備功能的需求也日益增長。無論是購物、出行、社交還是娛樂,都離不開各式各樣的應(yīng)用。交流時打開微信、qq,不僅提高了交流效率,還能了解朋友的生活近況;無聊時打開一個游戲,馬上就能在其中獲得刺激與成就感;購物時打開手機支付寶掃一下二維碼,就能省去使用現(xiàn)金的麻煩,并且提高了貨幣流通的速度。手機應(yīng)用豐富了我們的精神生活,提高了物質(zhì)生活的品質(zhì)。但是隨著手機應(yīng)用的開發(fā)逐漸增多,手機應(yīng)用市場出現(xiàn)應(yīng)用質(zhì)量參差不齊的現(xiàn)象。同時在開發(fā)者和用戶之間還存在信息交換不對等的情況,即應(yīng)用開發(fā)者不能及時獲得準(zhǔn)確的市場信息從而無法設(shè)計出符合市場需求的應(yīng)用。并且在下載應(yīng)用時,如果用戶僅憑人力逐個篩選質(zhì)量高、符合需求的應(yīng)用,是一件非常費時的事情。本文基于數(shù)據(jù)挖掘技術(shù),使用了kaggle網(wǎng)站GooglePlayStoreApps的數(shù)據(jù)對手機應(yīng)用市場進(jìn)行簡單的剖析。我們希望通過對比評分、安裝數(shù)量等用戶反饋與應(yīng)用本身的信息,獲得手機應(yīng)用市場大致的需求情況,為手機應(yīng)用開發(fā)提供一定的參考,提出一些建議。并據(jù)此設(shè)計手機應(yīng)用推薦系統(tǒng),用戶為系統(tǒng)提供已下載應(yīng)用的名稱或者希望獲得應(yīng)用的種類,系統(tǒng)將據(jù)此為用戶推薦符合要求的應(yīng)用。

2數(shù)據(jù)概況

本文所使用的數(shù)據(jù)集主要包括應(yīng)用名稱(App)、種類(Cat-egory)、次種類(Genres)、應(yīng)用評分(Rating)、評論數(shù)量(Re-views)、評論情緒(Sentiment)、應(yīng)用大小(Size)、安裝數(shù)量(In-stalls)、是否付費與價格(TypeandPrice)、受眾群體(ContentRating)等字段,共計10841個應(yīng)用數(shù)據(jù)。

3手機應(yīng)用市場情況淺析

3.1應(yīng)用屬性的相關(guān)度對比。這份數(shù)據(jù)集分別列出了10841個應(yīng)用的多個屬性,我們希望通過分析這些屬性之間的關(guān)聯(lián)程度,大致找到手機應(yīng)用市場中的普遍規(guī)律與著重分析的切入點。通過利用EXCEL中的CORREL函數(shù),將應(yīng)用評分、評論數(shù)量、應(yīng)用大小以及安裝數(shù)量四個數(shù)值屬性的相關(guān)度進(jìn)行對比,形成一個5×5的CORREL表格。通過表格我們可以發(fā)現(xiàn),評論數(shù)量與安裝數(shù)量關(guān)聯(lián)程度最大,說明大部分用戶在使用該應(yīng)用后有及時的反饋,這有利于我們客觀地分析各應(yīng)用的綜合質(zhì)量。而應(yīng)用評分與其他三個屬性的相關(guān)度都相對較小,這說明安裝數(shù)量與評論數(shù)量多也即熱度高的應(yīng)用中用戶反饋并非都很好。由此得知,手機應(yīng)用市場中的目前供給還不能較好地符合市場需求,且用戶在選擇應(yīng)用時存在盲目選擇安裝的情況。下面我們對其中的三組屬性進(jìn)行更加詳細(xì)的對比與分析。3.2應(yīng)用評分和安裝數(shù)量。我們的數(shù)據(jù)集將所有的應(yīng)用分為33個類別,分別有活動(EVENTS)、教育(EDUCATION)、藝術(shù)與設(shè)計(ART_AND_DE-SIGN)、圖書(BOOKS_AND_REFERENCE)、個性化(PERSON-ALIZATION)、育兒(PARENTING)、游戲(GAME)、美妝(BEAUTY)、健康與鍛煉(HEALTH_AND_FITNESS)等。在手機應(yīng)用市場中,不同種類的應(yīng)用受歡迎程度不一樣。我們希望通過統(tǒng)計分析,找到安裝人數(shù)較多,但是平均評分較低的應(yīng)用類別。我們認(rèn)為高安裝數(shù)、低評分值的應(yīng)用有更大的質(zhì)量提升價值和市場潛力。通過使用Excel的分類統(tǒng)計功能,我們在對應(yīng)用種類排序之后,使用應(yīng)用種類作為分類項,統(tǒng)計不同種類應(yīng)用的平均評分(review_rating)和平均安裝數(shù)量(install_num),然后根據(jù)統(tǒng)計結(jié)果,獲得柱形圖和折線圖如圖1所示。通過分析可知,安裝數(shù)量最高的應(yīng)用為聊天(COMMUNICATION)類應(yīng)用,但是該類應(yīng)用的平均得分低于所有應(yīng)用的平均得分。因此聊天類的手機應(yīng)用在質(zhì)量上仍然具有較大的提升空間。同時由于其具備較高的商業(yè)價值,因此也具備更高的開發(fā)潛力。與之類似的應(yīng)用種類還有旅行類(TRAVEL_AND_LOCAL)和視頻類(VIDEO_PLAYERS)的應(yīng)用。相反,游戲(GAME)和社交類(SOCIAL)的手機應(yīng)用,安裝數(shù)量極大,同時評分也很高。這說明這部分市場是比較飽和的,所以我們不建議軟件開發(fā)初創(chuàng)者選擇這兩個種類的應(yīng)用進(jìn)行開發(fā)。3.3應(yīng)用評分和版本更新情況。手機應(yīng)用需要隨著需求的變化而不斷更新其功能和外觀。它體現(xiàn)了開發(fā)者對于市場需求變化做出的反應(yīng),因此版本較新的應(yīng)用往往比低版本的應(yīng)用更能滿足用戶需求,也更能最后更新時間較早、版本較低的應(yīng)用種類。此種應(yīng)用種類存在較大發(fā)展空間,已有應(yīng)用的開發(fā)者也可據(jù)此適當(dāng)進(jìn)行更新,提高應(yīng)用綜合水平。使用EXCEL,以種類為分類字段進(jìn)行分類匯總,將單一種類下所有應(yīng)用的總安裝次數(shù)進(jìn)行求和。同時對同一種類的應(yīng)用個數(shù)進(jìn)行計數(shù),得到N(總數(shù))。之后,我們使用過濾功能,只保留年份(Year)小于等于2017年的應(yīng)用樣本,再次進(jìn)行分類匯總,計算各個種類的應(yīng)用最后更新年份在2017年及以前的個數(shù)總和,得到N(舊),計算其占此種類應(yīng)用總數(shù)的百分比:P(舊)=N(舊)/N(總數(shù))該值越大,說明本種類應(yīng)用版本較低的占比較多,總體更新不到位。獲得33種應(yīng)用的P(舊)后,將其分別與安裝數(shù)量進(jìn)行對比。分析可知,聊天(COMMUNICATION)類應(yīng)用和游戲(GAME)安裝數(shù)量極大,但對于龐大的用戶群來說總體版本更新得并不快,說明這些應(yīng)用被開發(fā)出來后可以保持較長時間的熱度。經(jīng)過幾次更新后它們幾乎達(dá)到了最佳狀態(tài),所以應(yīng)用開發(fā)者可以著眼于開發(fā)全新的應(yīng)用而非繼續(xù)更新原有版本。飲食(FOOD_AND_DRINK)類和娛樂(ENTERTAINMENT)類應(yīng)用安裝數(shù)量較少,但更新得非常及時,這體現(xiàn)了這些應(yīng)用的實時性。這類應(yīng)用需隨著時事更新而不斷變化,所以我們不建議大量投入開發(fā),而是注重每次更新時的優(yōu)化。

4手機應(yīng)用推薦系統(tǒng)

在同一種類(Category)的應(yīng)用中,用戶一般會根據(jù)應(yīng)用市場所給出的評分來選擇應(yīng)用。但是有些應(yīng)用雖然評分較高,但是安裝、評價數(shù)量較少,所以并不能客觀地體現(xiàn)這個應(yīng)用的綜合水平。而隨著時代的發(fā)展,應(yīng)用的版本新舊程度也逐漸成為是否能滿足當(dāng)代用戶需求的重要因素。據(jù)此,本文在設(shè)計手機應(yīng)用推薦系統(tǒng)的過程中,主要考慮應(yīng)用的所屬次種類(Gen-res)、應(yīng)用大?。⊿ize)、是否付費(PayorFree)、受眾人群(Groups)以及與評價相關(guān)的多種因素。推薦過程分為兩個子過程:①計算相似度篩選應(yīng)用:根據(jù)用戶所給應(yīng)用所屬的一個或多個次種類(Genres)、應(yīng)用大小(Size)、是否付費(Payor-Free)、受眾人群(Groups),計算應(yīng)用間的相似度,確定20個最相似的應(yīng)用;②計算綜合質(zhì)量對應(yīng)用排序:根據(jù)應(yīng)用評分(Rat-ing)、安裝數(shù)量(Installs)以及評價情緒(Sentiment)、評價客觀程度(Subjectivity)得出各應(yīng)用的綜合質(zhì)量,選擇綜合質(zhì)量排名前3的應(yīng)用推薦給用戶。4.1相似度。用戶為系統(tǒng)提供一個自己喜歡的應(yīng)用x,計算x所屬的種類(Category)中的每一個應(yīng)用,如y,和x之間的相似度———即計算所推薦應(yīng)用x與應(yīng)用y之間的歐幾里得距離,距離越小表示相似度越高,取距離最小的前20個應(yīng)用,作為和x最相似的應(yīng)用,作為推薦的候選項。其中,次種類(Genres)的值可能包含一個或多個,預(yù)處理數(shù)據(jù)時,應(yīng)將其拆分成多個種類。舉例說明,如果x的次種類為“Art&Design;Action&Adventure”,y的次種類為“Education;Action&Adventure”則Genres1=Art,Genres2=Design,Genres3=Action,Genres4=Adventure。x所屬的那一行,Genres1到Gen-res4的值均為1,y的Genres1,Genres2值為1,Genres3,Gen-res4的值為0。對于受眾人群(Groups),一共有“Adultsonly(18+)”,“Mature17+”“Teens(12-16)”“Ten+(10+)”“Everyone(0~100)”5種值。根據(jù)這些原先的值,我們將Group劃分為Group1:0~10歲,Group2:10~12歲,Group3:12~16歲,Group4:16~18歲,Group5:18歲以上。當(dāng)x的原先的值為“Ten+(10+)”,那Group1到Group5的值分別為0,1,1,1,1;當(dāng)x的原先的值為“Adultsonly(18+)”,那Group1到Group5的值分別為0,0,0,0,1;當(dāng)x的原先的值為“Mature17+”,那Group1到Group5的值分別為0,0,0,0,1;當(dāng)x的原先的值為“Everyone(0~100)”,那Group1到Group5的值分別為1,1,1,1,1;當(dāng)x的原先的值為“Teens(12~16)”,那Group1到Group5的值分別為0,0,1,1,1。針對是否付費(PayorFree),使用1表示免費(FREE),使用0表示付費(NOT-FREE)。在計算相似度的時候,我們使用的是歐幾里得距離,公式如下:dx,y=∑ni=1(axi-ayi)22姨距離越近,表示x和y越相似。我們選擇dx,y最小的前20個y作為我們的候選應(yīng)用。4.2綜合評價。針對選擇出來的20個候選應(yīng)用,我們通過應(yīng)用評分(Rat-ing)、安裝數(shù)量(Installs)以及評價情緒(Sentiment)、評價客觀程度(Subjectivity)來進(jìn)一步對其質(zhì)量得分(grade)后篩選出最好的3個應(yīng)用。公式如下:Grade=avg(∑sentimenti×Subjectivityi)×Installys×Rating2,其中i表示某一個應(yīng)用的第i個評論。評價情緒(Sentiment)如果是積極的,那么得分為0~1之間,分?jǐn)?shù)越高越積極;評價情緒(Sentiment)如果是消極的,那么得分在-1~0之間,分?jǐn)?shù)越低越消極。評價客觀程度(Sub-jectivity)是指評論者的打分時的客觀程度。我們求出每一個應(yīng)用的平均評價情緒和其安裝數(shù)量、評分的平方相乘,得到應(yīng)用的質(zhì)量得分。得分越高,表示質(zhì)量越高,我們選擇質(zhì)量最高的3個應(yīng)用作為最終的推薦項。

5結(jié)論

本文利用大數(shù)據(jù)技術(shù),分析了手機應(yīng)用市場的潛在問題,并提出了建議和解決方案。并利用一萬多條應(yīng)用的信息,設(shè)計和建立了手機應(yīng)用推薦系統(tǒng),根據(jù)用戶的使用記錄,能夠為用戶推薦內(nèi)容相近且質(zhì)量高的應(yīng)用。

參考文獻(xiàn)

[1]郭靖,郭晨峰.中國移動互聯(lián)網(wǎng)應(yīng)用市場分析.移動通信,2010(7):57~62.

[2]李迎辰.基于社交網(wǎng)絡(luò)的移動應(yīng)用推薦系統(tǒng)研究及應(yīng)用[D].(Doctoraldissertation,重慶大學(xué)),2014.

[3]廖建新.大數(shù)據(jù)技術(shù)的應(yīng)用現(xiàn)狀與展望.電信科學(xué),2015(7):1~12.

作者:李可玥 單位:浙江省杭州學(xué)軍中學(xué)