電商平臺用戶評論數據情感分析

時間:2022-10-28 08:54:48

導語:電商平臺用戶評論數據情感分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

電商平臺用戶評論數據情感分析

摘要:以生鮮農產品蘋果為研究對象,通過Python網絡爬蟲采集電商平臺上的文本評論數據,對數據進行去重、清洗等基本的預處理操作后,進行用戶情緒分類,并通過分詞處理、詞頻統計、詞云數據展示等方法對用戶評論文本數據進行分析。通過LDA主題分析模型對評論數據進行主題分析,從而通過多方面的分析獲取文本評論數據中有價值的內容,對產品的改進提出建議。

關鍵詞:文本數據挖掘;LDA主題模型;用戶評論;情感分析

1概述

隨著科技的發展和人們綜合素質的提高,越來越多的人選擇網上購物,尤其是年輕人,大到汽車、家電,小到大米、蔬菜等農副產品。最近幾年,生鮮類農產品成了電商發展的新方向,生鮮電商巨大的市場前景吸引了眾多生鮮電商的積極入市,當前,蘇寧、順豐、京東、阿里巴巴等電商企業紛紛向這方面進軍。這種網上生鮮電商的服務模式,得到了社會大眾的青睞和認可。當前好多電商平臺取消了對用戶評論的分類,或者分類過于粗糙,缺乏指導價值,不利于商戶和用戶從大量的數據中提取有用信息。作為商品的經營者,面對激烈的市場競爭,除了提高產品質量、降低商品的價格、營銷方式的變革之外,了解更多消費者的心聲變得越來越重要,其中常用的方式就是對評論者的文本數據進行內在信息的數據挖掘分析,幫助企業和商家推出受市場歡迎的產品。同時對消費者而言,可以幫助消費者了解產品的優劣,幫助用戶進行購買決策。本文從電商平臺用戶評論數據的獲取、采集和分析3個方面分析了基于電商平臺評論數據的用戶情感分析的一般流程如圖1所示。

2數據來源

經前期的市場調查,蘋果在各種生鮮農產品中有著廣泛的受眾群體,營養價值高,老少皆宜,易于儲存和運輸,非常適合在網絡上銷售,無論自用還是送禮都有著巨大的消費量。因此本文選擇京東商城生鮮農產品,以新鮮水果蘋果為研究對象,對用戶的評價進行情感分析。本文以當前銷量排名第一的某品牌蘋果阿克蘇蘋果為例,京東商城自營店將蘋果產品的規格按果徑大小分為75~80mm15粒,80~85mm15粒,85~90mm14粒,90~95mm12粒,95~100mm10粒,約100mm8粒6個級別,截至目前已經有累計69萬+評論,其中好評28萬+,中評3100+,差評2100+,數據量比較大,適合作電商用戶情感分析。

3基于網絡評價的農產品情感分析

3.1評論數據的采集

本文使用Python編寫爬蟲程序,從京東商城網站上采集某品牌蘋果客戶的評論數據。采集了用戶編號、用戶評分、評論內容、評論時間4個字段,并將采集到的數據保存MySQL數據庫中,如圖2所示。

3.2網絡評論數據詞云分析

對評論數據進行重復值處理、過濾短句等操作之后,將數據分別按好評、中評、差評存放在相應的文本文件中。其中評分大于3分的為好評,等于3分的為中評,小于3分的為差評。然后去除文本中的無用符號、過濾停用詞,對文本進行jieba分詞和詞頻統計。分別取好評和差評的前30個高頻詞用詞云展示,如圖3所示。實驗結果顯示,正面評價客戶的評論主要是對產品質量和京東平臺服務的肯定,評論點主要集中在口感、包裝和物流;負面評價用戶的評論主要集中在是否為真正的阿克蘇蘋果、有無冰糖心、口感、產品質量的穩定性,以及對京東平臺客服的評價上。

3.3基于LDA模型的主題分析

3.3.1LDA模型介紹主題模型在機器學習和自然語言處理領域是用來在一系列文檔中發現抽象主題的一種統計模型。潛在狄利克雷分配(LatentDirichletAllocation,LDA)是由Blei等人在2003年提出的生成式主題模型。生成模型,即認為每一篇文檔的每一個詞都是通過“一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語”。LDA模型也被稱為3層貝葉斯概率模型,包含文檔(d)、主題(z)和詞(w)3層結構,能夠有效地對文本進行建模,和傳統的空間向量模型(VSM)相比,增加了概率的信息。通過LDA主題模型,能夠挖掘數據集中的潛在主題,進而分析數據集的集中關注點及相關特征詞。LDA模型假設每篇評論由各個主題按一定比例隨機混合而成,混合比例服從多項分布,記為:Z|θ=Multionomial(θ)而每個主題由詞匯表中的各個詞語按一定比例混合而成,混合比例也服從多項分布,記為:W|Z,φ=Mulinomial(φ)在評論dj條件下生產詞wi的概率表示為:P(wj|dj)=∑Ks=1P(wi|z=s)×P(z=s|dj)其中,P(wj|z=s)表示詞wi表示屬于第s個主題的概率,P(z=s|dj)表示第s個主題在評論dj中的概率。3.3.2LDA主題模型估計LDA模型對參數θ、φ的近似估計通常使用馬爾科夫鏈蒙特卡洛(MarkovChainMonteCarlo,MCMC)算法中的一個特例Gibbs抽樣。利用Gibbs抽樣對LDA模型進行參數估計,依據下式:P(zi=s|Z-i,W)∝ns,-i(+β)i/∑Vi=1ns,-i(+β)i×ns,-j(+α)s其中,zi=s|標注詞wi屬于第s|個主題的概率,Z-i表示其他所有詞的概率,ns,-i表示不包含當前詞wi的被分配到當前主題zs下的個數,ns,-j表示不包含當前文檔dj的被分配到當前主題zs下的個數。通過對上式的推導,可以推導得到詞wi在主題zs中的分布參數估計φs,i,主題zs在評論dj中的多項分布的參數估計θj,s,如下:φs,i=ns,i(+β)/∑Vi=1ns,i(+β)iθj,s=nj,s(+α)s/∑Ks=1nj,s(+α)s其中,ns,i表示詞wi在主題zs中出現的次數,nj,s表示文檔dj中包含主題zs的個數。3.3.3運用LDA模型實現主題分析雖然LDA可以直接對文本作主題分析,但是為了避免正面評價和負面評價混淆在一起,并且由于分詞粒度的影響(否定詞或者程度詞等),從而可能在一個主題下產生一些令人迷惑的詞語。因此本文將文本分為正面評價和負面評價2個文本,再分別進行LDA主題分析。根據采集數據時用戶的評分,將評論分為正面情感結果和負面情感結果。如果評分大于3分為正面情感結果,小于3分則為負面情感結果。然后再分別對正面評價和負面評價文本進行jieba分詞和過濾停用詞,使用Python的Gensim庫完成LDA主題分析。經LDA主題分析后,將評論文本聚類成3個主題,每個主題下生成10個最有可能出現的詞語及其相應的概率。表1顯示了某品牌蘋果的正面評價文本中的潛在主題,表2顯示了負面評價文本中的潛在主題。根據對某品牌阿克蘇蘋果好評的3個潛在主題的特征詞提取,主題1的中高頻詞即某品牌、好吃、不錯等,主要反映某品牌的蘋果好吃,值得購買;主題2中的高頻詞京東、包裝、好吃等,主要反映京東的運輸和產品的質量;主題3中的高頻詞京東、好、不錯、好吃等,主要反映了京東的服務和產品的質量。從對某品牌阿克蘇蘋果差評的3個潛在主題的特征詞提取,主題1的中高頻詞即阿克蘇、京東、冰糖心、失望等,主要反映的是對京東平臺提供的這批產品的不滿;主題2中的高頻詞阿克蘇、糖心、京東、這次等,主要反映的是這一次購物的失望,跟以前的差距大;主題3中的高頻詞冰糖心、吃、口感、差等,主要反映了該阿克蘇蘋果口感差,與描述不符。綜合以上主題及其中高頻詞的特征可以看出,某品牌阿克蘇蘋果的優勢有以下幾個方面:口感好吃、包裝好、京東的服務好、值得購買。相對而言用戶的抱怨主要是:品質不穩定,沒有之前購買的好,在口感和大小上與描述的有差距。因此,用戶的購買原因可以總結為以下幾個方面:對某品牌和京東服務的信賴,對阿克蘇蘋果的口感和包裝認可。根據對京東平臺上某品牌阿克蘇蘋果用戶評價情況進行LDA主題模型分析,筆者對某品牌提出如下建議。在保持產品良好的包裝和性價比的基礎上,穩定產品的質量,在農產品的分揀過程中嚴格把關,不能以小充大,以次充好,影響品牌在消費者心目中的形象。同時作為京東的自營商品,京東平臺也要對銷售商品負責,提供完善的售后服務,不能辜負了消費者的信任。

4結論與展望

本文完整地展示了電商平臺下用戶評論數據的采集和分析流程,經過對數據的清洗處理,采用詞頻統計和LDA主題分析模型,對用戶的評論數據進行用戶情感分析,以京東電商平臺的生鮮農產品蘋果為例,分析了客戶對該產品的評價,并給出銷售建議。由于條件限制,本次實驗數據采集量有限,文本主題聚類效果不是很理想,今后可以通過加大采集數據量,對模型進一步優化,提升實驗效果,并應用于其他產品和服務的分析。

參考文獻:

[1]杜慧,陳云芳,張偉.主題模型中的參數估計方法綜述[J].計算機科學,2017,44(S1):29-32+47.

[2]BleiDM,NgAY,JordanMI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003(3):2003.

[3]GaoJuan,XiaTian,LiJinTao,Adensitymethodforadap-tiveLDAmodelselection[J].Neurocomputing2009(72):1775-1781.

[4]郭立秀,基于文本挖掘的生鮮電商顧客滿意度研究[D].西安:西安交通大學,2020.

[5]陳俊宇,基于文本挖掘的在線評論應用研究[D].武漢:湖北工業大學,2020.

[6]程翔,基于商品評論的情感分析的研究與應用[D].北京:北京工業大學,2020.

作者:蔣麗華 沈金羽 任怡 單位:蘇州農業職業技術學院