小議電子商務中準確利用數據挖掘科技

時間:2022-10-30 02:46:00

導語:小議電子商務中準確利用數據挖掘科技一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

小議電子商務中準確利用數據挖掘科技

1電子商務介紹

隨著網絡技術和數據庫技術的成熟,全球傳統商務正經歷一次重大變革,向電子商務全速挺進。這種商業電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時也為商家提供了更加深入地了解客戶需求信息和購物行為特征的可能性。數據挖掘技術作為電子商務的重要應用技術之一,將為正確的商業決策提供強有力的支持和可靠的保證,是電子商務不可缺少的重要工具。

電子商務的發展促使公司內部收集了大量的數據,并且迫切需要將這些數據轉換成有用的信息和知識,為公司創造更多潛在的利潤,數據挖掘概念就是從這樣的商業角度開發出來的。數據挖掘涉及的學科領域和方法很多,其核心技術歷經了數十年的發展,其中包括統計、近鄰、聚類、決策樹、神經網絡和規則等。今天,這些成熟的技術在電子商務中已進入了實用階段,并取得了良好的效果。但數據挖掘作為一個新興領域,在實際應用當中仍存在許多尚未解決的問題。其中最困難的往往在于決定什么時候采用哪種數據挖掘技術。為了對數據挖掘技術進行明智的選擇,本文結合數據挖掘技術在電子商務中的應用,從挖掘任務和數據信息兩個角度進行分析,指出各種數據挖掘技術適用的場合,以便開發出切實可用的數據挖掘系統。

2數據挖掘的概念及其在電子商務中的應用

2.1數據挖掘的概念

數據挖掘是通過挖掘數據倉庫中存儲的大量數據,從中發現有意義的新的關聯模式和趨勢的過程。從商業的角度定義,數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業決策的關鍵性數據。數據挖掘最吸引人的地方是它能建立預測模型而不是回顧型的模型。利用功能強大的數據挖掘技術,可以使企業把數據轉化為有用的信息幫助決策,從而在市場競爭中獲得優勢地位。

2.2數據挖掘在電子商務中的應用

由于數據挖掘能帶來顯著的經濟效益,它在電子商務中(特別是金融業、零售業和電信業)應用也越來越廣泛。

在金融領域,管理者可以通過對客戶償還能力以及信用的分析,進行分類,評出等級。從而可減少放貸的麻木性,提高資金的使用效率。同時還可發現在償還中起決定作用的主導因素,從而制定相應的金融政策。更值得一提的是通過對數據的分析還可發現洗黑錢以及其它的犯罪活動。

在零售業,數據挖掘可有助于識別顧客購買行為,發現顧客購買模式和趨勢,改進服務質量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設計更好的貨品運輸與分銷策略,減少商業成本。

電信業已經迅速地從單純的提供市話和長話服務演變為綜合電信服務,如語音、傳真、尋呼、移動電話、圖像、電子郵件、計算機和WEB數據傳輸以及其它的數據通信服務。電信、計算機網絡、因特網和各種其它方式的通信和計算的融合是目前的大勢所趨。而且隨著許多國家對電信業的開放和新型計算與通信技術的發展,電信市場正在迅速擴張并越發競爭激烈。因此,利用數據挖掘技術來幫助理解商業行為、確定電信模式、捕捉盜用行為、更好的利用資源和提高服務質量是非常有必要的。分析人員可以對呼叫源、呼叫目標、呼叫量和每天使用模式等信息進行分析,還可以通過挖掘進行盜用模式分析和異常模式識別,從而可盡早發現盜用,為公司減少損失。

3選擇數據挖掘技術的兩個重要依據

數據挖掘使用的技術很多,其中主要包括統計方法、機器學習方法、和神經網絡方法和數據庫方法。統計方法可細分為回歸分析、判別分析、聚類分析、探索性分析等。機器學習方法可細分為歸納學習方法(決策樹、規則歸納)、基于范例學習、遺傳算法等。神經網絡方法可細分為錢箱神經網絡(BP算法)、自組織神經網絡等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。由于每一種數據挖掘技術都有其自身的特點和實現的步驟,對數據的形式有具體的要求,并且與具體的應用問題密切相關,因此成功的應用數據挖掘技術以達到目標過程本身就是一件很復雜的事情,本文主要從挖掘任務和可獲得的數據兩個角度來討論對數據挖掘技術的選擇。

3.1不同的挖掘任務使用不同的挖掘技術

數據挖掘的任務是從數據中發現模式。根據挖掘任務,數據挖掘可分為概念描述、聚集發現、關聯規則發現、分類發現、回歸發現和序列模式發現等。在選擇使用某種數據挖掘技術之前,首先要將待解決的商業問題轉化成正確的數據挖掘的任務,然后根據挖掘的任務來選擇具體使用某一種或幾種挖掘技術。下面具體的分析每一種挖掘任務應使用哪些挖掘技術。

概念描述

概念描述是描述式數據挖掘的最基本形式。它以簡潔匯總的形式描述給定的任務相關數據集,提供數據的有趣的一般特性。概念描述由特征化和比較組成。數據特征化是目標類數據的一般特征或特性的匯總。通常,用戶指定類的數據通過數據庫查詢收集。例如,為研究上一年銷售增加10%的軟件產品的特征,可以通過執行一個SQL查詢收集關于這些產品的數據。概念的特征化有兩種一般方法:基于數據立方體OLAP的方法和面向屬性歸納的方法。二者都是基于屬性或維的概化方法.數據特征的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維數據立方體和包括交叉表在內的多維表。數據區分是將目標類對象的一般特征與一個或多個對比類對象的一般特征比較。例如,將上一年銷售增加10%的軟件產品與同一時期銷售至少下降30%的那些產品進行比較。用于數據區分的方法與用于數據特征化的方法類似。總之,進行概念描述挖掘時一般采用面向數據庫的方法,另外還可以采用機器學習方法的基于范例學習技術。與機器學習方法相比,面向數據庫的概念描述導致在大型數據庫和數據倉庫中的有效性和可伸縮性。

聚集發現

聚集是把整個數據庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數據盡量相似。聚集在電子商務上的典型應用是幫助市場分析人員從客戶基本庫中發現不同的客戶群,并且用購買模式來刻畫不同客戶群的特征。此外聚類分析可以作為其它算法(如特征和分類等)的預處理步驟,這些算法再在生成的簇上進行處理。與分類不同,在開始聚集之前你不知道要把數據分成幾組,也不知道怎么分(依照哪幾個變量)。因此在聚集之后要有一個對業務很熟悉的人來解釋這樣分群的意義。很多情況下一次聚集你得到的分群對你的業務來說可能并不好,這時你需要刪除或增加變量以影響分群的方式,經過幾次反復之后才能最終得到一個理想的結果。聚類方法主要有兩類,包括統計方法和神經網絡方法。自組織神經網絡方法和K-均值是比較常用的聚集算法。

關聯規則發現

關聯分析是尋找在同一個事件中出現的不同項的相關性,比如在一次購買活動中所買不同商品的相關性。序列模式與此類似,它尋找的是事件之間時間上的相關性,如對股票漲跌的分析。以市場貨籃這個典型例子分析關聯規則?!霸谫徺I面包和黃油的顧客中,有90%的人同時也買了牛奶”(面包+黃油牛奶)。用于規則發現的對象主要是事務型數據庫,分析的是售貨數據,也稱貨籃數據。以下給出的數學模型用來描述關聯規則的發現問題。

設I={I1,I2,...,Im}是一組物品集,其中每一個事務T是一組物品,顯然TI。設X為一組物品,當且僅當XT時,稱事務T包含X。一個關聯規則是如下形式的一種蘊涵:XY,其中XI,YI且X∩Y=。如果D中s%的事務包含X∪Y,則稱規則XY在事務集D上的支持度support(X∪Y)=s。可信度為c,如果c=support(X∪Y)*100/support(X),則說明D中包含X的事務中有c%的事務同時也包含了Y。可信度說明了蘊涵的強度,而支持度說明了規則中所出現模式的頻率。具有高可信度和強支持度的規則稱為“強規則”(strongrules)。關聯規則發現任務的本質是要在數據庫中發現強關聯規則。利用這些關聯規則可以了解客戶的行為,這對于改進零售業等商業活動的決策很有幫助。例如,可以幫助改進商品的擺放(把顧客經常同時買的商品擺放在一起),幫助如何規劃市場(互相搭配進貨)等。在數據挖掘研究領域,對于關聯分析的研究開展的比較深入,人們提出了多種關聯規則的挖掘算法,如APRIORI、FP增長、STEM、AIS、DHP等算法分類發現分類要解決的問題是為一個事件或對象歸類。設有一個數據庫和一組具有不同特征的類別(標記),該數據庫中的每一個記錄都賦予一個類別的標記,這樣的數據庫稱為示例數據庫或訓練集。分類分析就是通過分析示例數據庫中的數據,為每個類別做出準確的描述或建立分析模型或挖掘出分類規則,然后用這個分類規則對其它數據庫中的記錄進行分類。在電子商務中分類分析可以預測客戶響應,如哪些客戶最傾向于對直接郵件推銷做出回應,又有哪些客戶可能會換他的手機服務提供商,或進行商店定位,如按成功的商店、一般商店和失敗商店排列得出這3類商店各自具有的屬性。然后選擇包含位置屬性的地理數據庫,分析每一預期的商店位置屬性,以確定預期的商店定位屬于哪一類。只有那些符合成功一類要求的商店位置才作為商店定位的候選。用于分類分析的技術有很多,典型方法有統計方法的貝葉斯分類、機器學習的判定樹歸納分類、神經網絡的后向傳播分類等。最近數據挖掘技術也將關聯規則用于分類問題。另外還有一些其它分類方法,包括k-最臨近分類、MBR、遺傳算法、粗糙集和模糊集方法。目前,尚未發現有一種方法對所有數據都優于其它方法。實驗研究表明,許多算法的準確性非常相似,其差別是統計不明顯,而訓練時間可能顯著不同。一般的,大部分神經網絡和涉及樣條的統計分類與大部分判定樹方法相比,趨向于計算量大。

回歸發現

回歸是通過具有已知值的變量來預測其他變量的值。它與分類類似,差別在于前者的預測值是連續的,而后者是離散的。在最簡單的情況下,回歸采用的是象線性回歸這樣的標準統計技術。但在大多數現實世界中的問題是不能用簡單的線性回歸所能預測的。如商品的銷售量、股票價格、產品合格率、利潤的大小等,很難找到簡單有效的方法來預測,因為要描述這些事件的變化所需的變量以上百計,且這些變量本身往往都是非線性的。為此人們又發明了許多新的手段來試圖解決這個問題,如邏輯回歸、決策樹、神經網絡等。一般同一個模型既可用于回歸也可用于分類,如CART決策樹算法既可以用于建立分類樹,也可建立回歸樹。神經網絡也一樣。

序列模式發現

序列模式分析和關聯分析類似,其目的也是為了挖掘數據之間的聯系,但序列模式分析的側重點在于分析數據間的前后序列關系。它能發現數據庫中形如“在某一段時間內,顧客購買商品A,接著購買商品B,而后購買商品C,即序列ABC出現的頻率較高”之類的知識。序列模式分析描述的問題是:在給定交易序列數據庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數作用在這個交易序列數據庫上,返回該數據庫中出現的高頻序列。在進行序列模式分析時,同樣也需要有用戶輸入最小值信度C和最小支持度S。另外序列關聯規則挖掘中采用的Apriori特性可以用于序列模式的挖掘,另一類挖掘此類模式的方法是基于數據庫投影的序列模式生長技術。

3.2理解可以獲得的數據的信息。

對可以挖掘的數據進行分析,理解可以獲得的數據的信息:內容、字段類型、記錄之間的關系??赡苡绊憯祿诰蚣夹g選擇的數據性質主要有:

1)種類字段:關聯分析和連接分析只適用于種類字段。決策樹也可以很容易的用于種類字段。但是有一個忠告:就是當種類的值較多的時候,效果可能就會比較差,當然如果限制分支的個數的時候,決策樹的效果還是不錯的。神經元網絡,可以將種類字段轉化成數值字段,但是這樣就給種類字段強加了一個先后次序。也可以將種類字段作為多個輸入,但是當值很多時,這種方法就成問題了。

2)數值字段:神經元網絡將所有輸入轉化到0—1之間。MBR和聚集檢測通過距離函數來處理數值字段。決策樹可以通過splitter數值來處理數值字段。對于關聯分析,則必須將數值變量區間化成種類變量,但是區間的選擇是一個很困難的問題。

3)每條記錄都有大量的字段(獨立):記錄中的字段很多,神經元網絡和MBR技術會受其影響,關聯規則挖掘也會受影響。而決策樹受其影響的程度就比較的小。

4)多個目標字段(非獨立):對于存在多個依賴變量的情況,神經元網絡是最佳的選擇。

5)記錄是變長的:只有關聯規則和連接分析可以直接處理變長記錄。對于其他的技術,數據需要一些預處理:可以生成一些統計字段;將一條記錄拆分成幾條記錄,每個含有記錄號。

6)有時間順序的數據:神經元網絡,關聯規則對時間順序的數據的處理能力比較的好。決策樹也能處理時間順序,但是需要的數據準備就相對較多一點。

7)自由文本數據:MBR技術最適合。

4結論

總之在選擇一種數據挖掘技術我們應根據商業問題的特點來決定采用哪種數據挖掘形式比較合適。應選擇符合數據的模型的算法,確定合適的模型和參數。只有選擇好正確的數據挖掘工具,才能真正發揮數據挖掘的作用,使企業在激烈的市場競爭中做出正確的決策,保持有力的競爭優勢。