報表系統數據挖掘優化分析
時間:2022-03-23 04:16:10
導語:報表系統數據挖掘優化分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:伴隨著大數據的發展,各大企業都在成立自己的數據中心,目的是為了統一處理各大部門的數據信息,打造一個數據中臺來提升企業的綜合實力。BI系統應用而生,BI主要是通過對大數據的收集,提取,分析以及展示等操作,過濾之后的信息以各種圖形化的方式展示出來,幫助領導以及企業做出正確的決斷。通過對國內的大部分數據中心進行觀察發現了以下問題:海量的數據不能正確的處理,復雜的圖表展示,大量冗余的信息使得企業不得做出正確的決定。故該文主要針對報表系統的數據挖掘模型進行優化設計與分析。
關鍵詞:報表系統;數據挖掘
1背景
BI又被稱為商務智能,譯為BusinessIntelligence,在1989年,HowardDresner稱為“使用基于事實的決策系統,來解決業務決策的一套理論和方法”[1],主要是通過數據倉庫,數據挖掘以及報表系統集合來打造一個系統。將多種來源的數據整合并提取出共性數據,然后對數據進行清洗,分析以及整理,這個數據處理就叫作ETL過程,ETL過程可以完善數據的正確性。然后對數據進行分類整理呈現給決策者或者存入數據倉庫。目前國內的BI系統發展迅速,大部分企業的數據分析技術也很強,但是大家對于BI的認知不同導致設計系統的側重點也是不同的,在此僅針對BI系統部分的數據挖掘進行優化。
2數據挖掘模型
2.1數據挖掘。數據挖掘是對數據進行抽取,分析,處理之后形成的數據倉庫,之后再對數據倉庫中的數據進一步挖掘的過程。2.2數據模型之決策樹。決策樹結構如圖2所示。決策樹是樹形結構,每個節點是一個簡單的線性決策器,節點屬性依據取值的不同劃分為不同的種類,其中決策樹的任意一個非葉子節點有兩個特點:一個訓練子集和一個分割屬性,每個節點的訓練子集互不相交。決策樹的構造:在初始時刻構建樹根節點,且樹根節點擁有所有的訓練數據,任一節點Ni,選擇數據的某一個屬性A,以A的不同值,把節點Ni擁有的數據Di劃分為全部沒有交集的集合,每個集合變成Ni的一個子節點,當某個節點的所有訓練數據都屬于同一個類時,該節點的劃分過程結束,生成葉節點只有一個屬性,它的父節點擁有的數據集所屬的類標號。ID3算法:決策樹的重點在于如何最有效的去劃分子節點,也就是選擇劃分的屬性使得從數據集中找到最重要的數據,我們可以用數據的不純性來描述數據分割的能力,“純”代表著分割之后的子集異類數目越少越好,因此衍生出了ID3算法,采取信息增益這個量來作為純度的度量[2],算法流程:1)計算信息熵,對于給定的變量擁有的概率分布向量(p1,p2,p3……),我們可以計算出信息熵是概率分布向量的對數期望值:H=-f(x)=-∑npnlogpn,主要是來衡量隨機變量的不確定性;2)計算熵不純度:對決策數的節點N定義熵不純度為i(N)=H(N);3)對于節點的不同取值,都進行子節點的信息增益計算:IG(N/Ai)=H(N)-∑INi/NH(Ni)=H(N)-H(N/Ai),可選取信息增益最大的屬性作為當前劃分屬性,之后再從第一步開始循環,直到葉子節點。以信息的增益為例,我們一般會選取屬性相同多的屬性,這樣做的后果是會造成對取值數目的屬性和個數有所偏好,為了減少這種偏好取值所帶來的影響,我們可以采用C4.5算法來消除這種影響,使用屬性增益率來劃分最適合屬性,對最適合的信息增益屬性取權值再求熵,作為最后的增益率劃分屬性。C4.5算法:與ID3算法不同的是,C4.5算法劃分重點轉移到信息增益率上,信息增益率可以表示為:IGR=IG(N/Ai)/H(N/Ai),息增益除以分割后的信息熵[3],它通過信息增益率的選擇分裂屬性可以解決ID3算法中通過信息增益傾向擁有多個屬性值的屬性進行分割的不足,同時也可以將連續性的屬性進行離散化的處理,屬性離散化處理流程:將屬性A的N個屬性按照一定的規則排序,然后將屬性A的所有量化屬性通過二分法劃分為兩個部分,可以計算出共有N-1種劃分的方法,劃分的值取相近的屬性取平均值,計算出每一種劃分方式的信息增益值,然后對比信息增益的結果,將信息增益值最大的劃分方式的閾值作為屬性A的二分閾值。也就是當前節點的劃分方式。算法流程:1)將當前節點上的屬性A的值作為所有樣本的數據,然后將數據進行排序,得到屬性A的排列屬性(xA1,...,xAN)。2)對于屬性A的排序(xA1,...,xAN)中共有N-1種劃分方法,總計可以產生N-1個劃分閾值。假設針對第i種劃分方式,取其二分閾值為θi=(xAi+xAi)/2。可以將該節點上的原始數據集劃分為2個子數據集(xA1,...,xAi)(xAi+1,...,xAN)。然后計算該劃分方法下的信息增益。3)統計N-1種劃分結果下的信息增益值,選取信息增益值最優的方式作為對屬性A的劃分方式。2.3決策樹算法優化。為了提高決策樹的性能,避免決策樹的分支太多造成泛化的能力太差,可以在構建決策樹時采用剪枝的方式:停止樹的構建,不在分割某個節點,直接構建葉子節點,葉節點的標號為父節點的占優類或者類分布,比如設置信息增益的閾值,分割時不能超過閾值則分割停止。或者我們在構建決策樹之后在進行剪枝。達到優化性能的目的。C4.5算法使用PEP剪枝法,是一種自上而下的剪枝法,這里就不再細述。伴隨著數據集的規模越來越大,可能會出現再一次內存中無法存放所有的訓練集,這時我們可以采用隨機讀入數據放入內存中進行訓練數據子集,在獲取的子集上構造決策樹,同時可以重復采樣,獲取多棵決策樹,最后再用集成學習的方式綜合多棵決策樹的結果獲取最終的分割屬性。
3結束語
針對數據挖掘模型做出優化,可以極大地改善數據提取的效率和精準度,對于大型企業的冗余信息提取具有重大的意義,同時由于BI系統依賴大數據的特性,數據挖掘算法也成為BI系統中很重要的一步,可以為后續的BI系統信息展示提供良好的支撐作用。
參考文獻:
[1]孟維一.基于數據倉庫的保險商業智能系統設計與實現[D].北京交通大學,2016.
[2]王子京,劉毓.決策樹ID3新屬性選擇方法[J].現代電子技術,2018,41(23):9-12.
[3]李飛,齊林.基于決策樹C4.5算法的大數據保險業模型研究[J].中國市場,2017(02):71-73.
作者:程旭 王萌 齊新 單位:中國汽車技術研究中心有限公司
- 上一篇:信用卡業務數據挖掘技術分析
- 下一篇:數據挖掘技術在高校招生的作用