云計算數據挖掘平臺設計研究
時間:2022-09-15 11:09:12
導語:云計算數據挖掘平臺設計研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:在云計算背景下,海量數據之間會相互影響,影響了既定的關聯原則,線性思維占據主導性地位,數據挖掘效果較差。簡要分析當前傳統思維方式下數據挖掘平臺存在的問題,并將該思維方式轉變為分布式思維,介紹了在分布式思維下建立數據挖掘平臺的優勢,并分析建立、設計方案。該方案可以有效解決冗余干擾問題,計算出區域內部的相似程度,在分布式思維數據之間產生關聯。
關鍵詞:分布式思維,云計算數據挖掘平臺,架構設計
云計算技術應用價值較高,具有靈活性的特點。但海量數據之間會產生相互干擾,影響了既定的關聯原則,需要提出一種基于分布式自適應的云計算數據挖掘算法,提高挖掘精度,改善傳統算法中存在的問題,完善仿真實驗性能[1]。
1線性思維下數據挖掘平臺存在的問題分析
目前,我國處于信息化時代,使用互聯網、移動設備端查詢信息會產生較多瀏覽痕跡、數據等,如何存儲、處理及挖掘數據是重要的技術問題。線性數據關聯規則挖掘算法是數據挖掘平臺設計的理論基礎,需要運用智能化方式處理數據庫中的信息,運用可視化技術、統計學知識、數據庫技術、模糊識別、深度學習、機器學習和人工智能等多種領域的知識解決一系列的決策問題。以線性思維為主的數據挖掘平臺的設計流程主要包含結果表達、數據挖掘及準備數據三個過程。數據挖掘平臺的建立主要分為三個步驟,首先,應確定平臺建立目標及搜集信息的方向,為尋找數據挖掘渠道、數據處理方式做鋪墊。實驗結果具有不可預測性的特征,技術人員需要熟練掌握相關知識,使得相關領域的用戶及專家明確搜索需求。其次,需要做好數據準備工作,主要包括選擇數據、預處理數據和轉化數據三個關鍵步驟。可以通過對數據的再加工策略提高數據挖掘質量,通過分析數據的種類,運用數學模型進行數據重建對比。再次,需要建立數據之間的關聯性,通過對比分析得到多組數據的共同點,結合用戶瀏覽信息、實際需求及潛在需求,使用算法尋找特定的模型,創建數據挖掘模型。利用智能化工具完成最終的挖掘任務。由此可見,在線性思維情況下,選擇某組數據進行測試時應嘗試所有可能的方式,該組數據適宜的關聯規則在計算過程中逐漸與原本的關聯規則違背,在尋求最優化解決方案時,計算效率較低。
2分布式數據挖掘平臺結構設計分析
云計算互聯網平臺主要有兩個參與主體,包括云和端,可以擺脫原有架構的局限性,簡化網站操作人員及訪問人員的操作步驟,創造出更大價值[2]。
2.1內容分發網絡實現云計算的技術流派
分配內容網絡能夠避免受到互聯網中可能會對數據傳輸穩定性造成影響的緩解,篩選出核心內容,將其傳遞到核心節點中,提高內容傳輸過程的穩定性。從商業角度出發,CDN即批發即零售帶寬及柜機資源的過程。為了降低系統的壓力值,需要在互聯網的節點處添加新資源,使得CDN廠商能夠從此處承包,也可以從各地IDC處用優惠的價格批發各種資源,再用零售價格賣給用戶,利潤空間較大。分配內容網絡能夠有效突破性能平靜,確保分發內容的穩定性與可靠性。
2.2DNS網關級別的超級代理
為了管理大量網站信息,云計算平臺可以通過DNS的智能切換技術,在使用較為普遍的CS結構兩側使用智能化技術,提高操作過程的智能化水平,優化操作結構,縮短操作反應實踐,創建出新一代的云計算互聯網應用平臺。此外,運用云計算的方式可以創建出DNS服務器集群,具有較大使用價值。
2.3網站訪問日志分析
每個網站都會自主管理自己的日志訪問記錄信息,需要提升其規范性。通常情況下,一條標準日志的標準形式為“源地址—訪問時間—訪問形式—網址名稱—訪問類型—瀏覽器類型—操作系統內容—目的操作地址”。可以創建出一個數據倉庫,在其中存放所有網站及用戶的訪問信息,完成數據挖掘任務,革新分配內容形式。網站會分析用戶的網絡行為特點,制定出相應的查詢及反饋模式,增強數據結構性能,提高系統工作效率。
2.4網站內容的動態分發
除了超級大網,普通網站性能會隨地域特點產生變化,可以根據用戶所處地理位置信息將內容分配到代理處。在完成分配任務之后,會基于云計算的方式部署互聯網,訪問最近的地址,縮短用戶的訪問等待時間,提高用戶使用互聯網的效率。
2.5根據用戶行為進行智能調度
數據倉庫中儲存著大量的用戶行為特征信息。超級代理的架構將用戶的行為特點作為搜索索引,避免運用DNS解析用戶訪問過程,只有經過多次跳轉之后才可以訪問目標網站。網絡用戶訪問網站具有固定性,總數量較少,可以將其操作行為作為重要依據,設計出智能調度和分配機制,提高訪問速度,增強網站的最大承受能力,豐富網站功能,給用戶帶來良好的體驗感[3]。
3分布式數據挖掘平臺中相關軟件算法設計分析
冗余消除算法可對數據進行分類處理,消除傳統算法中數據挖掘平臺信息存在多余、種類繁雜或無關性、干擾性較強等情況,優化傳統算法下建立的數據挖掘平臺的不足之處。
3.1冗余消除算法的設計規則分析
冗余消除算法能夠消除在云計算方式下由于數據關聯性而產生的冗余干擾,在商業化推薦系統中具有重要價值。首先,基于用戶的冗余消除算法需要對用戶的日常瀏覽信息進行收集,判斷用戶個人需求并進行評分,使得同等分值之間的用戶需求共享推薦。其次,基于相互的冗余消除算法會將所有用戶瀏覽商品、購買商品次數作為判斷其對商品的喜好程度,并推薦類似商品,計算該商品種類中,用戶喜好商品與其他的相似程度。
3.2協同過濾相似度計算方法
使用向量模型計算出數據的相似程度,計算出向量之間的距離,根據遠近成都判斷相似度高低。為了判斷關聯程度,可以計算出兩個向量的相關關系。對于稀疏性較高的用戶,該矩陣的精確程度較低,難以達到理想效果,可以運用余弦相似度算法解決此類問題。
3.3冗余消除過程設計
若計算結果較為相似,可分析數據的計算過程及初始數據是否存在相似部分,給每個變量分配一定權重,設置調和參數。平均絕對誤差是衡量用戶實際數值和測量值之間的絕對誤差水平,是重要的冗余消除算法評判標準之一。命中率標準包括查準率和查全率,網絡數據分為推薦和不推薦兩個部分。以用戶搜索查找商品為例,搜索引擎中輸入的是全類商品或精準到某品牌、某款式,代表著該用戶對于同類商品的需求程度和該種商品的喜好,反映其對于數據查找的廣泛性和搜索精準性的需要,依據此可選擇是否推薦同類商品,若精準性需求較高,則不建議推薦。在選擇算法的過程中,可積極引入新式算法降低權重,提高數據挖掘平臺的精確度,使其分析數據能力提升。
4結語
互聯網信息技術處于不斷發展過程中,如何處理海量數據信息是重大難題。可以基于大數據處理技術建立起數據處理與挖掘平臺,使用bookcrossing數據集進行測試,運用獎券的方式改進傳統算法模型,增強改進后算法的計算能力,使其貼合現代社會需求,更加便捷化、智能化。
參考文獻
[1]高鋒陽,曾林,李昭君,等.分布式智能協同和云計算相結合的配電網故障選線新方法[J].電網技術,2021,45(8):2969-2978.
[2]周東清,彭世玉,程春田,等.梯級水電站群長期優化調度云計算隨機動態規劃算法[J].中國電機工程學報,2017,37(12):3437-3448;3671.
[3]馬瑞,周謝,彭舟,等.考慮氣溫因素的負荷特性統計指標關聯特征數據挖掘[J].中國電機工程學報,2015,35(1):43-51.
作者:王哲 趙爽 單位:鐵法煤業集團大數據運營有限責任公司
- 上一篇:國有社會化檢測機構在誠信建設的作用
- 下一篇:手足并用培訓對操作考核成績的影響