云計算技術下數(shù)據(jù)挖掘探討
時間:2022-12-07 10:24:27
導語:云計算技術下數(shù)據(jù)挖掘探討一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:對于云計算而言,就是互聯(lián)網(wǎng)時代應用而產生的一種新的網(wǎng)絡技術。它有著很高的效率、高容量和動態(tài)處理的優(yōu)點,并且在社會的商業(yè)與科學研究等領域上顯示出了非常高的使用價值。云計算時代隨著快速的發(fā)展,而云計算海量數(shù)據(jù)挖掘也已成為了一種實用、高效、可行的技術,解決了傳統(tǒng)數(shù)據(jù)挖掘無法適應日益增長的數(shù)據(jù)量的問題。為了探索云計算技術中數(shù)據(jù)挖掘平臺的構建,基于云計算技術,構建了一個基于數(shù)量優(yōu)化的數(shù)據(jù)挖掘平臺,并且對構建平臺的架構和關鍵技術進行了分析。結果表明在實際的應用之中,利用云計算技術構建的數(shù)據(jù)挖掘平臺,不僅有助于可以突破傳統(tǒng)數(shù)據(jù)挖掘的性能瓶頸,而且還可以利用云計算技術對大數(shù)據(jù)集進行處理,并且對于數(shù)據(jù)挖掘平臺的效率也可以提高,在應用之中能夠起到積極的作用,在實踐中可以推動該數(shù)據(jù)挖掘平臺構建的應用。
關鍵詞:平臺構建;數(shù)據(jù)挖掘平臺;云計算;信息化
隨著計算機技術與計算機網(wǎng)絡的快速發(fā)展,尤其是網(wǎng)絡計算和云計算的逐步發(fā)展,已經(jīng)有越來越多的數(shù)據(jù)分布被儲存在了網(wǎng)絡之中,而對于在大規(guī)模的數(shù)據(jù)集之中如何提取有效地信息也就變得越來越重要[8]。對于數(shù)據(jù)挖掘技術來說,它可以促進人們對數(shù)據(jù)的應用從低層次的簡單查詢提高到高層次的查詢,能夠在挖掘知識的同時并提供決策支持。另外,隨著各行業(yè)的業(yè)務自動化的實現(xiàn),對于商務領域的業(yè)務信息目標已經(jīng)不再只是通過使用簡單的數(shù)據(jù)分析來進行收集,而更多的則是借助于對商務的運作,通過對大量的數(shù)據(jù)進行深入探索分析,從而可以使企業(yè)能夠獲得經(jīng)營決策之中的有利用價值的信息,并且使競爭力得以提升,最終可以實現(xiàn)效益的最大化。對于最近幾年最熱門的云計算技術而言,其實它并不完全屬于一種全新的技術,而是因為近些年來的它的快速發(fā)展和廣闊的應用,已經(jīng)成為一項熱門的技術,同時它還推動了傳統(tǒng)思維的信息提供方式與ICI系統(tǒng)交付模式向商業(yè)化形式的轉變。將目前現(xiàn)有的數(shù)據(jù)挖掘技術與云計算的高虛擬化和高可用性的特征實行有效地結合,可以讓之前的大規(guī)模數(shù)據(jù)的增加所造成的多樣化數(shù)據(jù)挖掘的需求適應性問題得到很好的滿足,從而使大量的數(shù)據(jù)挖掘的效率和準確性得到提高。此次,通過研究分析傳統(tǒng)數(shù)據(jù)挖掘技術的發(fā)展與云計算技術的發(fā)展現(xiàn)狀的對比,以及結合新興的互聯(lián)網(wǎng)技術,從而使現(xiàn)有的模型架構的使用難點得到解決。同時還在云計算的基礎之上,我們提出了對于大數(shù)據(jù)挖掘平臺模型體系架構的研究思緒,企業(yè)或者運營商通過該模型的框架,能夠按照自己的需求來對內部數(shù)據(jù)挖掘模式進行建設,以此可以實現(xiàn)更有效的商業(yè)利用價值。
1云計算技術分析
對于云計算而言,它是通過在網(wǎng)絡計算、分布式處理、并行處理等新的計算模型,主要是屬于一種基于互聯(lián)網(wǎng)的計算。而且云計算也還屬于一項計算服務,而不僅僅只是一種產品,它的組成主要分別為計算資源和軟件以及各種信息等[16]。另外,云計算技術所具有的特點主要有以下幾點:第一,使用云計算能夠隨時提供自助服務;第二,云計算網(wǎng)絡系統(tǒng)可以通過各種各樣的網(wǎng)絡設備隨時隨地的進行訪問;第三,在云計算之中可以建立保證多人共享的資源池;第四,在云計算之中,云計算技術也可以快速地進行部署,將應用的靈活性充分發(fā)揮出等。同時,相關的研究表明,云計算技術主要是給網(wǎng)絡之中的交易雙方而進行虛擬增值資源的供給服務[11]。并且在數(shù)據(jù)挖掘平臺的實際建設之中,通過使用云計算技術,可以在應用中起到積極的作用。
2基于云計算大數(shù)據(jù)挖掘的關鍵技術
2.1數(shù)據(jù)采集和儲存。對于大數(shù)據(jù)的采集技術來說,可以通過使用不同的方法來獲得各類非結構化和半結構化與結構化的大數(shù)據(jù),比如有RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡交互數(shù)據(jù)以及移動互聯(lián)網(wǎng)數(shù)據(jù)等方法。并且隨著科學技術的不斷發(fā)展,數(shù)據(jù)信息的增長速度也越來越快,特別是非結構化數(shù)據(jù)。因此,要想使大數(shù)據(jù)的存儲能夠完成,則必須要具備良好的性能、高吞吐率、容量大的基礎設備2.2數(shù)據(jù)預處理。所謂的數(shù)據(jù)預處理指的就是在對挖掘任務進行之前需要對不規(guī)則的大數(shù)據(jù)與非標準的大數(shù)據(jù)進行的初步預先處理。而真是有效地數(shù)據(jù)則必須要有正確可靠的結果。而且在對數(shù)據(jù)進行預處理的過程當中還主要包含對數(shù)據(jù)的抽取、轉換、清洗、集成、數(shù)據(jù)規(guī)約、異常檢測等等,因此,這些大量的數(shù)據(jù)必須要在對數(shù)據(jù)進行挖掘之前就需要對其進行數(shù)據(jù)預處理,從而使得處理過后的數(shù)據(jù)質量更高,同時數(shù)據(jù)挖掘也會更加有效可靠。2.3數(shù)據(jù)挖掘算法并行化。對于數(shù)據(jù)挖掘算法并行化的實現(xiàn),主要借助于云計算數(shù)據(jù)挖掘的最關鍵的技術,能夠最大化的提高大數(shù)據(jù)挖掘的適用性,而且該技術還主要包含有并行關聯(lián)、聚類、分類和回歸算法[3]。只有通過利用數(shù)據(jù)挖掘的常用算法并行化的方法才可以是實現(xiàn)相應的優(yōu)化,同時才能夠在云計算的平臺上來使用MapReduce計算模型,并且才可以使大數(shù)據(jù)挖掘任務在平臺上的直接運行得到滿足。因此,就有必要對數(shù)據(jù)挖掘算法的并行化的實現(xiàn)進行深入的研究,只有這樣才會使得大數(shù)據(jù)挖掘能夠得到有效的實現(xiàn)。2.4數(shù)據(jù)展現(xiàn)和應用技術。數(shù)據(jù)的展現(xiàn)和應用技術能夠有效地進行挖掘大規(guī)模數(shù)據(jù)當中的潛在信息和知識,并且將復雜的數(shù)據(jù)分析結果可以進行直觀、清晰地展示出來,從而可以使歷史數(shù)據(jù)的重讀與分析過程的可視化得以實現(xiàn),并且能夠讓社會經(jīng)濟集約化水平得到提高。目前,對于我國而言,大數(shù)據(jù)主要應用的領域是在政府決策、公共服務、商業(yè)智能等。
3平臺構建需求
3.1保證滿足數(shù)據(jù)挖掘的需求。目前,對于我國來說,數(shù)據(jù)的挖掘工作已經(jīng)越來越受到人們的重視,然而對傳統(tǒng)的數(shù)據(jù)挖掘管理模式的應用,目前還不能夠完全地適應科技信息化的快速發(fā)展的需要[18]。因此,在實際的應用之中,讓先進的云計算技術運用到數(shù)據(jù)挖掘平臺的建設之中已經(jīng)屬于勢在必行。另外,隨著我國信息技術的不斷發(fā)展,對于網(wǎng)絡中所存在的大量的用戶數(shù)據(jù)信息,將會通過運用數(shù)據(jù)挖掘技術,可以幫助大量用戶可以在數(shù)據(jù)中挖掘出有用的信息。3.2確保滿足用戶使用該平臺的需求。云計算技術與數(shù)據(jù)挖掘的結合和基于云計算技術的數(shù)據(jù)平臺的設計,可以保證用戶的運用目標的多樣性的需求得到充分滿足,從而可以保證構建的數(shù)據(jù)平臺能夠滿足用戶的需要。在對云計算技術所支持的數(shù)據(jù)挖掘平臺的建設之中,能夠對云計算的相關技術優(yōu)化應用,為了可以在數(shù)據(jù)挖掘平臺之中構建相應的云計算池,還必須要進行建立網(wǎng)絡池和云計算資源池,才能夠確保在運行數(shù)據(jù)挖掘平臺之中可以有效地利用數(shù)據(jù)資源;同樣,對數(shù)據(jù)挖掘的需求可以按照行業(yè)不同選擇合理的云計算技術,從而優(yōu)化云計算數(shù)據(jù)挖掘平臺的建設。3.3確保提升平臺實時性與交互性。在數(shù)據(jù)挖掘平臺的優(yōu)化建設中,基于云計算技術,必須要保證系統(tǒng)的平臺能夠得到實時監(jiān)控,從而方便及時地對數(shù)據(jù)挖掘平臺的運行情況進行管理和掌握。相同的利用云計算技術,必須要對數(shù)據(jù)挖掘平臺的構建進行優(yōu)化,不僅可以提高程序自動化的水平,同時還可以使平臺中的挖掘數(shù)據(jù)信息實現(xiàn)交互共享。
4在云計算技術下構建出數(shù)據(jù)挖掘平臺
為了能夠獲取到更加準確的結果,數(shù)據(jù)挖掘通常會使用相對較大的數(shù)據(jù)集,在高性能的計算時代,大規(guī)模的數(shù)據(jù)就必須要提高運算的速度,同時,也會增加了超級計算機的成本,最終將會無法承擔高成本。云計算技術可以通過采取并行計算技術和分布式計算技術而建設高吞吐量的計算系統(tǒng),從而可以解決上述的問題[17]。此外,云計算還具備分布式計算和分布式存儲兩方面的優(yōu)點,這與單機處理相比更加具有很大的優(yōu)勢。因此,有必要建立一個基于云計算的數(shù)據(jù)挖掘平臺,進而可以利用平臺為大數(shù)據(jù)提供存儲與挖掘的能力,同時平臺從下向上可以分為基礎層、服務層、業(yè)務層等三個層次。具體的平臺架構如圖1所示。4.1平臺功能分析。在此次數(shù)據(jù)挖掘平臺的設計之中,通過使用云計算技術,能夠有效地實現(xiàn)數(shù)據(jù)挖掘服務,從而可以挖掘到準確可靠的信息。圖2所示為功能結構圖。圖2功能圖它還可以使用先進的云計算技術,將安全可靠性高與低碳環(huán)保的智能化數(shù)據(jù)裝置進行結合,并在高速網(wǎng)絡通信平臺的基礎上,對數(shù)據(jù)挖掘平臺進行優(yōu)化,以保證平臺不僅使自動數(shù)據(jù)采樣、數(shù)據(jù)挖掘和隱私保護及查詢等功能能夠完成,而且還可以按照平臺的實際需求進行設計,從而可以使實時化的只能監(jiān)控、調節(jié)和交互等功能得到保障。同時,云計算技術還可以用來優(yōu)化平臺的數(shù)據(jù)挖掘模型的建模方法,構建一個集成的信息編程平臺,從而提供一致、可靠和完整的數(shù)據(jù)挖掘結果,而且可以保證所設計的憑條能使用戶需求得到滿足。4.2構建云計算技術下的XML文件挖掘系統(tǒng)。在數(shù)據(jù)挖掘的平臺之中,首先對XML文件進行處理,可以使數(shù)據(jù)挖掘多個關系表中分散的數(shù)據(jù)通過利用云計算技術對數(shù)據(jù)進行重新整合,從而使這些數(shù)據(jù)能形成完整的XML文件。因此,在數(shù)據(jù)挖掘平臺的建設之中,我們應對XML挖掘部分進行優(yōu)化和構建,對XML的處理系統(tǒng)構架需要簡化,同時利用面向對象的方法,在云計算方法的基礎上進行構建編程對象模型,方便互操作性和可擴展性得以實現(xiàn)。類似地,在數(shù)據(jù)挖掘中,通過利用平臺中關系數(shù)據(jù)庫中的XML挖掘的方法,按照XML中任意兩個節(jié)點的編碼來進行判斷兩個節(jié)點之間的關系,從而可以從中挖掘出有用的XML文件信息。4.3數(shù)據(jù)挖掘步驟。在云計算技術的數(shù)據(jù)挖掘平臺的基礎之上,對于大量數(shù)據(jù)的存儲平臺內來進行數(shù)據(jù)挖掘,而且還必須和許多不一樣的智能處理算法相結合來對數(shù)據(jù)進行挖掘運算,而且對于那些挖掘出來的重要數(shù)據(jù),通過進行相關的評價和迭代分析,最終就可以得到的數(shù)據(jù)挖掘出的數(shù)據(jù)最優(yōu)。在實踐中,基于云計算技術的數(shù)據(jù)挖掘的步驟如圖3所示。第一,主要是先要對此次挖掘數(shù)據(jù)的主題確定;第二,可以利用如Clementine、Qracle數(shù)據(jù)庫等商業(yè)挖掘工具來對相關數(shù)據(jù)進行處理;第三,對數(shù)據(jù)進行采樣和選擇,然后依照數(shù)據(jù)的趨勢和分布統(tǒng)計等方法,來對數(shù)據(jù)挖掘的模型進行構建;第四,對數(shù)據(jù)挖掘模型進行評價,從而能提取出有利的數(shù)據(jù)信息。
5結語
隨著互聯(lián)網(wǎng)和信息技術的飛速發(fā)展和信息的總量的高速增長,世界將會面臨著大數(shù)據(jù)的挑戰(zhàn)。然而云計算的大量數(shù)據(jù)信息和強大的計算和數(shù)據(jù)處理功能,可以為數(shù)據(jù)挖掘給予強有力的支持。鑒于云計算的數(shù)據(jù)挖掘系統(tǒng),它所具備的很多優(yōu)點是數(shù)據(jù)挖掘系統(tǒng)以前所沒有的,因此,它可以為企業(yè)用戶與個人用戶的數(shù)據(jù)挖掘任務提供一個很好的解決方法[13]。此外,通過構建基于云計算技術下的數(shù)據(jù)挖掘平臺,使云計算技術之中的若干資源可以面向業(yè)務的數(shù)據(jù)挖掘應用,起到了積極的作用,同時,平臺的用戶也可以獲取到大量的數(shù)據(jù)挖掘功能和大量數(shù)據(jù)的存儲功能,從而使數(shù)據(jù)管理、計算和分析的軟件與硬件的成本降低。
作者:王鵬 單位:陜西財經(jīng)職業(yè)技術學院