智能數(shù)據(jù)分析技術(shù)研究
時間:2022-04-04 03:12:37
導(dǎo)語:智能數(shù)據(jù)分析技術(shù)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1我國大數(shù)據(jù)發(fā)展的現(xiàn)狀
對于數(shù)據(jù)處理來說,數(shù)據(jù)的分析是一個核心的內(nèi)容,數(shù)據(jù)處理的價值體現(xiàn)也是由數(shù)據(jù)分析來完成的。而大數(shù)據(jù)的分析同以往的數(shù)據(jù)分析有著明顯的區(qū)別,數(shù)據(jù)量之間發(fā)生了顯著的差異,由于數(shù)據(jù)量的急劇增加,導(dǎo)致數(shù)據(jù)的儲存和查詢工作加深了一定的難度。因此,從實(shí)際的角度出發(fā),要想實(shí)現(xiàn)大數(shù)據(jù)的分析,我們就必須根據(jù)原有的數(shù)據(jù)來探究一種新型的分析模式,尋找到實(shí)際的根源,從而建立一個合理的模型來對數(shù)據(jù)進(jìn)行儲存和查詢,從而實(shí)現(xiàn)社會各個部門的協(xié)調(diào)與創(chuàng)新。目前來看,雖然大數(shù)據(jù)已經(jīng)逐漸滲透到社會的各個領(lǐng)域,然而,在我國大數(shù)據(jù)分析的發(fā)展仍然處于一個起步的階段,從行業(yè)的操作方面來看,從事這一部分的企業(yè)只占據(jù)了一小部分,而且在這一些小部分企業(yè)中,只是能夠?qū)Υ髷?shù)據(jù)進(jìn)行基本的分析,然后將結(jié)果應(yīng)用到最終的決策中。這些行業(yè)主要集中體現(xiàn)在銀行業(yè)、電信業(yè)和電商業(yè)等等,以銀行為主,目前在我國的大型國有銀行中都已經(jīng)引進(jìn)了數(shù)據(jù)分析業(yè)務(wù),發(fā)展但效果也較為理想,可是卻沒有涉及到過多的領(lǐng)域,運(yùn)行管理等方面仍然處于一個數(shù)據(jù)缺失的狀態(tài),其他的中小銀行無論是在運(yùn)行管理方面,還是在主營業(yè)務(wù)方面都沒有投入數(shù)據(jù)分析,數(shù)據(jù)分析的建設(shè)也仍然處于一個起步的階段。除此之外,在我國的國民經(jīng)濟(jì)中占據(jù)主要力量的建筑業(yè)和外貿(mào)業(yè),也沒有從根本上引入數(shù)據(jù)化的發(fā)展,沒有對數(shù)據(jù)進(jìn)行一個合理的分析,從而導(dǎo)致我國整體的數(shù)據(jù)分析仍然處于一個起步的階段。從數(shù)據(jù)來源的角度來分析,數(shù)據(jù)化能夠保障企業(yè)的穩(wěn)定運(yùn)行。目前來看,大部分的企業(yè)只是單純地依靠企業(yè)本身所具有的數(shù)據(jù),來解決已經(jīng)出現(xiàn)的問題,或者是只有當(dāng)發(fā)現(xiàn)問題的時候,才會對數(shù)據(jù)進(jìn)行收集和整理。很少有企業(yè)從根本上認(rèn)識到了數(shù)據(jù)對于企業(yè)發(fā)展和諧運(yùn)行的重要性,因此,數(shù)據(jù)化所產(chǎn)生的巨大價值幾乎很少地發(fā)揮在企業(yè)的運(yùn)行和建設(shè)過程之中。除此之外,企業(yè)的內(nèi)部和外部所產(chǎn)生的數(shù)據(jù)也沒有得到一個合理的運(yùn)用,通過企業(yè)內(nèi)部、外部的數(shù)據(jù)分析,可以對企業(yè)即將面臨的問題做出一個科學(xué)的預(yù)測,從而幫助企業(yè)針對企業(yè)自身的情況作出一個合理的決策。目前來看,以上提到的這些內(nèi)容,我國在企業(yè)仍然存在著較大的進(jìn)步空間,大數(shù)據(jù)化下的智能數(shù)據(jù)分析帶動企業(yè)的運(yùn)營發(fā)展也有待進(jìn)一步的發(fā)展。
2大數(shù)據(jù)的分析方式和分析技術(shù)
2.1大數(shù)據(jù)的分析方式。在大數(shù)據(jù)的時代,對數(shù)據(jù)進(jìn)行分析的最顯著的一個特征就是多源頭、異結(jié)構(gòu)。數(shù)據(jù)化的分析過程并不是一個具體而形象的概念,它具有一定的抽象性和降維性,同時也包含了較強(qiáng)的概括性。從數(shù)據(jù)收集的源頭出發(fā),可以將大數(shù)據(jù)分析的數(shù)據(jù)對象,分為以下幾類。第一類,是根據(jù)網(wǎng)頁中網(wǎng)民的瀏覽次數(shù)、點(diǎn)擊率等內(nèi)容實(shí)施數(shù)據(jù)的監(jiān)控,所產(chǎn)生的互聯(lián)網(wǎng)數(shù)據(jù),或是對某一網(wǎng)站的變化和所搜索的關(guān)鍵詞的數(shù)量,來實(shí)施數(shù)據(jù)監(jiān)控。第二類,是根據(jù)用戶的行為以及操作系統(tǒng)和系統(tǒng)運(yùn)行的狀態(tài)等日志數(shù)據(jù)的數(shù)據(jù)監(jiān)控。第三類,是通過在通信領(lǐng)域中所產(chǎn)生的信號、信令數(shù)據(jù),用戶的個人信息以及通話的位置時長等數(shù)據(jù)的情況。第四類,是在國民經(jīng)濟(jì)的各個領(lǐng)域中,不同的行業(yè)之間所進(jìn)行的數(shù)據(jù)統(tǒng)計。對于以上這些大數(shù)量、多源頭的數(shù)據(jù),他們沒有一個完整而統(tǒng)一的結(jié)構(gòu)。因此,對于這些數(shù)據(jù)的分析應(yīng)該采取以下幾種模式。首先,對于互聯(lián)網(wǎng)所產(chǎn)生的數(shù)據(jù),我們采取的主要分析模式是建立搜索引擎,通過搜索引擎來對數(shù)據(jù)進(jìn)行統(tǒng)一的搜索和處理。隨著互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步和發(fā)展,搜索引擎也得到了更好的提升,它的效能和工作效率都上升到了一定的高度,能夠在海量的數(shù)據(jù)中對數(shù)據(jù)進(jìn)行刪選,從而獲得更有價值的信息內(nèi)容。其次,是對日志數(shù)據(jù)進(jìn)行收集,可以通過用戶的行為日志和系統(tǒng)運(yùn)行的情況,對用戶所產(chǎn)生的數(shù)據(jù)日志進(jìn)行分析,從而導(dǎo)致系統(tǒng)能夠根據(jù)日志的情況作出更加準(zhǔn)確的判斷。處理日志數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)的方法極為相似,都是通過引擎的方式對數(shù)據(jù)進(jìn)行刪選,篩選出有價值的數(shù)據(jù),這種處理數(shù)據(jù)的模式,我們可以稱之為離線批量處理。它不僅可以對網(wǎng)頁中的數(shù)據(jù)進(jìn)行刪選和查詢,同時也可以為決策人員提供有價值的數(shù)據(jù)信息,確保決策人員在最短的時間內(nèi)獲得價值量最高的信息,以此來保障用戶獲得一個最理想的體驗感覺。除此之外,常用的數(shù)據(jù)分析模式還有查詢式分析以及實(shí)時數(shù)據(jù)分析,實(shí)時數(shù)據(jù)分析可以被廣泛地應(yīng)用到國民經(jīng)濟(jì)中占據(jù)主導(dǎo)力量的行業(yè)之間的數(shù)據(jù)監(jiān)控之中。2.2大數(shù)據(jù)的分析技術(shù)。要想從數(shù)量如此龐大的信息中,篩選出最有價值的信息,就必須要具有先進(jìn)的分析技術(shù),在大數(shù)據(jù)分析的過程中,所使用的分析技術(shù)主要有以下幾個特點(diǎn):首先,大數(shù)據(jù)的分析技術(shù)必須要適應(yīng)大數(shù)據(jù)的增長速度。其次,大數(shù)據(jù)的分析技術(shù)必須要可以面對數(shù)據(jù)的多變性和多樣化,同時分析的技術(shù)應(yīng)該以非結(jié)構(gòu)化為主。第三是分析的技術(shù),具有一定的快速性,也就是實(shí)時分析的過程。只有滿足了這些技術(shù)特點(diǎn),才可以適應(yīng)大數(shù)據(jù)的發(fā)展和變化。為了滿足,大數(shù)據(jù)進(jìn)步所提出的要求和標(biāo)準(zhǔn),目前所采取的主要數(shù)據(jù)分析技術(shù)有Qracle的Exadata和EMC的GreenPlum。而目前分析處理大數(shù)據(jù)應(yīng)用最廣泛的核心技術(shù)為Hadoop。
3數(shù)據(jù)分析過程中的要點(diǎn)
3.1明確數(shù)據(jù)的變量。在大數(shù)據(jù)的時代下,對數(shù)據(jù)進(jìn)行統(tǒng)一的收集和處理,是為了要明確市場變化中的所有變量,這也就意味著在數(shù)據(jù)分析的過程中,應(yīng)該要努力去尋找數(shù)據(jù)前后所產(chǎn)生的變量,也就是數(shù)據(jù)的變化,通過對數(shù)據(jù)變化的對比,我們可以分析出對于大數(shù)據(jù)變化所產(chǎn)生的影響因素,來判斷數(shù)據(jù)的價值,從而來決定市場的走向,這樣不僅可以對市場的發(fā)展提供有利的條件,還可以幫助決策者對市場的走向做出一個合理的判斷。3.2統(tǒng)計中不再追求精確的數(shù)據(jù)。在大數(shù)據(jù)全面來臨的情況之下,數(shù)據(jù)的不精確性不僅不會影響到數(shù)據(jù)整體信息的真實(shí)性和可靠性,同時,還會促進(jìn)對整體信息、情況的了解和掌握。大數(shù)據(jù)時代之下,人們所掌握的信息也越來越復(fù)雜,在如此錯綜復(fù)雜的數(shù)據(jù)信息之下,數(shù)據(jù)之間的傳遞就會發(fā)生參次不齊的情況,如果對于每一個數(shù)據(jù)都要要求它的精準(zhǔn)性,那么就會給整個統(tǒng)計工作增加不必要的難度。因此,在對大數(shù)據(jù)進(jìn)行統(tǒng)計和分析的過程中,我們不需要再去追求數(shù)據(jù)的具體精準(zhǔn)性,吹毛求疵,應(yīng)該用樣本的數(shù)量來反映總體的情況,樣本的數(shù)量越多,樣本的平均水平就會和總體的實(shí)際情況越接近,如此,就會大幅度的縮短總體和樣本之間的差異,從而使樣本所表示出來的數(shù)據(jù)能夠更加真實(shí)地反映總體的實(shí)際情況。
參考文獻(xiàn):
[1]王惠.大數(shù)據(jù)時代下數(shù)據(jù)分析理念研究[J].中國市場,2015.
[2]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014.
[3]鄔賀銓.大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn)[J].求是,2013.
[4]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014.
[5]李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014.
[6]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國軟科學(xué),2013.
作者:聶珊 肖煬 單位:1.四川省計算機(jī)研究院 2.成都哈佛依曼科技有限公司