大數據分析論文范文
時間:2023-03-24 09:27:07
導語:如何才能寫好一篇大數據分析論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
基本的大數據的處理流程可以分成數據采集、數據處理與集成、數據分析和數據解釋4個階段。首先獲取數據源的數據,因為在數據源端的數據包含各種各樣的結構,需要使用某種方法將其進行預處理,使數據成為某種可以用一種算法分析的統一數據格式,接著需要找到這種數據分析的算法,將預處理過的數據進行算法特定的分析,并將分析的結果用可視化等手段呈現至用戶端。
1.1數據采集
大數據的采集是整個流程的基礎,隨著互聯網技術和應用的發展以及各種終端設備的普及,使得數據的生產者范圍越來越大,數據的產量也越來越多,數據之間的關聯也越來越復雜,這也是大數據中“大”的體現,所以需要提高數據采集速度和精度要求。
1.2數據處理與集成
數據的處理與集成主要是對前一步采集到的大量數據進行適當的預處理,包括格式化、去噪以及進一步集成存儲。因為數據采集步驟采集到的數據各種各樣,其數據結構也并不統一,不利于之后的數據分析,而且,一些數據屬于無效數據,需要去除,否則會影響數據分析的精度和可靠性,所以,需要將數據統一格式并且去除無效數據。通常會設計一些過濾器來完成這一任務。
1.3數據分析
在完成了數據的采集和處理后,需要對數據進行分析,因為在進行數據分析后才能體現所有大數據的重要價值。數據分析的對象是上一步數據的處理與集成后的統一格式數據,需要根據所需數據的應用需求和價值體現方向對這些原始樣本數據進一步地處理和分析。現有的數據分析通常指采用數據倉庫和數據挖掘工具對集中存儲的數據進行分析,數據分析服務與傳統數據分析的差別在于其面向的對象不是數據,而是數據服務。
1.4數據解釋
數據解釋是對大數據分析結果的解釋與展現,在數據處理流程中,數據結果的解釋步驟是大數據分析的用戶直接面對成果的步驟,傳統的數據顯示方式是用文本形式體現的,但是,隨著數據量的加大,其分析結果也更復雜,傳統的數據顯示方法已經不足以滿足數據分析結果輸出的需求,因此,數據分析企業會引入“數據可視化技術”作為數據解釋方式。通過可視化結果分析,可以形象地向用戶展示數據分析結果。
2云計算與大數據分析的關系
云計算是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源,是一種按使用量付費的模式。這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡、服務器、存儲、應用軟件、服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。目前,國內外已經有不少成熟的云計算的應用服務。數據分析是整個大數據處理流程里最核心的部分。數據分析是以數據的價值分析為目的的活動,而基于大數據的數據分析通常表現為對已獲取的海量數據的分析,其數據來源可能是企業數據也可能是企業數據與互聯網數據的融合。從目前的趨勢來看,云計算是大數據的IT基礎,是大數據分析的支撐平臺,不斷增長的數據量需要性能更高的數據分析平臺承載。所以,云計算技術的不斷發展可以為大數據分析提供更為靈活、迅速的部署方案,使得大數據分析的結果更加精確。另一方面,云計算的出現為大數據分析提供了擴展性更強,使用成本更低的存儲資源和計算資源,使得中小企業也可以通過云計算來實現屬于自己的大數據分析產品。大數據技術本身也是云計算技術的一種延伸。大數據技術涵蓋了從數據的海量存儲、處理到應用多方面的技術,包括海量分布式文件系統、并行計算框架、數據庫、實時流數據處理以及智能分析技術,如模式識別、自然語言理解、應用知識庫等等。但是,大數據分析要走向云計算還要賴于數據通信帶寬的提高和云資源的建設,需要確保原始數據能遷移到云環境以及資源池可以隨需彈性擴展。
3基于云計算環境的Hadoop
為了給大數據處理分析提供一個性能更高、可靠性更好的平臺,研究者基于MapReduce開發了一個基于云計算環境的開源平臺Hadoop。Hadoop是一個以MapReduce算法為分布式計算框架,包括分布式文件系統(HDFS)、分布式數據庫(Hbase、Cassandra)等功能模塊在內的完整生態系統,已經成為當前最流行的大數據處理平臺,并被廣泛認可和開發應用。基于Hadoop,用戶可編寫處理海量數據的分布式并行程序,并將其運行于由成百上千個節點組成的大規模計算機集群上。
4實例分析
本節以電信運營商為例,說明在云計算環境中基于Hadoop的大數據分析給大數據用戶帶來的價值。當前傳統語音和短信業務量下滑,智能終端快速增長,移動互聯網業務發展迅速,大數據分析可以為運營商帶來新的機會,幫助運營商更好地轉型。本文數據分析樣本來自于某運營商的個人語音和數據業務清單,通過Hadoop2.6.0在Ubuntu12.04系統中模擬了一個大數據分析平臺來處理獲得的樣本。希望通過對樣本數據的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡單分析,實際上樣本數據中所蘊含的價值要遠遠大于本文體現的。以上舉例意在說明基于云計算的大數據分析可以在數據分析上體現出良好的性能,為企業帶來更豐富更有效率的信息提取、分類,并從中獲益。
5結束語
篇2
關鍵詞:大數據分析;內部審計應用
近年來,大數據應用更加廣泛,它改變了固有的數據分析方式,將企業經營以及與之相關聯的企業和客戶信息進行收集和分析,通過新的思維處理數據與技術的難題。據調查顯示,目前我國很多優秀企業都將大數據作為新一輪經濟增長點,從2012年開始就實現了持續增長,成了企業市場經營的巨大資料庫,提高了企業的整體技術水平和競爭能力。具體而言,大數據分析是一種能夠從各類信息中快速提取有用數據的一種新技術,對內部審計工作來說具有的意義不言而喻。下面就從大數據分析給內部審計帶來的機遇和挑戰入手,從實際出發做好應用性審計,帶動審計工作發生質的飛躍。
一、大數據分析給內部審計工作帶來的機遇和挑戰
(一)審計目標信息化技術使用的初期,內部審計工作依賴計算機技術,可以通過對數據的觀察和分析找到審計中存在的問題,為具體工作的開展提供參考。大數據分析技術的應用則將審計工作帶到了新的高度,它不僅能夠發現問題,還可以對風險進行評估,對效益進行分析,及時發現審計工作中存在的問題,降低內部控制風險,為企業發展做出預測性思考。(二)審計內容數字是傳統內部審計工作參考的重點,包括營業收入、費用支出、稅收情況等等。大數據分析則突破了原來數字化的限制,基本內涵和審計的內容不斷向外延展,打破了傳統數據結構化的樣式不足,在不同的時間范圍內可以生成復雜多變的數據,其中包括文本、音頻、視頻、xml等,構建出了審計的立體化方法。(三)分析技術大數據分析與內部審計應用的結合,最大的改變就在于技術的更新,大數據分析可以實現大數字的整合,從五大技術方面進行了完善。即可視化分析、數據挖掘算法、預測性分析、語義引擎和數據質量與管理。這些新技術可以通過標準化的形式,建立數據新模型,提取隱藏起來的內部審計信息,利用圖表展示數據分析的全過程,并做出前瞻性的判斷,從而提高數據的分析準確性。
二、大數據分析內部審計的方式
首先,數據驗證性分析朝著數據挖掘性分析轉變。即由原來的多維分析驗證數據變為挖掘性技術的使用,將數據倉庫和模型構建起來,做好聚類分析,找到規律性內容,并提取關聯性數據。例如,在電力審計過程中,可以建立起專門的數據資料庫,找到電力使用的具體數據,分析用電情況。其次,審計方式由事后發現問題變為風險預警。企業經營難免會遇到各種風險,對市場形勢進行分析,將可能存在的危機控制在萌芽階段,是大數據分析有別于傳統分析模式最大的特點。另外,大數據分析可以早期關注經濟運行情況,發掘數據敏感性波動,并集合社保審計、債務數據、經濟宏觀運行數據,實現信息庫的交叉使用,提升數據分析水平和審計能力。最后,單機審計向云審計方法的轉變。云審計是基于云數據庫設立的數據平臺,它依靠的是中心統計分析,通過網絡與“云”的對接,對審計成果進行共享。與此同時,在大數據分析云計算實施的過程中,必須堅持技術的創新與發展,建立預算、財務、執政一體化策略,設立專門的數據平臺,提高信息化技術審核的質量,做好宏觀分析。
三、大數據分析在內部審計中的應用
大數據分析與內部審計的綜合應用是信息時代技術演變的新手段,在與內部審計結合使用的過程中必須堅持全面化使用,從制度流程、機構人員、審計業務以及技術上做好配合,全面推行新的審計方法。(一)創新大數據工作模式創新是進步的源泉,大數據分析的推行,與內部審計工作的結合,都必須堅持創新原則,對預算執行審計有一個全面的認識。傳統的孤立審計已不適應大數據審計的要求,需要打破部門之間的界限,以審計項目為管理主線,成立大審計組,進行扁平化管理。結合各預算部門的財務數據,發現是否存在預算項目在連年結轉的情況下仍然安排新增預算、造成資金閑置的問題。通過對數據進行宏觀整體分析,發現是否存在預算執行效率不高、分配下達預算不及時、撥付轉移支付資金超期等情況。(二)完善跟蹤審計方式通過建設審計數據綜合分析平臺,搭建關系國計民生的重點行業聯網審計系統,用Hadoop等專業工具處理半結構化、非結構化數據,規范高效地匯集和處理大規模數據信息。例如,在地稅審計中,可利用地稅聯網審計系統,集中進行全省地稅數據整理分析,探索“數據集中采集、集中統一分析、疑點分布落實、資源充分共享”的大數據審計模式,實現全省聯動審計。此外,還要對資金分配結構、資金使用流向、資金管理情況進行總體分析,全面反映預算執行整體情況,實現對預算單位的審計監督全覆蓋。(三)實現多數據融合,落實經濟責任審計運用關聯分析,找出數據間的相互聯系,分析關聯規則,發現異常聯系和異常數據,尋找審計疑點。在經濟責任審計中,可利用財政、稅務、社保、培訓等數據在橫向和縱向之間都做好關聯性研究,做好數據的全面跟蹤分析,實施和推行經濟責任審計模式,提高審計效率。另外,在深入挖掘數據過程中,還要利用數據倉庫和模型分析統計數據變動信息,分析關聯性內容,對體制機制性問題開展研究,挖掘行業性和趨勢性問題。
四、結束語
綜上所述,大數據技術的發展對審計工作提出了新的、更高的要求,也為審計提供了新的工具。傳統的大數據分析與內部審計工作的結合不夠緊密,技術應用不夠突出,且人才缺失。基于大數據分析的新情況,內部審計工作必須從數據、資源、人才方面逐步積累資源,創新大數據分析的思路和模式,研究技術發展的情況,并建立覆蓋公司業務流程的審計信息化管理系統,使公司各業務線在統一、透明、標準的審計監控下陽光運行,確保大數據在內部審計中的高效應用。
參考文獻:
[1]王磊.數據挖掘技術在保險公司內部審計中的運用研究[D].山東財經大學,2015.
[2]梁秀根,黃鄧秋,蔡赟,魏連濤,梁國平.持續審計結合數據挖掘技術在內部審計中的探究和應用[A].全國內部審計理論研討優秀論文集(2013)[C].2014:10.
篇3
統計學論文2000字(一):影響民族院校統計學專業回歸分析成績因素的研究論文
摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統計學專業本科生有關數據(專業基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。
關鍵詞:多元線性回歸;專業基礎課成績;平時成績;期末成績
為了實現教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業基礎課成績必定影響專業課成績,而且平時成績也會影響專業課成績,這兩類成績與專業課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯系呢?就這些問題,本文主要選取了2016級統計專業50名學生的四門專業基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規律,擬合出關系式,從而為強化學生的后續學習和提高老師的教學質量提供了有利依據。
一、數據選取
回歸分析是統計專業必修課,也是統計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統計學專業回歸分析成績的相關性是十分重要的。
選取了統計專業50名學生的專業基礎課成績(包括數學分析、高等代數、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數據分析
運用SPSS統計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數學分析成績,x2表示高等代數成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設,
1.隨機誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態分布假定條件
由多元正態分布的性質和上述假定可知,隨機變量y1服從n維正態分布。
從表1描述性統計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數據分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F統計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。
四、結束語
通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學生專業基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。
統計學畢業論文范文模板(二):大數據背景下統計學專業“數據挖掘”課程的教學探討論文
摘要:互聯網技術、物聯網技術、云計算技術的蓬勃發展,造就了一個嶄新的大數據時代,這些變化對統計學專業人才培養模式的變革起到了助推器的作用,而數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案。本文基于數據挖掘課程的特點,結合實際教學經驗,對統計學本科專業開設數據挖掘課程進行教學探討,以期達到更好的教學效果。
關鍵詞:統計學專業;數據挖掘;大數據;教學
一、引言
通常人們總結大數據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數據中挖掘和發現內在的價值,是這個時代帶給我們的機遇與挑戰,同時對數據分析技術的要求也相應提高。傳統教學模式并不能適應和滿足學生了解數據處理和分析最新技術與方法的迫切需要。對于常常和數據打交道的統計學專業的學生來說,更是如此。
二、課程教學探討
針對統計學本科專業的學生而言,“數據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統計學、應用回歸分析、多元統計分析、時間序列分析等課程,所以在“數據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現實的,需要為統計學專業本科生“個性化定制”教學內容。
(1)“數據挖掘”課程的教學應該偏重于應用,更注重培養學生解決問題的能力。因此,教學目標應該是:使學生樹立數據挖掘的思維體系,掌握數據挖掘的基本方法,提高學生的實際動手能力,為在大數據時代,進一步學習各種數據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現,對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。
(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯系起來。
(3)結合現實數據,讓學生由“被動接收”式的學習變為“主動探究”型的學習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。
(4)充分考慮前述提到的三點,課程內容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現占10%,這樣可以全方位的評價學生的表現。
三、教學效果評估
經過幾輪的教學實踐后,取得了如下的教學效果:
(1)學生對課程的興趣度在提升,課下也會不停地去思考數據挖掘有關的方法和技巧,發現問題后會一起交流與討論。
(2)在大學生創新創業項目或者數據分析的有關競賽中,選用數據挖掘方法的人數也越來越多,部分同學的成果還能在期刊上正式發表,有的同學還能在競賽中取得優秀的成績。
(3)統計學專業本科生畢業論文的選題中利用數據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。
(4)本科畢業生的就業崗位中從事數據挖掘工作的人數有所提高,說明滿足企業需求技能的人數在增加。繼續深造的畢業生選擇數據挖掘研究方向的人數也在逐漸增多,表明學生的學習興趣得以激發。
教學實踐結果表明,通過數據挖掘課程的學習,可以讓學生在掌握理論知識的基礎上,進一步提升分析問題和解決實際問題的能力。
篇4
1 大數據時代已悄然來臨
大數據(Big data),是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。通常大數據只有通過分析才能獲取很多智能的、有價值的信息。因此,大數據分析對于高校檔案管理有著無可取代的作用。大數據分析的理論核心是數據挖掘算法,各種數據挖掘的算法基于不同數據類型和格式才能更加科學地呈現數據本身具備的特點,才能深入數據內部,挖掘出公認的價值。尤其在檔案管理上深入大數據分析將對工作帶來更大的?r值。
2 當前高校檔案管理工作狀況及大數據在高校檔案管理的建立和應用
目前,由于對檔案管理工作重視程度不足,高校內仍然缺乏相應的檔案管理硬件設施,個別部門的檔案人員甚至處于狹小潮濕的辦公區域,檔案庫房區、辦公區、閱覽區不能分開。很多檔案管理人員身兼數職,網絡化、數字化的檔案管理更是無從談起。傳統的檔案管理信息零落、復雜、不能共享。這樣間接地浪費了檔案資源,還造成了原始檔案信息的流失,從而影響了檔案信息化的發展水平。因此,高校檔案管理信息化的建立已勢在必行,進而為廣大師生提供新信息上網、電子郵件交流、聯機公共目錄查詢等服務,通過提供定向、定題的交互信息咨詢,提升檔案管理的服務能力和質量。
3 大數據時代對高校檔案管理工作的影響
大數據時代對高校檔案管理工作的影響,第一是有助于原始檔案文件的保存。傳統的檔案文件常常以紙質檔案、照片、錄音、錄像檔案的形式出現,歲月的沉淀和檔案人員的更新換代,常常會因為某些主客觀因素的出現,而阻礙了高校檔案的開發利用。
第二是有助于加大檔案的開發利用程度。隨著大數據在檔案管理工作中的有效應用,對傳統檔案實施有選擇和有步驟的數字化,為檔案網絡信息的存儲、檢索和利用提供數據基礎。通過大數據時代與檔案管理的結合,使檔案實體和檔案信息實現了自動化管理,節省了大量的時間和人力資源,為開展檔案的科研工作創造了有利的條件。
篇5
摘要:大數據時代思維方式講究思維主體上的協同合作、思維客體上的綜合運用、思維中介上的工具開發。數據應用的側重點由感官理性轉向了證據理性,由單一結論轉向了個性化分析判斷,從被動獲取轉向了主動預測。它勢必在數據處理習慣、數據潛在價值挖掘和數據價值分析利用上對高校專業建設造成沖擊,并在專業建設數據挖掘力度、數據平臺搭建以及專門數據分析人才的培養方面提出相應要求。
關鍵詞 :大數據 思維方式 專業建設
高校專業建設匯聚著大量的信息,從學生角度來看,包括專業必修課、專業選修課、專業必修學分、專業實踐、課程作業、專業成績等各種信息;從教師角度來看,包含專業教學任務、課件等教學信息,專業論文著作、科學研究數據等科研信息;從管理者的角度來看,包含學科專業的分布、專業的數量規模、專業的招生就業、專業預警等信息。隨著移動互聯網以及物聯網等新技術的興起,人們主動產生和由設備自動收集的專業信息必將越來越多。它們共同存在著數據量大、結構復雜、產生頻率快的特點,毫無疑問,高校專業建設思維必將受其影響。2015年,教育部高等教育教學評估中心啟動了教學基本狀態數據庫采集的行動,標志著大數據正大步向高校進軍,其觸發的思維革命與方式轉變正大力沖擊著高校教學管理的固有模式。因此,有效運用大數據時代思維方式探索高校專業建設發展途徑,有效預測和分析專業建設走向,是高水平大學走向現代化治理的必然趨勢。
一、大數據時代的特點及思維方式
維克托·邁爾·舍恩伯格在《大數據時代》一書中,解讀了大數據的4個特點,即大量(Volume)、高速(Velocity)、多樣(Variety)、真實(Veracity),簡稱4V。但他同時又提醒到,大數據延伸的另一個特點是更多和更亂。如果無法順暢理清各種數據間的關聯性,我們將在它的時代中迷失。舍恩伯格強調,在龐大的數據面前保持清晰的頭腦,理順思維方式更為重要。他說,大數據時代思維方式是:每天早上起來想一下,這么多數據我能用來干什么,這些價值在哪里可以找到,能不能找到一個別人以前都沒有做過的事情,你的想法和思路,是最重要的資產。他提示我們,轉變慣有的思維方式,將成為獲取數據價值和創新行為方式的前提與根本。
數據是死的,人是活的,要讓死的數據說話,就必須發揮人的主觀能動性,用活人的思維。有學者從思維主體、思維客體和思維中介等方面分析大數據時代應具備的思維方式結構,認為在大數據時代面前,個體思維者在思維主體上需要從精神生產的過程中尋求協同合作,由個人的思維活動轉化為集體思維活動;在思維客體上要側重挖掘隱藏在數字背后的深刻的內涵,實現突破性的科學預測和科研活動,實現全方位、多角度的綜合思維;在思維中介上要尋求有力工具,運用多種信息加工手段和方法,提高數據存儲和處理速度的準確性和可靠性。并以此得出敏捷性、開放性、前瞻性和個性化是大數據時代思維方式的代表特征。
二、大數據時代思維方式對高校專業建設的沖擊
一是對數據處理習慣造成沖擊。按照以往數據管理和處理的方式,無論是管理者還是管理對象,都無法及時有效地搜集和應對層出不窮、錯綜復雜、始料未及的專業建設數據。一種處理的方式便是被動獲取和被動應付,讓數據不斷累積或流失,然后定時清空或有意遺忘,無法真正有效挖掘數據的隱藏價值,造成“數據浪費”。其原因在于人們的思維尚未適應大數據時代的洪流,尚未意識到在大數據面前,個體的思維主導和思維對象以及所能利用的思維中介早已超出了固有的范疇習慣,如不轉變數據處理的思維方式,改進處理數據的思維習慣,管理將陷入低效和混亂的境地,協同創新將舉步維艱。
二是對數據潛在價值的挖掘造成沖擊。以往對專業建設數據的挖掘通常采用直線型的方式進行。就高校教育管理層來說,專業建設數據往往是自下而上獲得,通過各學院、專業的報送來獲取第一手專業數據。就專業本身來說,其建設數據的獲得一般采用實時獲取、延時存儲、滯后分析的直線型關系模式進行。而大數據時代下要求我們從時空的立體角度對專業數據的潛在價值進行深入挖掘。按照挖掘的任務,一項數據的挖掘包含了對數據的時空聚類、時空分類、時空異常檢測等過程,并逐步深入探討對數據挖掘的頻繁模式、周期模式、共現模式、關聯模式等主題的研究,以圖架構起科學的數據挖掘系統。例如,通過高校選課平臺,長期跟蹤學生選課科目,通過有效數據的挖掘,得出該時間段學生對某一學科領域的興趣度數據,繼而對某一專業所在的選修課的開設廣度和深度進行判斷,同時也可以為開課教師的教學效果評定提供有效數據證明。
三對數據價值的分析利用造成沖擊。大數據的應用核心是大數據預測:通過對各方面的數據分析利用,提前預判即將到來的事件。那么,通過對專業建設時空數據的挖掘,運用相關技術進行關聯分析,可以極大地提升專業建設的預測能力,達成科學的專業預警機制和專業規劃方案。它一改以前高校對于專業發展預測的理論與感性判斷,采用實樣而非抽樣,效率而非精確,相關而非因果等相互關系,用數據和事實說話。例如,在探索專業分流的問題時,學校可利用圖書館借閱平臺,從新生入學第一天起,記錄其借閱圖書的數量、頻率、種類、周期等行為數據,通過時空聚類和共現模式對數據進行深入挖掘,就可以大致預測該生的學科興趣和專業愛好,繼而判定其可能感興趣的專業,將之提供給學生,作為其挑選專業的參考數據,對于解決學生專業選擇的盲目性和未來專業旨趣有很大助益。由此,學校的專業定位將被提前明確并適時調整,個性化專業分流及因材施教將得以可能。
三、大數據時代思維方式對高校專業建設提出新的要求
首先,要求加大專業建設數據挖掘力度,提升專業建設數據的實用價值。高校在專業建設過程中產生了形形的數據,就專業內在結構的角度來看,包括專業數量,專業定位,課程設置等信息。從專業外在價值的角度來看,包括專業滿意度、專業興趣度、專業課程設置、專業實踐安排、專業教師配備等信息,這些數據的獲取、監控和分析直接關系著專業建設的走向,通過獲取這些關鍵數據,從大的方面來說,可以預測專業定位和人才培養的成效;從小的方面來說,可以及時有效獲得課程體系和師資力量等有效數據,進一步提高教育教學質量。因此,改變以往被動式的搜集專業數據的習慣,深入挖掘專業建設帶來的各種數據,可以有效提升專業建設數據的實際效用。
其次,要求搭建專業建設數據平臺,拓寬專業建設數據獲取途徑。良好的數據挖掘需要科學數據獲取的平臺,否則無法科學共享數據和分析數據的意義,這就需要找尋到一個專業的數據實用工具,搭建一個專業的數據平臺。以復旦大學為例,該校從2012年開始建立和逐步完善校級統一數據倉庫,在數據倉庫的基礎上,建立了包含面向師生在內的多類的主題數據展示系統,包括人員信息類(教職工信息統計、學生信息統計、本專科生基本信息查詢、教職工基本信息查詢、研究生基本信息查詢)、科研類(文科科研數據分析、教師學術表現)、教學類(研究生成績分析、招生數據分析、本科生生命周期數據分析)、綜合服務(一卡通分析、圖書館客流分析、綜合校情展示、其他信息)、學生工作(宿舍數據統計、宿舍使用情況統計)、報表類(教育部高基報表)等。[ ]形成了在業務管理,教學資源,網絡行為三個層面以數據化為著眼點,以“人”為中心的數據索引和存儲模式。既實現了數據共享,又促進了業務融合,同時也為教育決策提供服務支持。近期教育部組織各高校完善教學基本狀態數據庫采集的舉措,將對專業建設數據的監控宏觀調控起到重大作用,某種程度上佐證了數據平臺搭建的必要性。
最后,要求培養專業建設數據分析人才,深入分析專業建設數據意義。大量數據的堆積并不能直接產生效益,所謂外行人看熱鬧,內行人看門道,研究表明,僅有少量的數據能被挖掘用來解決實際問題,很多復雜、重要的問題要依靠數據處理、數據集成和數據質量來解決。這就要求校園信息化中做數據分析的人員需要具備既懂得數據、又懂得業務的復合能力,能將業務帶入到數據剖析過程、將技術傳遞給業務人員。從而建立起大數據管理的良性生態。因此,培養專業化的數據分析人才顯得尤為必要,高校專業建設也不例外。當數以萬計的專業建設數據蜂擁而至的時候,如何更好、更科學有效地獲取、存儲、分析、挖掘和利用它們,非專業化人員無法有效實現。有鑒于此,部分院校已在嘗試開設大數據采集與管理專業,意圖培養專業的大數據分析人才。而在國外,如美國,圍繞大數據的開發和應用,早已形成了專門的職業,用來專業挖掘數據的意義。所以,在教育管理層面上嘗試培養專門的專業建設數據分析人才,對于專業建設發展有著深遠的意義。
參考文獻
[ 1 ] 張燕南等. 大數據時代思維方式對教育的啟示[ J ] . 教育發展研究,2013(11):2-3
[2]吉根林等.面向大數據的時空數據挖掘綜述[J].南京師大學報·自然科學版,2014(3):3
[3]呂本富等.大數據預測研究及相關問題[J].科技促進發展,2014(1):61-62
[4]趙澤宇等.復旦大學:大數據促進服務模式轉變[J].中國教育網絡,2014:69
篇6
關鍵字:大數據 情報研究 情報研究技術
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2012)06-0001-08
1 引言
當數據和黃金一樣,成為一種新的經濟資產[1],當科研處于以數據為基礎進行科學發現的第四范式[2],當數據開始變革教育[3],這些無不宣告著我們已經進入了大數據(big data)時代。不同的學科領域,正在不同的層面上廣泛地關注著大數據對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。
大數據,顧名思義是大規模的數據集,但它又不僅僅是一個簡單的數量的概念,IBM公司指出,大數據的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現的數據和內容中洞悉事物的機會,使業務更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數據是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力和流程優化[5]。
由此可見,大數據強調的不單純只是數據量多少的問題,其背后隱藏了更為復雜和深刻的理念,這些理念包括:①將對數據和信息的分析提升到了前所未有的高度。這里的分析不是一般的統計計算,而是深層的挖掘。大數據時代,如何充分利用好積累的數據和信息,以創造出更多的價值,已經成為企業管理者、政府機構以及科研工作者首要關注的問題。“業務就是數據”、“數據就是業務”、“從大數據中發掘大洞察”等意味著對數據分析提出了新的、更高的要求。可以這么說,大數據時代就是數據分析的時代。②多種數據的整合和融合利用。大數據時代,數據的多樣性是一種真實的存在,數據既包括結構化的數據,也包括非結構化的數據,表現方式可以是數據庫、數據表格、文本、傳感數據、音頻、視頻等多種形式。同一個事實或規律可以同時隱藏在不同的數據形式中,也可能是每一種數據形式分別支持了同一個事實或規律的某一個或幾個側面,這既為數據和信息分析的結論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數據,從多種信息源中發現潛在知識。只有如此,才能真正地提高數據分析的科學性和準確性。③更加廣泛地應用新技術和適用技術。數據量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數據的突出特點,這必然會帶來數據獲取、整合、存儲、分析等方面的新發展,產生相應的新技術或者將已有的技術創新地應用于大數據的管理與分析。同時,大數據的這些特點也決定了傳統的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數據時代數據與信息分析的主流模式。
對于在數據分析領域扮演重要角色的情報研究工作而言,大數據的理念和技術既帶來了機遇,也帶來了挑戰。一方面,在大數據時代,情報研究工作正在得到空前的重視,大數據為情報研究的新發展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數據時代本身也要求各行各業重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設。文獻分析(本質是文本分析)不再為情報研究所獨占,以往情報研究領域積累的相關理論和方法很有可能優勢不再。因此,如何把握住自身的優勢,并抓住機會有所拓展,是情報學在大數據時代需要思考的問題。
2 大數據環境下情報研究的發展趨勢
大數據帶來的新觀念,正在引報研究的新發展,而且,研究人員也在不斷地從情報研究的實踐中總結經驗教訓,引導情報研究的未來走向。英國萊斯特大學的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關重要的。忽略戰略環境、領導風格和心理因素等更為廣泛的問題,將導致情報研究的失誤;②要加強信息之間的關聯。美國政府部門內部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導致情報研究中的預測失敗;③要汲取更多外界的專業知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數據背景的要求和以往情報研究的經驗教訓,結合國內外同行的研究成果,本文將情報研究的發展趨勢總結為以下五個方面:單一領域情報研究轉向全領域情報研究;綜合利用多種數據源;注重新型信息資源的分析;強調情報研究的嚴謹性;情報研究的智能化。
2.1 單一領域情報研究轉向全領域情報研究
隨著學科的深入交叉融合及社會發展、經濟發展與科技發展一體化程度的增強,情報研究正從單一領域分析向全領域分析的方向發展。
首先,表現在各領域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發。同時,情報學中的引文分析等文獻計量方法也被借鑒用于網站影響力評估。從技術上看,可視化、數據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發展以引導。可見,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現在意識更強、手段更為綜合。
其次是分析內容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹的結論。聯合國的創新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關鍵,基于沒有代表性樣本而獲得的結論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領域,一些數據往往因為一些不可抗力的原因而不完整,如早期的科技數據,可能由于國際形勢等外部因素,導致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數據論數據,無疑是會得“正確”的錯誤結論,這時應針對這樣的異常情況,將研究問題放置在當時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結論。也就是說,必須要考察不同時間戳下的相關信息,再對分析內容加以擴充,這實質是一種基于時間軸的擴展。另外,將內容擴展至本領域的上下游則是一種更為重要的擴展。例如,考察某項技術的發展前景,如果僅就該技術本身來討論,可能會得出正面的結論,但如果結合特定地區人們對該技術的態度、當地的技術水平、物理條件、發展定位等,卻可能會得出相反的結論。這就說明,在很多領域中,環境不同,發展程度不同,要解決的問題也就不同。一些地區當前關注的問題不一定就是其他地區要關注的問題,某些欠發達地區當前不一定就必須照搬另一些所謂發達地區的當前做法。這需要通盤考察,分析相關思想、觀點和方法產生的土壤、使用的條件,結合當前環境再做出判斷,否則可能會對決策者產生誤導。
2.2 綜合利用多種數據源
綜合利用多種信息源已經成為情報研究的另一大發展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發展、發現新知識或解決政策難題。科技情報界也是如此,如利用科技論文和專利,發現科技之間的轉換關系、預測技術發展方向,綜合利用政府統計數據、高校網站、期刊、報紙、圖書等來評估大學等科研機構。可見,綜合利用多種信息源是從問題出發,系統化地整合所有相關信息資源來支持情報研究,信息源可以是學術論文、專利等不同類型的文獻集合、文本和數據的集合也可以是正式出版物與非正式出版物的集合等。
這一發展趨勢是由幾大因素決定的。一是情報研究問題的復雜性。在大數據背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導致單一數據源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉換關系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結果的重要性。以評估大學為例,評估的結果會引導各學校在比較中發現自身優勢和差距,指導未來發展定位,同時也為廣大學生報考提供參考。可見,研究結果對社會的影響是廣泛而深遠的,要做到分析結果的可靠性、科學性,必然先要從源頭上,即分析數據上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現的,不同信息源相互之間的關系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當問題含糊不清時,可能需要不斷地調整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結果,特別是當結論有所沖突的時候,識別不當結果、保證分析結果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網絡應用的深入,出現了許多新型的媒體形式。Andreas M. Kaplan等人將構建于Web2.0技術和思想基礎上,允許用戶創建交換信息內容的基于網絡的應用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內容社區(如YouTube)、社交網站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網絡技術,以用戶為中心來組織、傳播信息,信息可以是用戶創造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環境,并引導著技術、娛樂、政治等諸多主題的發展[11]。這些通過龐大的用戶社區來傳播的高度多樣化的信息及其網絡結構,為洞悉公眾對某一主題的觀點、研究信息擴散等社會現象[12]、預測未來發展方向[11]等提供了機會,有助于發現有共同興趣的社群、領域專家、熱點話題[13]等,帶來了網絡輿情分析等研究內容。此外,這類信息結合其他類型的數據,產生了新的情報研究領域。例如,智能手機的普及和GPS的廣泛應用,使得可以從社交網絡和網絡交互數據、移動傳感數據和設備傳感數據中獲取社會和社區情報(social and community intelligence,SCI),揭示人類行為模式和社群動態[14]。
此外,機構知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網絡信息聯盟的執行董事Clifford A. Lynch[15]從大學的角度指出,成熟完整的機構知識庫應包含機構和學生的智力成果(包括科研材料和教學材料)以及記錄機構自身各項事件和正在進行的科研活動的文檔。這暗示著學術界從過去只關心科研成果正逐步轉向關注科研過程。從機構知識庫中,可以發現隱藏其中的科研模式、揭示目前科研狀況的不足,引導機構未來科研的發展走向等。但現有的機構知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數據環境下,加強這方面的研究也是必然趨勢。可以預見,隨著科技的發展和應用的深入,還會不斷的有新型資源出現,并不斷促進情報研究的發展。
2.4 強調情報研究的嚴謹性
情報研究活動在宏觀層面上是一種意義構建(sensemaking)[17],依賴于分析人員根據已有知識構建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質量,正成為學術界當前普遍關注的問題。情報研究嚴謹性(rigor)不等同于分析結果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調查,應用精確和嚴格的標準,從而更好地理解和得出結論”[19]。美國俄亥俄州立大學的Deniel Zelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設探索是要使用多種視角來揭示數據和信息;信息驗證側重于數據的溯源、佐證和交叉驗證;立場分析強調分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協作是防止分析結果受分析人員自身的學科背景或經驗帶來的偏差;解釋評價是要正確對待分析結論。可見,情報研究的嚴謹性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉變為一門科學。
在大數據背景下,情報分析的嚴謹性,不僅體現在理念上,還暗含了對技術的要求。面對海量數據,自動化的技術手段必不可少。當信息的檢索更多的是借助檢索系統,而不是人工的收集,信息融合更多依賴數據倉庫等技術手段,如何在這樣的分析環境中將情報研究的科學性落到實處,是需要關注的問題。可以看到,利用技術本身已經在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術手段,也可能產生不同的結果,如何避免由技術產生的偏見,也許通過多種技術手段或采用不同的算法,全方位地展示信息內容及其之間的關系,從而避免產生信息的誤讀,是一個解決方案。可見,在大數據時代,情報研究需要多種手段來加強其分析過程的科學性,而這又需要多種技術方法加以支持。
2.5 情報研究的智能化
大數據背景下的情報研究,對技術提出了更高的要求。正如美國國家科學基金會(NSF)的報告[22]所說,美國在科學和工程領域的領先地位將越來越取決于利用數字化科學數據以及借助復雜的數據挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環境瞬息萬變的今天,及時收集信息分析并反饋已經變得非常重要,這都需要智能化技術加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結構或半結構化數據的涌入,必然需要技術將這些數據轉化為結構化數據,以供后續分析。同時,多元化的信息,需要根據分析需求加以融合,這可能需要語義層面上的技術支持。從分析需求來講,簡單的統計分析已不能滿足現在社會的決策需求,需要從大量信息中發現潛在模式,指導未來的發展,這就涉及數據挖掘、機器學習等技術。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術來支撐。可見,這一發展趨勢是大數據時代下的必然。而各國在積極建設的數字化基礎設施,也在推動著情報研究的智能化,如歐洲網格基礎設施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領域研究人員提供集成計算資源,從而推動創新。
目前,對情報研究中的智能化技術沒有統一的界定,但概觀之,可以將情報研究智能化的本質概括為定量化、可計算、可重復。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數據,根據研究人員的經驗等給出粗略的結論,如果說這是一種定性化分析,現在更多地依賴通過計算機自動化處理原始材料并獲得潛在數據,并在此基礎上輔以人的判斷,可以說是一種定量化的分析。可計算是指將各種信息資源轉化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結構化的、富有語義的信息,采用統計、數據挖掘等方法加以計算,獲取隱含的知識。可重復是指自動化分析技術消除了許多主觀因素,從理論上講,如果分析數據等條件一致,分析結論也應該是一致的,這也體現了智能化技術為情報研究帶來客觀性的一面。
3 情報研究中的技術問題
情報研究的上述發展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統計替代情報研究中的計算技術,由此對情報研究技術提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數據:創新、競爭和生產力的下一個前沿領域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數據技術,并圍繞大數據分析技術、大數據技術和可視化三方面進行了闡述。在大數據分析技術中,列舉了26項適用于眾多行業的分析技術,包括A/B測試、關聯規則學習、分類、聚類分析、眾包(Crowdsourcing)、數據融合和數據集成、數據挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經網絡、網絡分析、優化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統計、監督學習、模擬、時間序列分析、無監督學習和可視化。這些技術絕大部分是已有的技術,也有部分是隨著互聯網的發展以及對大規模數據挖掘的需求,在原有技術的角度發展起來的,如眾包就是隨著Web2.0而產生的技術。
根據我們的理解,這些技術大致可以劃分為可視化分析、數據挖掘以及語義處理三大類。這三大類技術也是當前情報分析領域應予以關注和深入研究的技術。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學[25],是自動分析技術與交互技術相結合的產物,目的是幫助用戶在大規模及復雜數據內容的基礎上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關注計算機自動生成信息的交互式圖形表示,關注這些圖形表示的設計、開發及其應用[27],而可視化分析在此基礎上加入了知識發現過程,關注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當的可視化技術相結合,以達到輔助決策的目的。
目前的情報分析系統,雖然也提供了多種視圖來揭示信息,但更多的是一種分析結果的呈現,系統內部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發展要求。同時,現有的分析工具需要分析人員輸入各種繁雜的參數,又缺乏對情報分析認知過程的支持,這就對使用人員的專業化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領域包括采用信息分析、地理空間分析、科學分析領域的分析方法,應用數據管理和知識表示、統計分析、知識發現領域的成果進行自動分析,融入交互、認知等人的因素來協調人與機器之間的溝通,從而更好地呈現、理解、傳播分析結果[28]。佐治亞理工學院的John Stasko等人應用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統[30],并將其應用于學術研究領域(涉及期刊和會議論文)以及研究網絡文章(如網絡新聞報道或專題博客)領域,也說明了將可視化分析技術應用于情報研究的可行性。
將可視化分析技術應用于情報研究領域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結合的問題,第二類是應用自動化分析潛力有限的問題,第三類是應用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎上,Daniel A. Keim等人指出,應分析如何通過考慮用戶、任務和數據集特點,來確定可視化和自動分析方法的優化組合,從而達到最佳的效果[31]。可見,要將可視化分析技術應用于情報研究領域,需要明確每類問題適用哪種組合方式。其次,情報研究領域適合使用哪些可視化交互手段?這可能包括原始分析數據、析取出的關系數據、深層挖掘的模式數據等的可視化手段,分析人員與系統交互的方式,分析過程的可視化展示等。第三,情報研究領域中的認知過程是什么樣的,關注哪些問題,涉及哪些實體,在大數據環境下面臨哪些認知困難,需要在哪些環節加以支持,這些困難能否通過技術來解決。此外,從現有的可視化分析技術來看,主要是將各個相關領域的技術以優化的方式整合起來,但在將來會產生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術需要關注的。
3.2 數據挖掘
廣義的數據挖掘指整個知識發現的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數據分析和知識發現的任務,從數據特征化與區分到關聯和相關性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統計學、機器學習、模式識別、算法、高性能計算、可視化、數據庫和數據倉庫等領域的技術,并可以用于任何類型的數據,包括數據庫數據、數據倉庫等基本形式,也包括數據流、序列數據、文本數據、Web數據、圖數據等其他類型的數據[33]。
從數據挖掘的涵義看,它與情報研究有著天然的聯系;從數據挖掘的方法看,有其特定的含義和實現過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關聯規則發現的成功案例——超市的“啤酒+尿布”,嘗試用關聯規劃來分析研究主題的相關性,從科技論文與專利的關聯中發現科技的轉換關系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統計、共詞計算層次上,在知識發現的過程中,這些工作僅僅是數據挖掘的數據準備,還有待于更為深入的發掘。可見,數據挖掘能夠也應該應用于情報研究領域,這不僅是數據挖掘應用擴展的結果,也是情報研究自身發展的需求。此外,由于較少有專門針對情報研究領域研發的挖掘工具,現有情報分析通常借助于其他工具,不同工具的功能不同,這就導致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網絡。這帶來的問題是,分析缺乏完整性,可能社會網絡和其他信息之間有關聯,因為工具的分割性,就導致潛在模式的丟失。由此,研發適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數據的挑戰,智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務,分析哪些問題是可以使用數據挖掘技術來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數據挖掘技術,原因是什么等。其次,對于某類或某個分析問題,使用哪種數據挖掘技術或幾種技術的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應性改造,如何評價挖掘的結果等。第三,數據挖掘出現了交互挖掘這一發展趨勢,即構建靈活的用戶界面和探索式挖掘環境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發展,尋找情報分析的新模式,值得我們關注。
3.3 語義處理
語義是關于意義(meaning)的科學,語義技術提供了機器可理解或是更好處理的數據描述、程序和基礎設施[34],整合了Web技術、人工智能、自然語言處理、信息抽取、數據庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息[35]。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理,在獲取的富有語義的結構化數據上使用各種數據挖掘算法來發現其中的潛在模式。數據的語義性支持了機器學習等技術的內在功能[36]。
從現有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內容主題時,需要從摘要等自由文本中提取出主題信息,在數據處理時,常常無法識別同義詞、近義詞等,需要人工干預。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數據集環境下,還可以接受,當面對大數據的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網絡新聞、博客等,已有如動態監測科研機構等的系統工具,但總體來說還處于起步狀態,目前較多的還是依賴人工篩選出所需信息,并整理成結構化的數據,同樣也不利于大規模的數據分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應用語義技術成為廣泛需求及必然。
將語義技術應用于情報分析,需要關注以下幾方面的內容。首先,分析情報研究任務的特點,了解它的語義需求,是否存在規律性的準則以供指導分析工具的研發,這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務給出詳細的規范,例如,對微博等社會化媒體,其中既存在高質量的信息,也存在辱罵等低質量的信息,區分這些信息并篩選出高質量信息,就成為在分析社會化媒體中的語義任務之一。其次,語義資源建設問題,即在情報分析領域中,要實現語義層面上的理解,是否需要建設語義資源,如果不需要,哪些技術手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構建,并且這種語義資源應該如何構建,如何使用才能有效地服務于情報研究工作。第三,信息抽取問題。科技信息涉及眾多學科的專業術語、各種科研機構、組織等,如何使用語義技術將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術,把不同來源的數據對象及其互動關系進行融合、重組,重新結合為一個新的具有更高效率和更好性能的具有語義關聯的有機整體,以便后續分析。
4 結語
正如本文引言中所談到的那樣,大數據的理念和技術為情報學領域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰。機遇巨大,挑戰更大,需要我們對此有清醒的認識。本文分析了大數據背景下情報研究的若干發展趨勢,總結了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發展添磚加瓦。
參考文獻:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.
篇7
關鍵詞:大數據時代;學科館員;數據素養服務;學科發展支撐服務
摘要:在大數據環境下,高校學科館員應努力提供基于數據獲取與利用的信息素養服務,為學者提供基于文獻信息和數據的學科知識發展支撐服務,為學校科研管理與決策部門提供決策支持服務,為深入科研一線的學者提供定制化知識服務。
中圖分類號:G251.6文獻標識碼:A文章編號:1003-1588(2017)04-0131-03
1大數據對圖書館發展的挑戰
1980年,美國最早提出了“大數據”概念,但大數據時代的到來是在2004年以后,以Facebook、Twitter為代表的社交媒體相繼出現,互聯網成為全世界網民實時互動、交流協同的載體。隨著數字化、移動化、網絡化的發展,大數據的應用無處不在,使得圖書館用戶的信息環境、信息行為等發生了巨大的變化,圖書館已經不再是用戶獲取信息的唯一渠道。對用戶來說,在大數據時代,信息資源的組織管理、數據挖掘和價值發現比信息獲取更加重要。
Web of Science、中國知網等國內外商業數據庫的迅猛發展,使得圖書館需要培養大數據時代的圖書館數據管理與應用人才。隨著采集存儲數據的成本越來越低,分析工具越來越先進,個人隱私安全面臨著巨大的沖擊與風險,如何保護用戶的個人隱私,對新時代的圖書館員提出了更高的職業道德與專業素養要求[1]。傳統出版社的電子出版、數字圖書館的發展及開放獲取等,促進了科研資源的大數據化發展。為此,學科服務在大數據時代應積極探索信息服務的新理念和新方法,努力構建智慧學科服務[2]。學科服務是圖書館全館服務體系的靈魂和有機部分,學科館員是全館最核心、最重要的資源,應當借助大數據時代的優勢與機遇,在算機軟硬件操作、信息資源挖掘、讀者隱私保護等方面提高服務質量[3],從而運用知識圖譜整理館藏資源、建立學科文獻數據庫、整合資源知識等。
2基于數據獲取與利用的信息素養服務
數據素養主要體現為數據解讀、數據管理、數據利用、數據評價等[4],強調對數據的操作和使用。另外,其還包括數據的倫理道德修養[5]、數據存取[6]等。學科館員應具有發現、評估與使用信息和數據的意識和能力。
2.1數據獲取與利用能力
學科館員的數據素養主要體現為對科學數據的獲取和再利用、數據庫重組、數據分析與可視化軟件使用及培訓等。預計到2020年,80%以上的公益性、基礎性科學數據資源將通過因特網面向全社會共享。學科館員應幫助用戶群體提高數據獲取能力,努力培養和提高用戶群體的公共自助科學數據開放獲取意識,幫助人們識別和查找科研數據的在線信息庫。此外,數據重組會創造出更大的價值,如:英屬哥倫比亞大學圖書館和華盛頓大學圖書館建設學科服務門戶,將購買的多個數據庫(如期刊論文、圖書、研究報告、數據、數字化館藏、學位論文等)分裝打包,并推送到各學科平臺,不僅降低了用戶查找相關數據庫的時間成本,而且提高了各數據庫的利用率;北京大學將古籍資源加入3D技術進行處理,添加古代地圖,聚合其他人文景觀信息,大大提高了古籍的觀賞價值和利用率。
2.2學會和善于利用工具
在新時期,學科館員應具有學科專才、情報能力,并能熟練掌握及利用相關的軟件工具,如:信息導航、信息檢索、檢索查新、文獻管理、知識發現、專利分析等工具。數據軟件培訓主要是指學科館員根據用戶需求,到相關院系開設數據分析軟件(如SPSS、Eviews、Stata等)、文獻管理軟件(如EndNote、RefWorks等)、科研管理軟件、商業統計軟件等相關專題講座、討論會,幫助用戶主動運用軟件工具并提高科研效率。云計算正在改變人們對數據存儲的看法,海量數據存檔研究成為一項基礎性工作,越來越多的大學和研究中心開始建立科學數據倉儲庫,如Figshare、Dryad、PANGAEA等。因此,面對云架構,學科館員需要對云存儲等數據存儲基礎設施及數據組織進行必要的了解和認識,通過高度標準化的數據存儲工具適應科研數據負載的變更,保證在可信賴環境中提供數據集的持續永久性訪問。
3基于文獻信息和數據的學科發展支撐服務
3.1學者成果驗證
科研機構的科研能力是衡量其競爭能力的重要指標,學者作為其中的主體,其科研能力直接決定科研機構的科研水平和后續的發展優勢。圖書館學科館員可以根據學者需求,利用WOS、Scopus等數據庫檢索學者在某一時段的發文數量、被引頻次、所投期刊的影響因子等,分析合作者的影響和產出績效,并基于學者個人成果,包括期刊、會議論文、專著等作品,提供文獻收錄和引用檢索證明,方便科研人員進行職稱申報、基金申請和評獎等。
3.2嵌入式課程教學
學科館員以課程為主要服務方式,提供信息素養教育課程,促進用戶通過課件學習、課堂研討等方式全面提高自己的信息素養技能。學科館員與專業教師進行合作,將信息素養培訓內容嵌入課堂教學,通過“課堂教學信息指導”和“嵌入課程教學”等方式,針對性地提供信息素養教育;借助虛擬學習環境,提供注冊課程,獲取課程學習資源、課程考試資源等內容,延伸教學空間與交流空間,培養學生的終生學習能力。
篇8
關鍵詞:大數據;經濟學;數據分析
大數據作為一種有用的信息資源,在商業、金融等領域發揮著越來越重要作用,也逐漸成為社會科學的國際前沿應用研究內容之一。然而,在經濟學領域,大數據還鮮少被用到(據統計,截至2014年12月,google中學術搜索到的與“大數據”有關的研究論文共3026篇,其中僅有29篇是和經濟學相關)。但因海量經濟數據資源的快速增長,計算技術和能力的不斷提高,以及方法論的不斷發展,將大數據分析技術運用于經濟學已成為一個值得探討的新課題。展望未來,由于經濟學是一門理論與實踐相結合的學科,將大數據應用于經濟學,有可能會開辟一個全新的經濟學發展領域。
一、大數據在經濟學領域應用的基本原理
大數據在經濟學中應用的基本思路以大樣本數據統計與機器學習技術為基礎。其中大樣本統計的過程概括如下:用N個代入變量得出對應的N個測量結果與K個潛在的預測因子,比如:以居民消費價格CPI指數預測為例,首先通過GOOGLE數據搜索或其他軟件,篩選出同CPI有關的一系列關鍵詞(比如糧食產量、原油期貨價格、氣候溫度、價格改革政策等),然后通過這些關鍵詞在文本數據(新聞、微博、評論、研究報告、學術論文等)出現的時間頻次,計算它們之間的相關關系和邏輯路徑關系,從而得到測量結果N和預測因子K。在許多情形下,每一個代入變量的信息是足夠豐富的,但不具有結構性,故可能會產生很多潛在預測因子,因此,需要注意的是:若是過度擬合,即預測因子K的個數可能會遠遠大于觀測變量N的個數時,雖然模型可完美解釋觀測到的結果,但樣本外數據的解釋力卻很差。在這種狀況下,構造一個最大化樣本解釋力的模型便成為首要目標,同時構建的模型還不能出現因過度擬合所導致的樣本外無力解釋的情形。因模型構建不同,使用方法也隨之改變,懲罰預測因子的過度使用方式也不同。如Lasso回歸模型,在滿足一系列約束條件下,依據最小化離差平方和來選擇模型系數。通過將樣本分為“訓練樣本”和“測試樣本”(“訓練樣本”用來估計模型參數,“測試樣本”用來評估模型)進行過度擬合。而在評估預測效果時,一般交叉使用樣本內預測與過度擬合,但目前這種交叉驗證的方法在當前的實證微觀經濟學中也鮮少用到。
機器學習的一個非常重要假設就是機器學習的環境是相對穩定的,也就是樣本數據(訓練樣本與測試樣本情形相同)獨立產生于同一過程。但由于現實環境會隨著時間發生改變,故這一假設并不合理,因此,在高頻使用新數據的應用中,往往通過對自身持續“再訓練”,從而使得模型可以隨著時間與環境的變化對預測結果進行調整。當然,對于機器學習,有些經濟學家提出了盧卡斯批判的疑問,即若根據模型的預測結果進行政策調整,則政策調整后的現實結果可能與初始模型的預測結果有差異,因為政策的改變會影響數據間的潛在行為關系,但這一疑問在其他預測模型,比如計量經濟模型、結構方程模型和聯立系統模型中也都存在。
二、大數據對經濟學的影響及前景
如今,隨著數據樣本容量的急劇增加,使得大數據的使用方式不盡相同。作為一個規律性科學,經濟學需要廣泛、詳細的數據,并運用統計技術來處理新型數據,大數據的出現可能會在社會學與計算機科學間構建一架橋梁,其學科價值可能在于創造新的思維方式,這將會導致對經濟學的新思考和研究方法創新,甚至會帶來分析經濟學方法的質變。
一方面,由于多維度的精細間隔,大數據可以為經濟學研究人員提供更多研究變量和視角,可以研究以前難以測度的行為理論,這為經濟理論研究提供了一種全新的測量方法。例如:麻省理工大學助理教授Alberto Cavallo設計的“百萬價格”項目,該項目旨在通過一個網絡程序,獲取網上物品價格,繼而運用這些數據計算得出通脹指數,該通貨膨脹指數就是阿根廷的精確透明通貨膨脹指標,其實時價格數據的捕捉能力和準確度,使得該指標作為政府測量通脹的替代選擇。又如,谷歌提供的請求式數據選擇也提供了一個探索新機會的理由,目前一個備受矚目的例子就是“及時預報”,在某些方面它可以通過龐大經濟社會數據集進行短期精確預測。
另一方面,大數據已與行為經濟學相適應,成為產業相關經濟規律研究的一部分,并且,大數據在經濟學領域已經顯示出眾多的優越性。大數據已有潛力去挑戰理性概念,例如對于經濟學家在預測問題上的出錯概率,強調樣本偏差的方法;或者對于政策刺激的外部效應問題,強調在社會媒體中情緒化分析出現的混亂問題,總而言之,大數據與先進的建模策略相結合,可以產生更詳細、更準確和更有說服力的解釋和分析。
篇9
一、大數據的基本概念
大數據(bigdata)即是在網絡多元化形式之中的一種巨型數據集合,其來源于社交網絡、搜索引擎以及電子商務網絡等等,具有體量大、速率高、多樣性、真實以及價值等幾個主要的特征。大數據與云計算具有較為密切的聯系,因為單一的計算機并無法對大數據進行處理,因此需要利用分布式的計算框架,其基本特點在于對巨型數據的深度挖掘,但始終需依托于云計算的分布式處理。早在二十世紀八十年代便已有科學家做出預見,大數據所帶來的變革必將改變我的生活、工作方式以及思維。在近十年間,大數據已成為互聯網技術的一個重要方面,其關注度也呈逐年上升的趨勢。正是在這樣的環境之中,我國的企業經營發展迎來了前所未有的機遇與挑戰。
二、大數據時代下企業經營管理所面臨的挑戰
(一)數據多樣化
信息的發展與經濟的進步基本上是保持這相同的步調,在大數據背景下,企業需要根據實際的經營需求,自由選擇傳統以及現代兩種信息數據收集的方式,并對不同網絡渠道信息資源的收集進行探究,尤其是在電子商務飛速發展的今天,對圖片、視頻以及數據內容進行采集。就企業自身的經營管理而言,大部分企業對于信息收集處理的方式還比較局限,基本還停留在滿足于結構信息發展的需求之上,而對于企業自身的非結構化信息則難以進行有效的處理與分析。值得說明的是,企業自身的非結構化信息在企業的經營管理之中占據著較為重要的地位,甚至可以說對企業非結構化信息的處理是企業經營發展的基礎。
(二)實時數據分析
隨著經濟全球化程度的加深,企業的發展與其內部系統以及外部環境有著密不可分的關系,這兩者的基本特點是迅捷、快速、高效。簡而言之,在大數據時代下企業自身數據處理的任務正在飛速增長。與傳統企業的經營管理模式不同,現代化企業的管理很大程度上依賴于企業對信息數據“即時”的分析把握。基于此,企業將面臨相當龐大的信息處理任務,而隨著信息分析處理任務量的急劇增長,也對企業信息數據處理的速度以及質量提出了更高的要求。大數據時代下的企業信息數據處理必須始終保持“即時”性,這也是現代化企業信息數據處理分析的基本發展趨向,同時也是企業健康穩定發展的基本需求。
(三)建立在數據內容上的決策
企業現代化程度的加深,意味著企業各類經營活動均對信息數據有著更高的要求,這也是企業數據信息處理分析發展的一個方向。對于信息數據的精確分析,是理性決策的重要保障,能夠有效提高決策的科學性、規范性以及精確性,避免因數據內容的不準確,導致決策者出現不同程度的錯誤判斷,減少企業經營發展的風險。就現狀來說,許多企業在擴大生產以及業務范圍的過程之中,對于信息數據的處理分析并不如何重視,只是盲目的將所得信息進行單向性的匯總,而缺乏對于信息數據內容的歸納判斷,同時對于同行業內企業的信息數據也并不重視,導致企業決策出現一定的紕漏。在大數據的時代背景之下,只有充分重視信息數據內容,并對其進行科學化的處理分析,才能夠有效解決企業內部管理所存在的問題。因此,為了對傳統決策觀念與模式進行改變,就有必要進行科學規范的數據分析,并將決策的舉措置于數據內容上進行,以謀求企業長遠發展。
(四)關注數據安全
現代化企業經營管理各類活動的均與信息數據的準確性有著較為密切的聯系,這也包括企業自身所掌握的信息,尤其是企業客戶的信息,對于企業來說更是其核心價值之所在。在大數據的時潮之中,企業必須思考如該如何在有效分析處理信息數據的基礎之上,對企業商業機密以及客戶信息進行全面的保護。
三、大數據時代下企業經營管理模式與發展分析
(一)運營決策以數據為基礎
在大數據的時代背景之下,企業必須強化對內部信息數據的整合管理并逐步建立起相關的體系,使企業日常經營活動均有相關的信息數據內容作為參照。為推動企業經營管理模式的進步,就搭建企業內部信息數據的平臺,使企業內部的信息數據分析管理體系趨向規范化,以提升企業整體信息數據分析管理工作的效率。這也意味著,企業必須建立于社會網絡的鏈接,并提高對于社會網絡數據的觀察與分析,通過對不同社會網絡平臺上的信息數據進行采集整理,深度挖掘管理活動之中所需的信息內容,并完成后續的分析傳輸工作。同時,企業也必須加深對于信息數據采集搜索的強度,以提升企業信譽為基本目的,制定多層次、多角度、多取向的音效策略。以上內容,均建立在對信息數據的分析處理之上,實現企業運營決策的所有內容都有其信息數據的基礎。
(二)培養數據管理人才
目前,市場環境乃是以知識經濟作為基本引導,這也意味著企業的經營發展愈來愈倚重于人才,尤其是在大數據時代下,企業想要在日趨激烈的市場競爭之中脫穎而出,就必須加大對于人才的吸納。大數據時代的來臨,對于企業的經營管理提出了更高的要求以及標準,這也是對企業內部人才綜合素質的長大考驗。為了保證企業信息數據分析管理工作的效率與質量,就有必要培養符合企業發展需求的數據管理人才,以大數據時代的要求來看,對信息數據具有敏銳感知能力、應對能力以及分析能力是一名優秀數據管理人才所須具備的基本素質。因此,企業必須加強對數據管理人才的儲備,并建立完善的招聘、篩選、任用、培訓制度以及相關的考核獎勵機制,推動企業數據管理人才工作素質的提高。
(三)企業網絡的建設
從提升企業信息數據管理分析的角度來談,就有必要在企業內部建設全面化、多向性、科學性的企業內部網絡,為信息數據的各項工作提供一個良好的平臺,并實現企業內部信息數據的有效化管理。企業網絡的建設必須符合企業經營發展的現狀以及需求,并具備一定的科學性與合理性,以謀求企業發展為基礎,提升企業服務質量為手段,推動企業信息網絡建設為最終目的,提高企業對信息數據分析管理工作的效率。
結束語
綜上所述,在大數據的時代潮流之中,企業發展所面對的外在環境具有多樣化的基本特征,且規模亦不盡相同。企業經營管理的改革必須與信息化社會的進步保持相同的步調。所以,企業必須主動迎合大數據時代,置身于這股時潮之中,并結合自身的具體情況,思考如何有效利用大數據時代所提供的資源來提升企業自身的競爭力,使企業在日趨激烈的市場競爭之中,始終立于不敗之地。
參考文獻:
[1]陸波.信息爆炸(大數據)對現代企業經營的挑戰、機遇與對策[J].經貿實踐,2017(15):164-165.
篇10
論文關鍵詞:網絡環境,大學生信息組織,共享模式
在易班中,這個新興網絡群體組織被統稱為網絡社區,在大家都比較熟悉的易班網按網絡組織分為機構群和公共群,或者另外一種分類法叫做聊天群和非聊天群。這已經初步建立起網絡組織和共享模式。從最早的BBS,從博客群到微博再到微信、易信,發展到現在的易班,大學生網絡學習和生活由此真正也進入了專業化移動社區時代。自從易班校園好聲音活動開播以來,易班網絡社區在中國網絡領域成為了后起之秀,逐漸成為大學師生獲取、交流與傳播信息的重要平臺。
然而,在當今社會,QQ、微信、易信等平臺仍然是主流新媒體。隨著大學生網絡社區的迅速發展,易班網絡的社區信息資源的管理尤其是信息組織和分享方面的問題日益凸顯。如何在尊重學生個性發展的基礎上有效地對大學生進行思想政治教育,如何控制網絡組織中的信息流向,讓信息流變成現實的管理數據庫,如何把網絡信息資源組織成有序而優化的信息管理反饋系統,比如學生的網絡話語與學生的操行自動比對,形成管理者的共享材料。這是當前網絡社區信息管理的幾大難題,也是解決當前大學生網絡社區信息個性化需求與高校有序管理需求之間的矛盾的主要措施。
1 易班的信息組織模式和理念還不能很好適應A—B
易班作為一個服務平臺,首先應當是一個管理平臺。社區化的思想應當首先服務于高校管理。過于追求社區化,當然某種意義上利于學生群體自由,但是不利于管理。試用易班后,多數高校發現了這個問題。易班原來英文名叫“E-class”,建立以班級為群體或者小社區的理念是它的初衷,這個是好的,但是班級一定要找到它的根,即要找到它的院系然后找到它的大學。這樣才有管理的條件。而且班級新聞怎么推送上去要看這個鏈條是否完整,管理節點有沒有。易班的信息組織模式要是能適應當前網絡時代的發展,就一定要做到A—B—C的模式,其中第一個重要環節就是A—B,A就是網絡服務提供商,就是教育部易班發展中心,B就是各個高校的管理層,這個脈絡不僅在現實生活中非常清晰,而且要做到在網絡中也非常清晰。學生有歸屬感,不至于游離于網絡,如果讓學生隨心所欲,學生就可能走出社會主義核心價值觀的輿論氛圍,思想和精神得不到健康發展。
第二個環節才是B—C,B是各高校的管理者,C就是一個個的群組。B是架起易班服務的橋梁,C是群星燦爛的易班組織,B能體會到易班的精神并將之傳導到C,C最終能共享易班服務成果。結合易班網絡社區組織結構構成及功能特點,以及國內外有關信息組織結構和共享模式的相關理論,建立“A—B—C”系統化、個性化的大學生網絡社區中的信息組織管理共享模式,不僅有利于解決網絡社區中信息組織新出現的問題,促進網絡社區中信息資源規范管理,現代企業管理論文而且從深層次上揭示信息組織和共享的結構機制,建立起適應復雜網絡社區環境的、完善高校學生管理和思想政治教育的信息組織和共享模式。
2 易班信息共享模式有待升華
易班網絡目前停留在信息分享的初級階段,各高校仍然不能很好分享或者獲取網絡中有價值的信息,也需要自己收集加工信息,這個情況造成很多輔導員職業疲倦。以至于討厭易班,不愿意發動學生加入易班。網絡社區中的信息組織和共享模式,不是對信息組織和共享模式的簡單相加,而是對傳統信息組織模式的升華和優化,是對傳統社會中有關商業化網絡信息組織共享模式的方法和經驗進行借鑒、總結和改造的結果,是一種具有實踐過程并將成果指導實踐的研究。有具體的網絡社區環境應用場地,有現實的易班網絡平臺,還要有虛擬的大數據分析分享系統,對于改善網絡社區中的信息組織有重要的指導價值,能促進網絡社區更加有序的運行具有重要的意義。
易班對網絡社區的信息主要集中于大學生所關注的領域或者活動,無論從微社區、話題,還是輕應用,都比較“散”,范圍非常廣泛,缺乏提煉。學校和院系除了知道學生人數,剩下的事情就只停留在“點贊”和“刷屏”上了,真正獲得有價值的信息,比如學生最近在干嗎?學生普世價值觀數據分析?學生社會行為學分析數據、學生心理需求方面分析數據等等這些信息無法擁有,老師們也就無力去再做些什么。所以易班要向這方面努力。概括起來主要有:1)信息共享應該接入整個學生數據庫;2)分層級分享易班分析數據庫,這個需要大數據支持;3)積分系統應該下放到管理層;4)好的應用明碼標價或共享;5)應拓展數據分析的學科領域。科學地建立大學生易班網絡社區中的信息組織和共享模式,以及大數據,將使易班更有吸引力,更有應用前景。
總的來說,易班網開辟了大學生信息組織和共享成果時代,是我國高等教育領域尤其是網絡思想文化方面一個巨大的進步。基于易班網在信息組織與共享模式上存在的缺陷,本文擬提出建立“A—B—C”的信息組織和共享模式,拓展大數據時代價值,結合信息科學和社會科學的相關理論,系統地給各高校提供一個集分享和管理的信息模式,構建一個既能適應高校大學生個性化需求又能服務于高校管理信息化平臺,以改善當今大學生網絡社區中信息組織混亂無序的現狀,同時為大學生網絡組織和分享模式的研究另辟蹊徑,促進科學和技術的交流與整合。
參考文獻
[1]張明海,龍獻忠.云傳播時代大學生信息素養教育創新研究[J].圖書館,2014(5):99-101,106.
[2]潘燕桃,廖昀赟.大學生信息素養教育的“慕課”化趨勢[J].大學圖書館學報,2014(4):21-27.