數據分析范文
時間:2023-04-10 09:17:25
導語:如何才能寫好一篇數據分析,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
不久前,我與業務部的人員在茶歇閑聊中,談及到公司銷售狀況的時候,發現了很奇怪的現象。為什么不同人對同一結構的數據分析出的結論卻大相徑庭。一個人說公司最近銷售情況震蕩嚴重,而另一個人卻說銷售情況沒有明顯波動。于是為了探其究竟,我認真聆聽了他們兩人的分析方法和參數設定。
結果發現原來兩個人,在橫軸時間參數不發生變化的情況下,一個人以萬級金額為縱軸參數,一個人以十萬級金額為縱軸參數。縱軸以不同的銷售數值區間出現,圖表形態以及曲線平滑度就變得完全不一樣了。這兩個的方法和分析結果雖然都正確,但是他們都沒有考慮到日銷售量范圍和實際經營情況,如果企業日經營規模通常或者絕大時間都在萬級單位上,那么前一個人指出的“銷售起伏較大”的結論自然是有價值的,需要我們進一步的分析找尋原因,反之同理。從這個簡單的事情不難看出不客觀的分析數據而產生的圖表是會讓我們產生“心理錯覺”。企業結論性的數據分析是源于對基本數據的加工處理,當我們在設計分析模型的時候是需要剝離我們的主觀意識,要一切從客觀事實出發,設定科學符合實際的變量參數,合理的劃分區間,不要讓我們被華麗的圖表而迷惑。
剛剛講的對業務數據的準確把握需要遵循客觀的經濟行為和需求,這樣才能讓我們的數據結論更客觀,但是數據分析很多情況的誤讀并非是我們故意的,這和經驗和技能是密不可分的,我們需要掌握更多的技能和經驗,沒有這些技能和經驗即便你對業務有很好的感覺和清晰的頭腦,我們也同樣得不到好的結果。所以我們不要盲目地崇拜某種數據分析方法,不要夸大數據分析模型的作用,更不要夸大數據分析案例的作用。只有適合、實用、準確才是硬道理。
“啤酒與尿布”是大家耳熟能詳的數據分析案例,有人根據此案例設計更多的購物籃分析算法,也有人利用此案例進行宣講數據分析的重要。而卻忽視“啤酒與尿布”的本來。“啤酒與尿布”是在特定的時間,店內人員發現后再經過科學的數據分析才發現的。而并非被“自動數據挖掘工具”給挖掘出來。
“啤酒與尿布”是典型的購物籃分析,而購物籃分析是高端應用,高端應用往往意味著高投入,高投入就必須有高回報,僅憑一個從海量的交易數據中挖掘出銷售額占比微不足道的“啤酒與尿布”的案例,就像我們從顧客的消費中去尋找哪種品牌的牙膏和哪種品牌的牙刷有關聯一樣,“只要有力氣拿得起牙刷的人就一定會用到牙膏”也是勿庸置疑的常識!問題很可能會出在:購物小票上用來分析的牙膏和牙刷是兩種商品(單品),而陳列在貨架上的牙膏和牙刷卻是兩個頗有規模的商品群;數十種品牌、系列、口味、功效、不同的包裝規格、不同的消耗周期、不同的單次購買數量、越來越快的產品更新換代、甚至在牙膏包裝中贈送牙刷,這么多種因素的綜合交錯會大幅度地稀釋牙膏牙刷在單品層面形成“同時并且重復購買的組合”的概率,對購物小票進行遍歷分析后,很有可能會得出反常識的結論:牙膏、牙刷這兩種商品之間沒有關聯性!這樣的數據分析即使是準確的,也毫無意義。打動不了追求投資回報的企業決策者。
篇2
將醫院、醫療保健組織等數字化的醫療數據以特定的格式、協議發送到醫療數據分析模塊進行分析與疾病預測.醫療數據提取模塊:該模塊由醫院電子病歷系統負責實現,我們使用openEHR系統作為醫院電子病歷系統,并在openEHR中實現醫療數據的提取功能.openEHR系統是一個開源、靈活的電子病歷系統,支持HL7衛生信息交換標準.很多醫療健康組織、政府和學術科研單位都使用openEHR進行開發和科研工作.如一種基于openEHR的患者病歷數據管理模型、openEHR等許多開源的電子病歷平臺的對比與評估和基于openEHR的檔案建模等.數據交換模塊:基于Web服務的數據交換模塊使用醫療數據通信協議實現醫療數據分析模塊與醫療數據提取模塊的數據交換.Web服務是一個平立、松耦合的Web應用程序.由于Web服務的跨平臺特性,許多模型與框架是基于Web服務構建的,如基于Web服務集成分布式資源和數據流分析測試等.在本文提出的醫療數據分析模型中,使用Web服務來連接醫療數據分析模塊和醫療數據提取模塊.醫療數據提取模塊作為Web服務的服務端,實現的方法包括存取數據、數據預處理、序列化等,改進后的模型要求實現指定維度,指定屬性數據的讀取.本文提出的醫療數據分析模塊作為Web服務的客戶端,通過HTTP服務向數據提取模塊請求獲取數據,并對數據進行預處理.醫療數據分析模塊:我們使用Caisis開源平臺作為醫療數據分析與疾病預測系統實現這一模塊.Caisis是基于Web的開源癌癥數據管理系統,一些臨床醫學研究使用Caisis系統管理和歸檔數字顯微圖像,通過向Caisis系統中添加特征選擇和SVM算法,使用SVM算法對醫療數據進行分析和疾病預測,因此使用的特征選擇算法需要基于SVM,可以提高數據分析和疾病預測過程的效率和準確度.
2數據分析模塊與算法
2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一種可訓練的機器學習算法.依據統計學習理論、VC維理論和結構風險最小化理論,從一定數目的樣本信息在學習能力和復雜度(對訓練樣本的學習程度)中找到最佳折中,以期望獲得最好的推廣能力(或稱泛化能力).
2.2基于SVM的醫療數據分析模塊將SVM分類算法應用到醫療數據分析模塊中,進行疾病預測.基于SVM的醫療數據分析模塊,通過數據交換模塊獲取原始組數據(患病病人醫療數據和對照組病人數據).通過特征選擇過程輸入到SVM分類器中進行訓練,訓練后可以對新的醫療數據進行分析預測.
3改進的醫療數據交換模塊
3.1醫療數據交換模塊在原始的醫療數據交換模塊中,數據請求原語只由4條通信原語組成.由原始醫療數據分析模型的3個模塊構建,其中在醫療數據分析模塊與醫療數據提取模塊之間的4條通信原語包括2條請求和2條應答.由于醫療數據的維度極大,屬性很多,但是在預測某個疾病時,只有很少的一部分屬性會對分類預測產生影響.這樣的全部維度的數據都需要傳輸,浪費了時間,降低了數據傳輸效率,影響了醫療數據分析模塊的算法效率.
3.2改進的醫療數據交換模塊在改進的醫療數據交換模塊中,在數據傳輸協議中增加了4條原語.在每條原語中不僅有醫療記錄條數的要求,還包括對所請求醫療數據維度和屬性的具體說明.醫療數據分析模塊先請求一小部分全部維度的數據,對這小部分數據進行特征選擇.然后醫療數據分析模塊只請求特征選擇出來的對預測相關的屬性的剩余所有醫療數據.最后通過SVM分類算法進行訓練和預測.在新的醫療數據交換模塊中,大部分數據中只有小部分相關屬性被傳輸到數據分析模塊,極大地減少了數據傳輸總量,也同時增加了分析模塊預測算法的效率.
4原始模型與改進模型的對比結果
篇3
關鍵詞:實踐教學 Crystal Reports 數據分析 應用型人才
中圖分類號:G642.41 文獻標識碼:C DOI:10.3969/j.issn.1672-8181.2013.19.087
1 實踐教學的分類
目前,高校人才培養目標正在向應用型人才方向轉移,比如:獨立學院、職業學院以及高職高專都明確提出他們的人才培養目標就是滿足社會需要的實用型人才,而實用型人才培養的重要環節是加強實踐教學,學生通過大量的實驗活動提升自己的理論與實際操作水平。
一般認為,實踐教學由基礎型、設計型和綜合應用創新型等三類各具特色并逐層深化的實踐教育方式構成一個完整的體系。
1.1 基礎型實踐教學
基礎型實踐教學由基礎課及專業基礎課中包含的演示型、基礎型和設計型實驗環節組成,目標在于鞏固和提高學生學習的理論知識。
1.2 設計型實踐教學
設計型實踐教學由專業課中的綜合型試驗或獨立實踐課程組成,目的在于進一步提高學生的動手能力、理論聯系實踐的能力及創新能力。該類實驗采用在教師指導下,學生自主選題、自主設計、集體交流,鼓勵創新和團隊協作等新型實驗教學方法,使學生的實踐能力有跨越性的突破。
1.3 綜合應用與創新型實踐教學
綜合應用與創新型實踐教學以學生參與各項校內外社會活動為主,學生可隨不同的指導老師,按興趣分組,按能力分工,著眼于學生實踐能力的綜合培養,著眼于潛力個性開拓,著眼于創新精神的激勵。努力培養學生掌握企業管理和工程設計的基本方法,實現學生從具備一定實驗能力到具有較高實戰能力的跨越。
2 Crystal Reports 系統
2.1 Crystal Reports簡介
Crystal Reports 是SAP公司開發的、功能強大、動態和可操作的報表解決方案,它能讀取多種數據源,在網絡環境下設計、開發可視化報表,嵌入到企業ERP系統或普通應用系統中。在Crystal Reports的幫助下,用戶能夠制作企業OLAP在線分析,進行企業業務,比如財務、生產和銷售管理的在線分析,以便指導企業經營工作,全球很多大公司都在選用這個軟件。
2.2 Crystal Reports特點
2.2.1 豐富的呈現形式
多種報表樣式:普通報表、交叉表和多維報表;
20多種圖形:條形圖、餅圖、曲線圖、甘特圖、雷達圖等,另外提供常用的報表模板。
2.2.2 廣泛的數據源連接
提供超過35個數據驅動用于訪問任何相關數據源,支持在一份報表中整合多個數據源的能力,包括:ODBC、ADO等數據存儲方式。
2.2.3 可視化設計環境
通過拖放元素組成報表,設置標題,自定義變量,整合數據庫字段等,有排序專家、分組專家、匯總專家和圖標專家等向導。還有強大的公式語言:160多個系統函數,也可以自定義需要的函數。如圖1所示。
圖1 Crystal Reports的可視化設計界面
2.2.4 多種文件導出格式
如:Word、Excel、HTML、XML、PDF、RTF、CSV、TXT等,方便將信息遞交給不同需求的用戶。
2.3 學習Crystal Reports軟件的好處
對于信管專業的學生,培養目標包括三個方面:第一,掌握計算機科學和管理學的基本知識和技能;第二,具備進行信息系統分析、設計的能力;第三,能進行計算機知識和管理知識的交叉復合應用,能夠在專業應用上有所創新。根據專業培養目標,要求信管專業的學生成為進行軟件開發,進行OLTP在線事務處理和OLAP在線分析處理的應用型人才。
在企事業單位的數據處理過程中,通常利用大型數據庫和大型軟件系統來完成相關任務,同時需要進行應用軟件的二次開發,比如ERP軟件SAP、Oracle應用于企業后需要定制各種財務、生產和銷售分析報表,SAP、Oracle的ERP系統本身自帶的報表不可能滿足所有用戶的所有需求,因此這些大型的標準化軟件需要系統實施人員進行再開發,而Crystal Reports由于具有上述優點而成為最好的開發工具,所以可以選擇Crystal Reports對信息管理和電子商務專業的同學進行相關的系統訓練以適應社會發展的需要。
3 利用Crystal Reports 進行實踐教學的方法
Crystal Reports既是一個在線分析軟件也是一個報表開發工具,因此,可認為屬于程序設計科目,我們把它作為理論課程《數據分析與挖掘》的實驗部分介紹給信息管理和電子商務專業的學生是因為這門課程的主要內容是介紹數據庫的OLAP在線分析和數據倉庫的數據挖掘,在進行OLAP分析中,需要利用多維報表工具,而Crystal Reports可以制作多維報表。
從Crystal Reports的特點以及它的應用范圍來看,可以把利用它進行的實踐活動歸類為設計型實踐和綜合應用與創新型實踐相結合的實驗項目,所以對同學們要求按照“規范設計,鼓勵創新”的原則進行實驗活動。
由于《數據分析與挖掘》課程的理論性強、內容多、難度大,所以相關實驗采取學生分組進行,每個小組2-3人,明確小組中每人的職責,比如:數據收集、OLAP報表制作、結果分析、報告撰寫等工作內容,要求他們齊心協力、通力合作,首先把實驗內容和分工情況匯報給實驗指導老師,經過實驗老師的確認同意后,學生才能繼續后面的實驗。實驗時間除了學院實驗室安排的課時(一般在實驗專周中的15學時),還可以在實驗課后用自己的電腦完成,完成后撰寫5000字左右的實驗報告,把實驗過程完整地記錄下來,并對實驗提出自己的建議,以便實驗老師不斷完善實驗模式、改善實驗指導,使之更符合社會發展和培養目標的需要。
由于Crystal Reports是《數據分析與挖掘》課程的實驗項目,所以讓同學們接觸實際應用案例是首先必須考慮的問題,我們采取鼓勵同學廣開門路,挖掘數據來源,實行一個案例一個小組,找不到合適數據源的小組可以共享其他小組數據的方法解決數據源和案例問題,經過同學們的努力,收集了10多個企業實際運行數據,由于數據和信息是企業的生命,也是企業嚴加保護的資源,一般企業不愿提供,因此我們只要求企業過去10年至過去5年的部分數據,并對數據加以刪減修改變更,保證企業的數據不泄密,同學們收集到的數據類型主要有Excel、Access、SQL Server以及Oracle等,這些類型的數據都可以被Crystal Reports讀取,但是讀取之前必須進行ETL的操作,即對數據進行抽取、轉換和載入數據庫,以規范數據格式,完成數據標準化操作。
實驗教師在整個實驗活動中除了在實驗室向同學們演示Crystal Reports的使用方法外,還必須跟蹤同學們的實驗進度,加強對實驗過程的管理,要求同學們分組用PPT演示稿上臺介紹自己的實驗情況,讓全體同學分享他們的成果,實驗老師對同學們完成的實驗報告要進行點評,讓他們知道自己那些地方做得好,那些地方有欠缺,以便今后改進提高。
4 取得的成果及對實驗教學的思考
在經過實驗專周的活動后,同學們完成了基于企業經營業務的在線分析OLAP實驗,分組提交了各種報告,如圖2所示。
圖2 學生的OLAP實驗報告
從這些報告中,我們可以看出大部分同學完成情況良好,制作的圖表美觀大方,文本格式標準規范,大家通過實驗理解了數據分析與挖掘的基本概念,學會了Crystal Reports的操作方法,能夠利用軟件工具讀取各種數據源,進行數據的OLAP在線分析,按照需要制作標準報表、交叉報表和多維報表,這個過程相當于對應用軟件系統進行了二次開發,開發的結果為企業的經營決策提供重要的參考意見,達到了預期目標。
通過這些實驗項目的實施,我們感覺到在實驗教學應該注意如下幾點:
第一,教學思想具備理念新穎性。
教學模式的構建受教學思想的支配,教學思想是教學模式的靈魂和核心,好的教學模式必須以先進的教學思想為指導,體現先進的教學理念。實施新穎的教學思想可以通過向同學們開出現代的、先進的學習科目來實現,比如:數據倉庫、數據挖掘等。
第二,教學目標強調技術實用性。
在當今信息技術條件下,應用性人才必須能夠將信息技術直接應用于工作實踐中。實踐教學的目的就是培養學生具備這樣的應用能力,而不是簡單地對理論的驗證或對技術的一般了解,我們向同學們介紹Crystal Reports就是出于提高他們技術能力的需要。
第三,教學內容充分考慮社會適應性。
應用型人才培養是以某一技術領域或職業崗位的能力培養為核心。因此,實踐教學的內容必須滿足社會適應性的能力要求,同時還要提供適應學生可持續發展需要的能力和素質。在內容體系的組織上,實踐教學與理論教學必須相互滲透,理論知識需要通過實踐再認識,并通過實踐課程來實現。
第四,教學手段突出技術先進性。
當代電子信息技術的快速發展,使得教育技術手段得到極大的提高,先進的教學技術對教學模式的改革起到了直接的推動作用,多媒體技術的普及,使仿真訓練等更多地應用于實踐教學。比如Cisco公司的Packet Tracer網絡模擬仿真軟件就是一個非常好的例子,在我們的教學過程中,我們也采用了這個軟件向同學們介紹計算機網絡知識,效果非常顯著。
總之,實踐教學需要走不斷改革創新之路,滿足社會對應用型人才的需求,開辟實踐教學的新途徑,找出新辦法,培養合格的社會需要、國家需要的應用型、復合型人才。
篇4
1. 行業資金流向
分析:今天只有白色家電、有色冶煉加工、房地產開發和醫藥商業四個行業呈現出資金凈流入狀態,以二三線的藍籌股和白馬股為主。在早盤上證指數沖高的過程中,起到了一定的引領作用,但受制于整體市場情緒的低迷,下午短線資金紛紛出逃,最終只有白色家電板塊的凈流入量超過了1億。
今天資金流出前五的分別是半導體及元件、光學光電子、通信設備、計算機應用和證券板塊,其中半導體板塊連續兩天成為資金流出最多的板塊,表明前期獲利資金在持續性地進行獲利了結。而通信設備板塊則是受到消息面上的影響,蘋果下修明年首季銷量預估,減幅超預期,從而使得蘋果產業鏈相關個股普遍被資金拋售。
2. 港資動向
因圣誕假期,香港股市今天休市,港資無交易
3. 賺錢效應
分析:今日上漲家數720家,下跌家數2422家,漲跌比為0.30。漲停板家數25家,扣除5家未開板新股后,自然漲停板家數20家,其中醫藥類次新股5家,非醫藥類次新股5家,細胞免疫治療概念1家,其他類9家。
從中可以看出,具有板塊性效應的主要是醫藥股和次新股,尤其是其中的疊加品種,這與上周五次新+天然氣的模式可謂是如出一轍,在目前相對弱勢的情況下,資金還是更青睞一些疊加熱點概念的小盤次新股。
昨日漲停板溢價為2.38%,與上個交易日基本持平,強勢股的持續性還是很一般,但由于個股漲跌比出現了明顯的下降,所以整體的賺錢效應是降低的,操作難度則是相對的有所提升。
篇5
不可否認,現在已經是大數據的時代了,最近幾年,大數據發展趨勢蓬勃向上,吸引了社會各界的眼光,大家都看好大數據,想從大數據中獲得商機和財富。大數據也沒讓大家失望,在科研、教育、醫療、政府、經濟等領域都產生了深遠影響。據統計,目前大數據所形成的市場規模在51億美元左右,而到2017年,此數據預計會上漲到530億美元。
人們通過收集、整理相關領域方方面面的數據,并對其進行分析挖掘,找到凌亂紛繁的數據背后的聯系,進而從中獲得有價值的信息,最終衍化出一種新的商業模式。
但是,面對紛繁復雜的數據,不是所有人都能有效地對其進行分析,并獲取其背后信息所代表的價值的。那么,有沒有什么辦法讓普通人也能輕易讀懂并使用大數據呢?
需求決定市場,隨著非科研人員對大數據需求的增大,很多大數據領域的創業公司不斷涌現,他們致力于將大數據以一種簡單直觀地方式呈現給用戶,讓用戶能更好地“消化”這些數據。
Origami Logic就是這樣一家基于大數據的創業公司,它面向營銷人員,主要通過數據可視化、自助分析等方式,將大數據“簡單化”,讓即使不了解大數據的營銷人員也能根據OrigamiLogic提供的分析結果做出更有效的營銷策略。
可視化是大數據簡單化的有效方式,也是創業公司常用方法。《數據可視化之美》一書中指出,可視化是將數據以圖形表示,能夠一目了然地揭示數據中的復雜信息,同時通過對細節的翔實展示,能夠使受眾有效地產生對數據的洞察和新的理解。可視化可以幫助人們突破大數據技術中人的瓶頸。
通過Origami Logic,營銷人員可以通過將CRM、社交媒體、郵件營銷和調查報告等不同平臺的數據匯合整理在一起,并將冗雜的數據(包括郵件、文檔、圖片、音頻等)進行有效分析處理,使其簡單化、直觀化、視覺化,讓它變成普通的用戶都能看得懂的東西,然后依據這些統計分析結果來衡量整個營銷效果,并做進一步的營銷活動規劃。Origami Logic把“大數據”真正變成一盤生意。
“當今的營銷人員要根據社交網絡、移動平臺、搜索引擎和電子郵件等方方面面進行匯總分析,從而再制定相關的營銷策略。他們對這些數據都是非常陌生的,而且難以捕捉數據背后的含義。”Origami Logic聯合創始人兼CEO Opher Kahane表示,“Origami Logic能夠幫助他們改善這種狀況,從而提高他們的營銷能力。并且這個平臺能夠讓營銷人員將盡可能多的營銷工具整合到一起,并把不同營銷工具所提供的數據變成自家平臺的資源中心,從而達到取代它們的目的。”
篇6
汽車制動性能直接關系到交通安全,重大交通事故往往與汽車制動性能差有關。制動距離長,制動側滑,制動跑偏等都會造成交通事故。汽車在制動過程中人為地使汽車受到一個與其行駛方面相反的外力,汽車在這一外力作用下迅速地降低車速以至停車,這個外力稱為汽車的制動力。制動力是評價汽車制動性能的基本因素,制動力測量是機動車安全性能檢測的重要組成部分。制動力便于在制動試驗臺上測量,通過制動力檢測不僅可以測得各車輪制動力的大小,還可以了解汽車前、后軸制動力合理分配,以及各軸兩側車輪制動力平衡狀況。并同時測得制動協調時間,能較全面地控測車輛的制動性能。
一、汽車制動性能檢驗方式及檢驗參數
在國標(GB7258機動車運行安全技術條件)及(GB18565營運車輛綜合性能要求和檢驗方法)中,對汽車制動系提出了系統的技術要求,并規定了汽車制動性能的檢測項目、檢測方法及評價標準。汽車性能檢測站在進行汽車制動性能檢測時,主要檢測汽車的制動效能和制動時的方向穩定性。根據檢驗參數和檢驗方式的不同,制動性能檢驗可分為臺試和路試兩種。臺試主要檢測行車制動力、制動力平衡、車輪阻滯力、駐車制動力、制動協調時間;路試主要檢測制動距離、制動減速度、制動協調時間、制動時的方向穩定性以及駐車制動。汽車制動試驗臺根據其結構型式不同,可分為滾筒式汽車制動試驗臺和平板式汽車制動試驗臺。由于具有占地面積小,使用安全性高等優點目前汽車檢測站廣泛采用滾筒反力式汽車制動試驗臺。
通過汽車制動試驗臺進行制動性能檢測不僅可以測得各車輪的制動力大小,還可以了解汽車前、后軸制動力的分配情況,以及同一軸兩側車輪的制動力平衡狀況。根據制動力的大小,可評價車輛的制動效能;根據左、右車輪制動力的平衡情況,可衡量車輛制動時的方向穩定性。在實際檢測過程中,我們發現,經常出現從檢測滾筒中“爬出”的現象。當在非檢測軸車輪后加楔塊給車輛一定的縱向約束時,這種現象消失或程度減輕,這時制動力實測值增大(接近實際情況)。上述現象說明:用目前的反力式制動試驗臺檢測車輛制動力時,特別是輕型車輛制動力檢測時,因對非測試輪不施加水平約束(忽略滾動阻力的影響),測試時使汽車以較快的速度從滾筒中后退,或因滾筒與被測輪輪胎間的附著力過小而使車輪滑轉,結果造成能夠測得的制動力偏低。且車輛為靜態,未能反映車輛動態軸荷的變化,不能如實的反映車輛真實的制動水平。
原因分析
一、根據滾筒式制動力檢測臺的工作原理及特點分析;
1.安置角影響檢測結果,同一汽車在具有不同滾筒直徑和滾筒心距的檢測設備上檢測時,檢測數據會產生較大差異。
2.滾筒與輪胎之間的附著系數滬對檢測結果影響很大。當附著系數低時,將測不出車輪可以達標的制動能力。
3.車軸所受的水平約束力,直接影響檢測的結果。
4.車位不正對檢測結果的影響,車位不正時,在進行制動檢測過程中,必然會使左右車輪的安置角產生差異,產生附加的左、右輪制動力之差,使汽車制動方向穩定性的判斷失真。
5.其它車輪制動效能對被測車輪亦有影響。
6.由于輪胎與滾筒之間的彈性變形、懸架等的彈性變形等大大影響了制動力的增長速率,加之制動力在向檢測傳感器傳遞過程中滯后的影響,使測得制動協調時間遠大于被測車輪的實際制動協調時間。因此,目前用滾筒試驗臺無法準確地測出制動協調時間。
二、汽車制動性能檢測中存在的問題
1.檢測設備的局限性
不同的制動性能檢測設備各有其特點,且存在一定的局限性。以平板式制動試驗臺和滾筒式制動試驗臺為例加以說明。
1. 1 整車的運動狀態不一致
行駛的車輛在制動過程中做減速運動,因而汽車的質量會發生向前軸轉移,而在滾筒制動試驗臺上車輛是靜止不動的,車輛質量轉移的現象不會出現,這樣會形成靜態檢測與動態實際制動之間的差異性。平板制動試驗臺是憑借汽車在測試平板上實施緊急制動過程來測定汽車前后制動力的,是動態檢測,因而符合汽車制動的實際過程,容易獲得汽車真實制動檢測結果。特別是對裝有ABS防抱死制動系統的車輛檢測更為有效。
1. 2 車輪的受力狀況不一致
車輪在路面運行中,只是輪心下方的一小塊面積與地面接觸,而在滾筒試驗臺上的車輪由于輪胎氣壓、外徑尺寸等問題,導致車輪受力狀況與實際制動時的受力狀況不一致,直接影響檢測結果。平板式制動檢測設備不存在“安置角”問題,測試時車輪的受力狀況接近于實際制動時的受力狀況。
1. 3 測試時機不一致
車輛在制動過程中前后橋是幾乎同時作用的,但滾筒式制動試驗臺必須分別對前后橋進行制動測試。這樣的測試結果能反映前后橋的同步情況與制動力的分配,對裝有比例閥車輪的制動測試更為適用。
2 滾筒制動試驗臺檢測常見問題
2. 1 被測車輪抱死滑磨
被測車輪停在滾筒上,滾筒帶動車輪旋轉,當對被測車輪采取制動時,車輛的制動力便傳遞給滾筒。隨著制動力的增大,當達到車輪與滾筒間的附著力時,車輪就會抱死在滾筒上打滑,測試到的制動力達到最大。車輪制動力再增大,測試到的制動力不變。由此可見,所能檢測到的最大制動力與軸荷、設備結構和附著系數有關。
篇7
關鍵詞:大數據;數據倉庫;數據分析;校園卡;教務
中圖分類號:G434 文獻標志碼:B 文章編號:1673-8454(2015)10-0013-03
隨著大數據時代的到來,各行各業都在利用大數據推動本領域的發展。常熟理工學院自2009年開展教育信息化建設以來,在數據分析方面進行了不斷地探索與實踐,目前廣泛應用于教學和管理中。
一、數據分析的必要性和可行性
高校內部一般都建有:教務系統、科研系統、學工管理系統、人事管理系統、資產管理系統等獨立業務系統。這些系統都各自記錄著學校方方面面的數據,卻都靜靜地躺在服務器硬盤里,猶如埋藏在地下的金礦,不能為高校全局決策提供支撐。
數據分析的目的就是要讓數據發聲,通過直觀的數據圖表來為高校管理提供輔助決策。例如:對教師的專業與學校開設專業的統計分析可以為人才引進提供參考;對學生的校園卡使用記錄和校內上網認證記錄結合起來,可以為判斷學生的行為指明方向;對各二級學院的資產數據統計分析有助于學校對二級學院進行成本核算。
二、數據倉庫的建立
數據庫是數據分析的源頭,數據倉庫的建立是數據分析的基礎。
建設過程中,首先要統一數據標準,只有準確的數據才是有價值的,如果各系統的數據標準不統一,就會造成不準確的數據分析結果,也就無法為高校管理提供真實有效的統計數據;
其次要建立公共數據平臺,公共數據平臺是指實現校園內各種信息系統的互通互連和數據共享,包括多個系統業務數據集中存儲、備份、數據共享和數據管理的公共平臺,為學校各應用系統提供基礎數據;
三是要規范數據流程,把各業務系統中形形的數據按標準定期抽取到學校公共數據平臺中。確保任何業務系統的添加和修改不影響其他系統的正常運行,同時新建應用系統應建立在統一的數據規范基礎和統一身份認證基礎上,調用公共數據平臺的基礎數據(如部門、教工、學生等基礎信息),應用系統產生的數據也應成為公共數據平臺的基礎數據,可供數據平臺共享訪問。確保提供反映學校全面情況的數據信息,為整個學校提供決策支持所需的數據信息,為今后應用系統的建設和信息服務奠定良好的數據基礎。
圖1為數據架構圖,最底層的是各業務系統,他們產生的數據按編碼標準經過抽取、轉換、加載到數據中心,數據中心再按需要把相關數據同步給相應的應用數據庫或各數據集市,最后形成各類主題數據分析或綜合決策系統。
三、基于數據倉庫的數據分析
在統一數據倉庫的基礎上,我們利用數據倉庫技術(ETL、OLAP、REPORT)和數據挖掘技術,對多種數據集市進行數據分析,建立了校情綜合統計分析系統。該系統從學校基本情況、教職工信息、學生信息、教學信息、科研信息、資產與設備信息、圖書資料信息與師生消費等方面進行統計分析,為學校管理提供輔助決策支撐數據。
該系統從學校全局出發,通過多元主題展開分析,以文字、報表、圖表等多種形式展現分析成果。
該系統的推出實現了教學質量、學生學習、生活行為等各種信息的監控與分析,對高校資源配置優化、提高高校管理科學化等方面具有不可估量的重要意義。這里筆者將以校園卡和教務數據分析功能為例進行闡述。隨著校園卡在校園生活中使用范圍的日益擴大,在應用過程中產生了大量數據。校園卡僅僅一年的交易數據就有大約1000萬條記錄。
校園卡數據分析主要實現以下五大類的分析功能:
(1)各時間段消費情況分析
①從“月、季度、半年、年”的角度來查詢消費總額、消費用戶數和人均消費等,反映出用戶消費支出的趨勢,也可反映出物價的變化情況。
②從“幾點幾分”的角度查詢消費人數可反映用戶在時間點上的消費習慣,對于各營業部門來說可以合理地調整工作時間、工作人員等,以加強服務。還可根據教職工就餐時間點來分析他們是否嚴格遵守學校作息時間。
③從“早、中、晚”的角度統計分析學生早餐、中餐、晚餐的就餐率。
(2)各類消費人群消費情況分析
①對于學生工作管理層來說,從“個人、班級、院系”的角度來查詢消費金額作為發放貧困補助的依據。
②通過查詢一個時間周期內(三天)學生消費人數,起到了解學生是否在校的危機預警作用。
③從學生所屬院系、專業、年級等角度來查詢消費人數、消費金額和分布情況。
④從學生性別、來源地區(省、市、區)、年齡等人的自然屬性來查詢消費人數、消費金額和分布情況。
⑤分析教職工的消費水平。
(3)各營業單位消費情況分析
從各個營業單位角度來查詢校園用戶消費人數,消費金額和分布情況。
(4)各交易類型消費情況
從消費類型角度來查詢用餐、購物、上網、上機、水電消費等情況。
(5)工作站、終端個數統計
為直觀反映上述消費數據,我們除用表格形式將分析結果展現在用戶終端外,還提供了柱狀圖、餅圖、曲線圖、點圖等形式來展現。圖2展示了我校2010年至2014年學生早、中、晚三餐平均價格,呈逐年穩步上升狀態,這給餐飲部門提供準確統計數據的同時,也穩定了學生就餐消費水平的承受心理。
高校教學信息化建設積累了豐富的業務數據,根據需求,教務數據分析功能主要包括三大類:教學任務、學生成績和教學評價。圖3為教務數據分析數據源視圖,圍繞教師的教學工作量、學生取得的成績以及學生對教師的評價等,我們做了一系列的報表。例如:教學場地信息、學生情況、任課教師情況、各學期教學任務情況、成績信息、教學評價、歷年各專業招生人數、各學院歷年教學情況、各學院歷年學生對教師評價。
另外,為滿足各二級學院要求,做了學業預警方面相關報表,各二級學院可根據年級、專業,通過總學分排行、課程門數排行來關注排在后面的學生情況。
數據分析表明,教師平均教學任務逐年增多,教師總體比較年輕,平均年齡男教師比女教師高,年齡在30-39之間的教師平均課時最多。管理學院歷年招生數比其它學院明顯高出很多,其中財務管理專業的學生數百分比最高。我校學生的成績也完全符合正態分布曲線要求。
四、結束語
大數據分析是一種發展趨勢,我們目前也僅僅就單項主題進行了逐個分析,如果把這些主題串起來,進行關聯分析,將會得出更有趣更有價值的結果,這也是將來我們努力的方向。
參考文獻:
[1]戴紅芳,馮翔,先曉兵等.商業智能在校園一卡通中的研究與實踐[J].微電子學與計算機,2012,29(7):175-179.
[2]戴紅芳.基于多維數據模型的校園卡數據分析[D].上海:華東理工大學,2011.
篇8
關鍵詞:告警數據 Hadoop Spark
1 引言
隨著電信網絡的不斷演進,全省數據網、交換網、接入網設備單月產生告警原始日志近億條。以上告警通過網元網管、專業綜合網管、智能網管系統[1]三層收斂,監控人員每月需處理影響業務或網絡質量的告警事件為20萬條,但一些對網絡可能造成隱患的告警信息被過濾掉。如何從海量告警數據中獲取與網絡性能指標、運維效率相關的有價值的數據,對于傳統的關系型數據庫架構而言,似乎是一個不可能完成的任務。
在一般告警量情況下,ORACLE數據處理能力基本可以滿足分析需求,但當告警分析量上升到億級,如果采用傳統的數據存儲和計算方式,一方面數據量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準實時分析需求。因此必須采用新的技術架構來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數據技術。
2 分析目標
(1)數據源:電信運營商網絡設備告警日志數據,每天50 G。
(2)數據分析目標:完成高頻翻轉類(瞬斷)告警分析;完成自定義網元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設備和重要業務監控。
(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內存32 G;硬盤2 T。
3 制定方案
進入大數據時代,行業內涌現了大量的數據挖掘技術,數據處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構造而成的新型架構,挖掘有價值信息。
Hadoop是Apache基金會用JAVA語言開發的分布式框架,通過利用計算機集群對大規模數據進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現分布式任務計算。
一個HDFS集群包含元數據節點(NameNode)、若干數據節點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統,DataNode存儲數據塊文件。HDFS將一個文件劃分成若干個數據塊,這些數據塊存儲DataNode節點上。
MapReduce是Google公司提出的針對大數據的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務拆分為多個小任務,MapReduce框架化繁為簡,輕松地解決了數據分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調度、運行、結束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。
Spark是由加州伯克利大學AMP實驗室開發的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數據集RDD[5],中間輸出結果可以保存在內存中,節省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優點外,還支持多次迭代計算,特別適合流計算和圖計算。
基于成本、效率、復雜性等因素,我們選擇了HDFS+Spark實現對告警數據的挖掘分析。
4 分析平臺設計
4.1 Hadoop集群搭建
基于CentOS-6.5系統環境搭建Hadoop集群,配置如表1所示。
4.2 Spark參數設置[6]
Spark參數設置如表2所示。
4.3 數據采集層
數據采集:由于需采集的告警設備種類繁多,故采取分布式的告警采集,數據網設備、交換網設備、接入網設備分別通過IP綜合網管、天元綜合網管、PON綜合網管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網管系統文件服務器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。
4.4 邏輯處理層
(1)建立高頻翻轉告警監控工作流程
先將海量告警進行初步刪選,通過數量、位置和時間三個維度的分析,得出高頻翻轉類告警清單列表,最后由專業工程師甄別確認,對某類告警進行重點關注和監控。
(2)差異化定制方案
按組網架構細分,針對核心重要節點的所有告警均納入實時監控方案;
按業務網絡細分,針對不同業務網絡設計個性化的監控方案;
按客戶業務細分,針對客戶數字出租電路設計個性化的監控方案。
4.5 數據分析層
Spark讀取Hive[7]表的告警數據,然后在Spark引擎中進行SQL統計分析。Spark SQL模K在進行分析時,將外部告警數據源轉化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數據。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數據。表3是利用Spark SQL對告警工單做的一個簡單分析:
5 平臺實踐應用
探索運維數據分析的新方法,利用大數據分析技術,分析可能影響業務/設備整體性能的設備告警,結合網絡性能數據,找到網絡隱患,實現主動維護的工作目標。
5.1 高頻翻轉類告警監控
首先制定了高頻翻轉類告警分析規則,將連續7天每天原始告警發生24次以上定義為高頻翻轉類告警,并基于大數據平臺開發了相應的分析腳本,目前已實現全專業所有告警類型的分析。表4是全省高頻翻轉類TOP10排名。
5.2 核心設備和重要業務監控
目前以設備廠商或專家經驗評定告警監控級別往往會與實際形成偏差,主要表現在以下幾個方面:監控級別的差異化設定基于已知的告警類型,一旦網絡重大故障上報未知的告警類型就無法在第一時間有效監控到;同一類型的故障告警出現在不同網絡層面可能影響業務的程度是完全不同的;不同保障級別的客戶對故障告警監控的實時性要求也是不同的。
通過大數據分析平臺對差異化監控提供了靈活的定制手段,可根據告警關鍵字,分專業、地市、網管、機房、告警頻次等維度自主定制需要的告警數據,實現日、周、月、某個時間區等統計分析。
應用案例:省NOC通過大數據分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內頻繁產生線路劣化告警,但用戶未申告,省NOC隨即預警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現場處理,發現線路接頭松動,緊急處理后告警消除、業務恢復。
5.3 被過濾告警分析
全省每天網絡告警數據300萬條~500萬條,其中99%都會根據告警過濾規則進行過濾篩選,把過濾后的告警呈現給網絡監控人員。過濾規則的準確性直接影響告警數據的質量。一般來說告警過濾規則可以從具有豐富運維經驗的網絡維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規則在不同的應用環境可能存在差異,無法滿足網絡維護的整體需要。采用大數據技術對被過濾的告警進行分析可以很好地完善過濾規則,讓真正急迫需要處理的告警優先呈現給維護人員及時處理,真正做到先于客戶發現故障。表5是動環專業被過濾的告警情況分布。
5.4 動環深放電分析
動環網管通過C接口采集蓄電池電壓數據,在停電告警產生之后,電壓數據首次下降到45 V,表示該局站電池出現深放電現象,通過計算這一放電過程的持續時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產生幾十萬條電壓等動環實時數據。
在告警數據分析的基礎上,實現對蓄電池電壓變化數據的分析,提醒分公司關注那些深放電次數過多和放電時長過短的局站,核查蓄電池、油機配置、發電安排等,并進行整治。利用Spark SQL統計了一個月內撫州、贛州、吉安三分公司幾十億條動環數據,分析了其中深放電的情況如表6所示。
6 結論
本文利用HDFS+Spark技術,實驗性地解決告警數據存儲和分析等相關問題:一是通過數據分析,從海量告警數據中發現潛在的網絡隱患;二是結合資源信息和不同專業的告警,最終為用戶提供綜合預警;三是轉變網絡監控思路和方式,通過數據匯聚、數據相關性分析、數據可視化展示,提高了網絡監控效率;最后還擴展到對動環實時數據、信令數據進行分析。
從實際運行效果來看,HDFS和Spark完全可以取代傳統的數據存儲和計算方式,滿足電信運營商主動運維的需求。
參考文獻:
[1] 中國電信股份有限公司. 中國電信智能網管技術規范-總體分冊[Z]. 2015.
[2] Tom white. Hadoop權威指南[M]. 4版. 南京: 東南大學出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 員建廈. 基于動態存儲策略的數據管理系統[J]. 無線電工程, 2014,44(11): 52-54.
篇9
[關鍵詞]數據挖掘;技術;電信技術
中圖分類號:TP393.01 文獻標識碼:A 文章編號:1009-914X(2014)29-0355-01
0.前言
我國電信行業一直以來呈現出中國移動、中國聯通、中國電信三足鼎立的狀態,但是,隨著市場經濟的進一步完善,我國政府逐漸放開了對電信行業的準入管制,越來越多的國外電信運營商進入中國市場,這使得國內電信市場的競爭壓力不斷增加,另外,隨著我國消費者的日趨成熟,對電信運營商的服務質量要求逐漸提高,這一切都使得我國電信運營商面臨巨大挑戰,具體來看主要是成本增加、顧客流失、資源浪費,傳統的管理方法已經不能適應形勢發展的要求,為了有效整合和利用資源,要求電信運營商借助信息化管理模式處理大量客戶信息和消費數據,從中挖掘有價值的商業信息,從而制定出符合消費者期望的優質服務策略。數據挖掘技術正好符合了電信行業發展的要求。
1.數據挖掘的概念
數據挖掘指的是從這些混亂的、無序的、模糊的、隨機的、不完全的數據當中找出人們事先不知道但是具有潛在價值的信息和知識。從本質上說,數據挖掘是一種深層次的數據分析方法。人們根據數據挖掘任務的不同,把數據挖掘分為不同的類型,例如分類和預測模型發現,序列模式發現,數據歸類、聚類、關聯規則發現,依賴關系和依賴模型發現等等[1]。根據挖掘方法可以認為統計學方法、機器學方法、數據庫方法以及神經網絡方法.
2.數據挖掘的功能
總的來說,數據挖掘具有五大功能,即分類功能、聚類功能、預測功能、偏差檢驗功能以及關聯規則和序列模式發現功能。分類功能就是按照研究的對象的屬性建立不同的組類來描述對象。聚類功能就是把數據集合分組為由相似的對象組成的多個類別當中,即通過間接相似度把類之間的差異識別出來,并挑選類之中的相似樣本。預測功能就是根據數據屬性特征等對數據進行評估分析,從而預測其他未知屬性。常用的預測方法有回歸分析算法、神經網絡算法等。偏差檢測功能是對數據庫中存在的異常記錄進行排除,從而確保數據庫的安全穩定,降低風險。關聯規則和序列模式發現功能關聯分析就是找出數據庫中各種隱藏的關聯性。
3.基于數據挖掘的電信數據分析
將數據挖掘引入電信數據分析,其目的就是深入挖掘顧客的消費行為,探明客戶的特征、行為方式、理解客戶的價值,從而為電信運營商制定市場營銷策略提供科學的依據。
3.1 電信業務下滑客戶分析
隨著市場競爭堵塞加劇,電信顧客的流動性增大,因此,要想增強企業的競爭力,首先必須保持穩定的客戶,防治客戶的流失,并在此基礎上吸引新的客戶。首先建立電信業務下滑客戶聚類模型,對客戶數據進行聚類,先確立不同的聚類標準作為節點,對用戶進行聚類分析,然后表節點把非業務下滑客戶列出來。把那些消費波動較大的用戶作為業務流失或退訂的客戶群。最后用表節點把業務下滑的客戶數據用表列出來。其次,電信客戶業務下滑原因分析。這是在前面的基礎上進一步分析客戶業務下滑客戶的特征和原因,這里首先需要構建數據訓練集,把先前聚類的業務下滑客戶挑選出來,為了充分表現出業務下滑客戶與非業務下滑客戶的特征,將它們的比例設為1:1,然后建立決策樹,從客戶的在網時長、長途費用、客戶使用的服務品牌這三方面的具體信息出發,做出有針對性的商業決策[2]。
3.2 電信用戶GPRS業務關聯分析
GPRS業務關聯分析模型主要有商業需求分析、數據預處理、數據集、高價值客戶聚類、高價值客戶數據集、GPRS業務關聯分析、模型評估、模型等環節。首先商業需求分析。通過運用數據挖掘技術分析GPRS業務用戶的特征、潛在用戶、用戶偏好、消費潛力等,建立GPRS業務關聯模型進行分析研究,發現其中的規律,由此預測出業務的潛在客戶群,協助企業擴大用戶規模、獲得更大利潤。其次是數據處理。先根據客戶性質,將其劃分為多個群,找出最有價值的客戶群。再利用關聯性原則分析客戶偏好,進而進行相應產品和服務的研究。其次,挖掘電信GPRS業務高價值客戶群。為了建立有效模型,首先要進行聚類分析。按照客戶消費金額分為幾種不同的類型。以其中一個點為高價值客戶的最低要求。從而找出高價值客戶群。第三電信客戶GPRS業務關聯分析。該環節的目的是要找出關聯大的業務。然后根據分析結果進行業務銷售。
3.3 電信非綁定GPRS業務客戶預測
電信非綁定GPRS業務客戶預測模型與分析流程主要有商業需求分析、數據預處理、數據集、訓練集、模型訓練、GPRS業務客戶預測模型、模型評估、模型等。第一,商業需求分析。首先針對客戶使用情況,分析客戶消費行為特征,然后對具有這些統計特征而未使用這套組合業務的客戶進行推薦,由于運營商需要對客戶屬性和消費行為進行預測,因此還需要借助于決策樹建立分析模型。第二,數據處理,把無關數據排除,同時收集相關數據,并構建模型。第三,電信非綁定GPRS業務客戶預測模型構建。建立預測模型時要對模型有效性進行測試,選擇合適的預測模型。在實際商業應用中,根據模型分析結果對符合規則的目標客戶推薦業務。
4.小結
本文以中國移動某分公司的研究項目“某移動業務精確營銷模型研究及推廣”為背景,在數據挖掘理論和技術的基礎上,將數據挖掘技術的聚類分析算法、關聯規則算法、決策樹算法應用于電信數據分析。
參考文獻
[1] 舒正渝.淺談數據挖掘技術及其應用[J].中國西部科技,2010,9(5):38-39.
[2] 鞏建光.面向電信領域的數據挖掘關鍵技術研究[D].哈爾濱工程大學,2012:38-39.
篇10
福建省高速公路有限公司運用微軟大數據解決方案,對視頻圖像、交通流、交通環境等結構和非結構數據進行管理,對數據中包含的車輛、車主、收費站、地理位置等關聯信息進行分析,改善道路管理效率和用戶出行體驗……
10月18日,在微軟公司大數據媒體日活動現場,微軟分享了其在大數據領域的最新研究成果和解決方案,來自國內的銀行、汽車、交通運輸、醫療衛生和零售業用戶分享了其應用體驗。
大掌控、大智匯、大洞察
在大數據成為流行詞之前,微軟便已著手于大數據的應用與研發,例如微軟Bing的高質量搜索結果,便是通過分析超過100PB的數據得到的。微軟大數據解決方案的目標,是讓所有用戶都能獲得來自任何數據有價值的洞察力。
微軟大中華區副總裁兼市場戰略部副總經理、大中華區首席云戰略官謝恩偉介紹,為了實現這一目標,微軟為大數據解決方案制定了全面的戰略——大掌控、大智匯、大洞察。
大掌控,即“支持所有數據類型的現代化的管理層”。微軟大數據解決方案的數據管理平臺可以無縫地存儲和處理包括結構化、非結構化和實時數據在內的所有類型的數據。微軟推出的HDInsight是一種適合企業使用的、基于HDP的Hadoop服務,它將Windows的簡易性和可管理性帶給Hadoop,提供了結合Hadoop的擴展平臺,并為大數據提供了靈活且可擴展的云。
大智匯,即“搜索并結合廣泛數據,進行先進分析與精煉,從而提高數據價值的富集層”。微軟大數據解決方案,通過將數據和模型與公開的數據服務相結合,實現了突破性的數據發現,例如自動發現與共享防火墻外部的和第三方的數據源等。
大洞察,即“用戶熟悉的工具可為用戶提供具有直觀洞察力的洞悉層”。微軟大數據解決方案可以使客戶通過熟悉的由Hive add-in for Excel生成的Excel界面,從Hadoop功能中獲取有價值的洞察力,也可經由企業熟悉的BI工具,如SQL Server 分析服務、PowerPivot和通過Hive Open Database Connectivity 驅動生成的Power View來分析Hadoop中的非結構化數據。
數據分析結果要“傻瓜化”
“我們要將挖掘與分析的結果直觀呈現,轉換為用戶真正需要的有價值的洞察力。” 微軟全球高級副總裁、大中華區董事長兼首席執行官賀樂賦說。
賀樂賦說,微軟大數據解決方案通過智能化的、甚至是基于云端的平臺和服務去管理和分析數據,從中獲取有價值的洞察信息,再以用戶最熟悉、最直觀的形式表現出來,從而幫助用戶做出決策。