大數據量解決方案范文

時間:2023-03-15 14:26:26

導語:如何才能寫好一篇大數據量解決方案,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

篇1

“存儲是大數據的重點,我們需要做的就是發揮自身優勢,瞄準大數據,為存儲行業上下游合作伙伴提供更好、更專業的營銷服務。”國內市場領先的專業IT分銷商長虹佳華信息產品有限責任公司(簡稱長虹佳華)董事總裁祝劍秋對企業的增值分銷業務有著清晰的定位。

產品與方案:

集聚業界最強資源

正如很多業內專家所說的那樣,存儲和安全是大數據迫切需要考慮的首要問題。

從海量數據產生的角度,以前數據量都是以GB或者TB記的量級。但如今,情況發生了改變,過去可能多年才能累計產生的數據量,現在可能只用很短時間就會積累起來,一些單位每年產生的數據量就可能達到幾十TB,甚至不久的將來就會升級到PB級的數據量,將會占用越來越多的存儲空間。

在解決海量數據的存儲問題的同時,企業還必須要解決數據的安全性和可靠性等問題。所謂數據的安全性是指數據在任何情況下的可訪問性,不會因為人為或自然的因素導致數據不可訪問;數據的可靠性意味著即便是在極端情況下,數據發生損壞或丟失,仍有數據可被恢復或直接訪問。

顯然,解決這些問題必須要靠質量過硬的產品與解決方案。為此,長虹佳華近年來持續在云計算安全和大數據方面進行探索和投入,并且取得了很大成果:

在產品方面,長虹佳華以存儲和服務器類產品為主,涵蓋HDS、博科、昆騰、EMC、IBM等十余家全球知名、領先的數據存儲業務服務商;在解決方案方面,長虹佳華幫助商為多種特定的行業用戶提供行業解決方案,并且可以針對用戶的不同需求提供定制化的解決方案,從而更加凸顯了長虹佳華的綜合實力;

在服務方面,長虹佳華并不僅僅重視售后服務,而是為用戶提供包括培訓、環境測試、技術支持在內的售前、售中、售后的一站式服務。以存儲產品為主導構建增值業務群,如今已成為長虹佳華的既定戰略。

近幾年來,長虹佳華在原有合作伙伴的基礎上,進一步與賽門鐵克、Radware、博世、邁普等國內外知名品牌緊密合作,集聚了強大的產品與解決方案資源,整體解決方案能力和產品組合能力大大增強,進一步提升了長虹佳華“以數據為核心”的增值分銷業務的服務能力。

CDSClub與云計算體驗

暨培訓中心:為數據安家

CDSClub與云計算體驗暨培訓中心,一直是長虹佳華享譽存儲分銷行業的代表之作。CDSClub一方面從技術整合出發,另一方面從渠道伙伴支持出發,兩者相結合,就為大數據的應用與銷售安下了最好的“家”。

CDSClub是從長虹佳華成功運作數年的SANClub升級而來,其主要功能是給特定的行業提供定制化的數據方案。升級后的CDSClub并不是僅僅局限于SAN架構一種主流技術,而是實現了跨平臺的技術整合,使最終的數據方案更貼近實際應用,服務更統一,并且更有針對性。同時,方案的適用性也得到了極大提高。

目前處于國內領先地位的長虹佳華云計算體驗暨培訓中心,為渠道合作伙伴的數據方案、系統集成提供了演示、測試的廣闊平臺,對于渠道合作伙伴需要的不同產品組合應用測試、各類定制方案演示等都可輕松實現,是對渠道技術需求的極大補充支持。同時,該中心還充當起長虹佳華對合作伙伴及行業客戶進行技術培訓、資質認證以及設備服務的支持平臺角色。

大數據浪潮正洶涌來襲,與互聯網領域其他變革一樣,這絕不僅僅是一場信息技術領域的革命,更是在全球范圍內加速企業創新、引領社會變革的利器。現代管理學之父德魯克有言:預測未來最好的方法,就是去創造未來。瞄準大數據的存儲業務,長虹佳華正在向最強營銷服務提供商邁進……

分銷業務業績驕人

長虹佳華信息產品有限責任公司(即長虹IT)的實際控制人為品牌價值為786.75億元、凈資產約100億元的四川長虹。長虹佳華擁有長虹的資本、制造優勢以及長虹佳華自身在IT領域的產業優勢和獨特的團隊文化,是長虹IT產業的旗艦和支柱企業。

篇2

以在能源行業中占據重要地位的石油企業為例。中國石油集團東方地球物理勘探公司研究院數據中心目前就部署了基于英特爾架構的整套端到端的解決方案,依賴英特爾的至強、至強融核、固態盤、高速互聯技術,及它們與Lustre、Hadoop等軟件的有力結合,石油勘探能效明顯提升。東方地球物理公司研究院處理總中心總工程師賴能和在接受本報記者采訪時說:“IT技術創新與油氣勘探的主要結合點在于地震波勘探法,它可以對人工制造和收集回的地震波進行處理,并將之轉化成可視化的油藏模擬圖像,幫助準確定位油氣田的儲藏。這一過程不僅要依賴能精準收集數據的前端傳感探測設備,而且其產生的TB級、PB級海量數據,也需要借助高性能計算技術進行快速處理,獲取洞察。”

從2011年開始,賴能和團隊發現數據量開始快速增長,而且隨著采集技術的快速發展,截至目前的數據量比2013年增長了3倍。在談到HPC下一步在石油行業應用的未來發展趨勢時,賴能和總結了以下幾點趨勢:“一、基于多核CPU+協處理器模式會成為主要的應用平臺。二、高速網絡,主要是基于萬兆、4萬兆和10萬兆的網絡會成為主流。三、存儲方面,主要會在高性能、高可用性、可管理性、穩定性這塊的挑戰會更大。四、數據傳輸時間方面要求更高。五、綠色機房建設技術,主要是在節能制冷方面會有新技術出現。”而這其中,賴能和認為還需同步解決更高要求HPC的配置問題,需要更加穩定的大規模的并行處理系統。

密度海量數據處理已經成為油氣勘探的趨勢,大數據成為常態,所以需要更大規模的計算資源。對此,龔毅敏表示:“英特爾在大數據方面已經具備了的解決問題的能力。在此之前英特爾中國研發了自己的大數據分析平臺Hadoop的產品IDH,并且在今年年初又與Hadoop的服務和軟件供應商Cloudera達成戰略合作,并面向中國用戶開發推出了針對客戶推廣了融合版本Hadoop產品CDH。但是結合到具體不同的行業,我們會與合作伙伴一起,針對用戶的具體它的應用場景做更多深度合作和技術的合作點的挖掘。”

除此之外,在端到端中新興的物聯網端,英特爾提供了在性能、功耗和功能上具備多樣化特點的產品組合,包括了至強、酷睿和凌動產品線,既有傳統的處理器,也有集成了更多功能的系統芯片(SoC)。還有去年的以Quark為代表的開放微架構,將有望大大提升能源行業專用智能物聯網設備開發和應用的速度。

篇3

>> 一種基于XML的電子訂單安全方案 ESP:大數據時代科學教育整合的一種解決方案 一種面向航天領域的實時數據處理框架研究 一種適合于大數據集處理的混合EM算法 一種面向制造的EBOM構建方案 一種海量數據處理平臺的解決方案 一種面向電力在線監測系統的嵌入式數據處理平臺設計 一種靈活的WEB數據導出方案 一種基于文件緩沖方式的操作大數據量數據的方法 一種數據穩健光滑的處理方法 一種分布式大數據的數據安全管控策略研究 一種大數據智能分析平臺的數據分析方法及實現技術 一種面向媒體網關的平臺軟件解決方案 一種面向LTE基站的SOC平臺軟件解決方案 一種面向Web3D的大規模場景實時繪制方案 一種面向就業的計算機專業培養計劃改革方案 一種面向商業智能的數據挖掘體系結構的應用研究 大數據:另一種國家核心資源 一種面向醫療機構的數據倉庫應用架構 一種面向專利文獻數據的文本自動分類方法 常見問題解答 當前所在位置:l, 2014.11.16.

[2]新華網財經頻道. 2014年零售百強銷售規模同比增長26.2%,天貓居榜首[N]. http:///fortune/2015-07/09/c_1115875315.htm, 2015.7.9.

[3]百度百家. 2015年電商行業五大趨勢[N]. http:///article/42503, 2015.1.13.

[4]J. Dean, S. Ghemawat. MapReduce: simplified data processing on large clusters. Communications of the ACM [J], vol.51, no.1, pp.107-113, 2008.

[5]Hadoop. https:///.

篇4

那么,什么是下一代分析生態系統?按照記者的理解,就是結合了商業技術、開源技術的多平臺的新一代大數據解決方案。正如Teradata首席技術官寶立明所言,數據分析解決方案正在快速從傳統分析解決方案向下一代分析生態系統演進。

談到數據庫或者數據分析市場的變化,在Teradata營銷與業務拓展副總裁Mikael Bisgaard-Bohr回顧說,30年前Teradata的核心技術是關系型數據庫,隨著時間的推移,數據分析市場的需求也起了很大的變化,我們的解決方案也從傳統數據倉庫擴展至包含開源技術的分析生態系統。現在很多研發人員、數據分析人員也關注如何更好地實現數據變現。“不僅Teradata,其他的傳統數據公司都在面臨同樣的變化,因為整個市場已經發生了變化。”Mikael補充說。

隨著非結構化數據量的大幅增加和非結構化數據分析的需求不斷加大,單一平臺早已經不再能滿足所有數據的處理需求。因此寶立明認為,生態系統將成為行業潮流,商業技術要與開源技術結合起來,生態系統方案將成為行業標準和最佳實踐;全新的開源技術,特別是Hadoop技術,以及云環境將成為行業趨勢。

因此對于大數據分析和應用供應商來說,如何更好地將商業技術與開源技術結合起來,構建完善的生態系統,成為現階段的一大挑戰。

寶立明透露,Teradata算是最早宣布將開源Unix和Linux應用在數據庫平臺之上的,而且現在Teradata采用的操作系統也是完全開源的。此外,他還透露,Teradata在Hadoop上投入很大,為的是讓開源技術可以和商業技術實現互通,例如Teradata開發的專利技術QueryGrid連接器。Teradata還在Hadoop文件系統上添加了儀表盤能力,使流數據能夠進入Hadoop進行部署。

篇5

增強控制力

“很多用戶的數據保護架構還是一個‘隨意架構’,它由零散的數據保護流程和‘煙囪式’的基礎架構組成,需要保護的數據被信息孤島隔裂開,不能實現整合與優化。”EMC公司備份和恢復系統部亞太及日本區銷售副總裁Dmitri Chen解釋說,“面對虛擬化、云計算、大數據帶來的新挑戰,企業用戶希望數據保護系統是可視化的和可控的,數據保護流程能夠更簡單,整個數據保護過程都是合規的。其中最重要的是,用戶自己要對數據保護架構有絕對的控制能力,可以根據自己的需求進行調整、優化和修補。”

為了消除現有數據保護架構的隨意性,增強用戶對數據保護架構的控制力,EMC近期升級了自己的數據保護解決方案,包括硬件和軟件以及云備份服務。Dmitri Chen強調說,為了改善數據保護架構,應該從以下三方面入手。第一,保證存儲硬件平臺的高性能、高可擴展性和高可靠性。作為最后一道防線,數據保護架構不僅要提供大容量、低成本的存儲,還要能實現災難恢復、備份和歸檔等功能。第二,實現數據源的集成,不僅可以對物理環境和虛擬環境中的數據進行統一保護,而且可以為來自不同應用程序(比如Oracle、SAP以及VMware、Microsoft等)中的數據提供保護。EMC擴展了備份和歸檔產品對應用程序的支持,比如EMC Data Domain現在可以支持SAP HANA Studio通過網絡文件系統(NFS)直接進行備份。第三,實現數據管理服務。管理員可以對數據保護流程進行管理和控制,實現可視化。實現數據管理服務的依托是備份、重復數據刪除等相關軟件。

軟硬件的整合

“隨著數據量的增加,以及用戶對數據可靠性、可用性、安全性需求的增加,略顯單薄的傳統備份產品已經逐漸發展成整體的數據保護解決方案。”Dmitri Chen表示,“軟件與硬件的同步發展以及整合方案的推出,可以全面滿足用戶對數據保護的需求。”

EMC近日的數據保護產品中就包括大量硬件和軟件。其中,硬件是全新的Data Domain系列中端產品,包括DD2500、DD4200、DD4500和DD7200。“這些新產品與它們要替換的舊產品相比,性能提升4倍,可擴展能力增強10倍,并且可以實現備份與歸檔的全面整合,從而降低了數據保護的整體擁有成本。”Dmitri Chen介紹說。

篇6

雖然信息化發展了,但系統的快速擴張卻給IT運維帶來了煩惱。中國人民總醫院計算機室主任史洪飛說:“醫院畢竟是醫院,在IT方面的投入尤其是在IT基礎設施方面的投入遠小于需求。”他說,醫院IT經費的80%用于終端設備更新、15%用于系統建設,因此,投在基礎設施上的資金就很有限了。“我們有大量的服務器,但它們的利用率不超過20%;存儲設備很分散,導致數據維護以及設備擴容和維護的工作量非常大;過多的基礎設施設備使對機房的需求變大,維護成本也高。”

史主任說,2012年,他們開始對云計算進行比較深入的調研,期望通過云計算解決IT運維中的一些問題,包括公有云、服務器虛擬化、存儲虛擬化以及桌面云,他們都進行了認真的考慮。最終,他們首先選擇了服務器虛擬化解決方案,先將非核心業務的服務器進行池化,以保證系統的平穩運轉。“對于像遠程醫療等對外的應用,我們未來可能考慮利用公有云。另外,對于桌面云目前主要問題是資金投入問題,這是我們今后要重點考慮的。”史主任說。

醫療信息化發展到今天,從基礎設施到業務系統,甚至用戶終端的配置都在發生著變革,而適應這些變革的正是云計算。這一點,從史主任他們的信息化實踐中也可以看出。華際系統公司副總裁、博雅云計算總經理劉煒帶領的團隊從事醫療行業信息化多年,日前在“英特爾架構高集成度醫療解決方案應用論壇”上,他說,目前醫療信息化存在的問題主要有信息孤島和信息煙囪、資源相對不足、系統效率需要提升、不斷攀升的醫療IT成本等。而云計算首先可以解決資源相對不足的問題,并降低IT成本、提高效率。

為此,英特爾聯合博雅和Nutanix等合作伙伴專為醫療行業應用構建了基于英特爾架構的高集成度解決方案平臺,利用英特爾中國云計算創新中心,合作進行方案的開發和驗證,降低醫療行業信息化的成本和復雜性,管理醫療信息系統的大數據問題,降低信息技術風險,提高醫療行業管理層的決策能力。

據史主任介紹,他們已經在Nutanix設備上做過技術測試,測試環境是4臺刀片服務器、2TB內存和15TB存儲,其部署和維護非常方便,應用系統的運行效率很高。

篇7

關鍵詞:NoSQL 3.20工程 研判分析

一、前言

當今世界是一個信息高速發展的時代,隨著網民參與互聯網產品和應用的程度越來越深,互聯網將更加智能,互聯網的數據量也將呈爆炸式增長。可以預見公安行業信息化發展在未來幾年里,數據將以每年 30%到50%的速度爆炸式增長。

在大數據時代下對系統又提出了新的需求:1、高并發讀寫的需求,高并發、實時動態獲取和更新數據。2、海量數據的高效率存儲和訪問的需求,類似SNS網站,海量用戶信息的高效率實時存儲和查詢。3、高可擴展性和高可用性的需求,需要擁有快速橫向擴展能力、提供7*24小時不間斷服務。

物聯網發展和互聯網應用帶來了多源海量數據的存貯、管理、處理、融合、整合和挖掘分析問題,傳統的關系數據庫管理系統(SQL數據庫管理系統)已不能完全適應這些海量數據的管理與計算要求,NoSQL數據庫管理系統應運而生。NoSQL數據庫主要有鍵-值存貯(key-value stores)、 BigTable、文件存貯數據庫(document store databases)和圖形數據庫(graph databases)等類型,相關的數據庫軟件主要memcached, Redis, MongoDB, CouchDB, Apache Cassandra和HBase等等,都是開源的。

NoSQL數據庫與傳統的關系數據庫管理系統相結合,為智慧城市數據管理提供整體解決方案,應用NoSQL并不是全盤否定SQL數據庫,而應該是NoJustSQL依賴于SQL。

二、傳統數據庫在大數據處理中存在的問題

傳統數據庫,主要指關系型數據庫,在長期的實踐中體現出性能好、穩定性高等特點,在使用上也比較簡單,功能強大,在實際的數據庫工作和研究發揮了很好的作用。但關系數據庫在應對大數據存在明顯的問題:

1、分庫分表缺點:

(1)受業務規則影響,需求變動導致分庫分表的維護復雜。

(2)系統數據訪問層代碼需要修改。

2、Master-Slave缺點:

(1)Slave的實時性保障,在實時性要求很高的應用中,可能需要進行相關處理。

(2)在高可用性方面的問題,Master存在容易產生單點故障的致命弱點。

3、 MMM缺點: 本身擴展性差,一次只能一個Master可以寫入,只能解決有限數據量下的可用性。

三、NoSQL概念

1、什么是NoSQL NoSQL是Not Only SQL的縮寫,而不是Not SQL,它不一定遵循傳統數據庫的一些基本要求,比如說遵循SQL標準、ACID屬性、表結構等等。相比傳統數據庫,叫它分布式數據管理系統更貼切,數據存儲被簡化更靈活,重點被放在了分布式數據管理上。

2、主流NoSQL數據庫--HBase簡介 HBase是Hadoop Database的簡稱,它是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,利用HBase技術,可在廉價的PC Server上搭建起大規模、結構化的存儲集群。

HBase是由Google Bigtable的開源實現,類似于Google Bigtable利用GFS作為其文件的存儲系統,HBase利用Hadoop HDFS作為其文件的存儲系統;Google是通過運行MapReduce來處理Bigtable中的海量數據,HBase同樣是通過利用Hadoop MapReduce來處理HBase中的海量數據的;Google Bigtable利用 Chubby來作為協同服務,HBase是利用Zookeeper來作為對應的。

四、NoSQL的特點分析

1、NoSQL是易擴展的

NoSQL數據庫的種類繁多,但是他們有一個共同的特點,就是去掉了傳統關系數據庫的“關系型”這一特性,所以NoSQL數據庫的數據之間是無“關系”的,這樣的數據庫就非常容易擴展,同時,在架構的層面上也具有可擴展性,有多種NoSQL數據庫之間的整合能力。

2、NoSQL是靈活的數據模型

NoSQL數據庫不需要事先為要存儲的數據建立對應的字段,隨時可以存儲自定義的數據格式。而在傳統的關系數據庫里,增刪字段是非常麻煩的,如果是大數據量的數據庫表,增加一個字段簡直是很麻煩的。

3、NoSQL是高可用的

NoSQL數據庫可以方便的實現高可用的架構,而且不太影響性能。比如Cassandra,HBase模型,就可以通過復制模型實現高可用。

4、NoSQL是具有大數據量的處理能力,具有高性能的特點

NoSQL數據庫都具有非常高的讀寫性能,尤其在大數據量下,這種讀寫能力體現更加突出,這得益于它的“無關系性”,數據庫的結構簡單,NoSQL的 Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。

五、“3.20”工程海量數據分析應用

“3.20”工程是在江蘇省公安廳統一部署下開展的路面監控建設工程,要求在市區主要道路每3公里記錄一次車輛軌跡,國道等城市道路每20公里記錄一次。

由于“3.20”工程每天產生海量過車信息,數據總量大、日均增量大、占用存儲空間多,僅僅依靠Oracle關系數據庫技術的存儲建庫模式,已不能完全滿足實戰應用的需求。對于傳統的關系數據庫來說,在一張幾百億條數據記錄的表里面進行SQL查詢,效率極其低下,用戶不可忍受。在傳統的關系數據庫系統中往往采用分庫、分表的策略進行數據存儲,這種方式使得單表的查詢效率得到提高。然而在能耗監測系統中往往需要對全局數據進行綜合統計查詢,往往涉及到幾十上百個表,查詢效率無法保證。

這就需要在“大平臺”總體數據庫體系下,深入研究“大數據”應用處理問題,引進HDFS分布式文件系統,采用Hadoop架構的NoSQL數據庫技術,科學規劃設計數據存儲、傳輸、建庫的模式,滿足“3.20”工程車輛數據應用需要。NoSQL數據庫采用“鍵-值”對的方式對數據進行存儲,該存儲方式是不需要固定的表結構的,也就不存在連接操作,具體操作時效率就比較高。在大數據存取上具備關系型數據庫無法比擬的性能優勢。

Hadoop應用場景

基于Hadoop HDFS等分布式文件系統存儲結構,能夠有效解決海量數據快速讀寫的性能瓶頸問題,是開展“大數據”應用訪問、統計分析很好的解決方案。

對于需要分析的大數據,特別是對于日均增量達4000萬的過車信息數據等,采用NoSQL數據庫技術,運用Hadoop的HDMS結構方式進行存儲建庫,搭建多個“3.20”工程大數據專題庫,并利用MapReduce功能來進行數據分析,多臺機器組成集群進行并行計算,以此提升全省“3.20”工程大數據的處理和分析能力。

在匯集整合全省道路監控網“3.20”工程相關信息資源的基礎上,結合各警種業務部門實戰需求,充分利用“大數據”技術,以人車案關聯分析為建設重點,實現全省一體化查詢服務、人車案關聯分析、重點車輛電子檔案、重點車輛積分預警、警務地理信息系統對接應用、指揮調度系統對接應用等功能,面向全省基層單位、專業部門、各級公安機關領導提供系統服務,為開展深度研判應用奠定基礎。

參考文獻

[1]黃富潔.公安決策支持系統的研究與設計[D].濟南:山東山東大學,2004

[2]張嵐.淺析數據庫技術的發展趨勢[J].信息與電腦(理論版).2012

篇8

2013年被稱為大數據元年,大數據應用受到越來越多的追捧,其產品和解決方案也層出不窮。互聯網、金融、電信、醫療,甚至影視、藝術產品領域都在談論并試圖應用大數據。廠商描繪的大數據應用藍圖和商業前景也讓不少企業怦然心動。

 

對于目前的大數據熱潮,另有一些評論者在質疑大數據只是概念炒作,認為其商業前景被過分夸大,大數據架構僅僅是“看起來很美好”而已。筆者認為,一方面大數據的價值不可否認,其對行業和領域的影響已經初現端倪,另一方面是戰略性、概念性的東西仍被談論過多,大數據落地應用稍顯底氣不足。目前在中國市場上,大數據的大規模應用方面還沒有足夠的需求。因此,在企業IT基礎和信息化水平無法一夕之間改變的情況下,大數據應用不妨從小處入手,循序漸進推廣。

 

首先,對于數據的收集和篩選,不應一味地追求越多越好,應理性選擇。軟硬件水平的提升使得數據收集和存儲日益簡單,很多企業不遺余力收集各種數據,花費大量成本,還往往把問題復雜化。在實際操作中,企業需要結合業務進行規劃定位,才能了解哪些數據能夠滿足功能目標,從而有效地選擇數據源。

 

其次,推動和落實大數據,不一定非得“大”字當頭——實施大項目、采用大技術、尋找大量專家……在起步階段,面對巨大的數據量做一個大規模的應用,并適合大多數人使用,這幾乎是不可能的。最好能結合企業需求和特點選擇技術難度小、針對性強的切入點,其解決方案和項目規模也盡量在現有信息化水平基礎上有的放矢。企業應用大數據應該注重實用,不要把大數據看作“全能”。

 

從小處入手,有利于風險的控制。小規模的項目相對來說易于掌控,這在目前并不成熟的大數據領域,對剛開始應用大數據的企業來說非常重要。即使出現差錯,也方便彌補和修正,相應的損失也在可控范圍內。從小處入手,有利于取得有效的投資回報。在中國市場,大數據落地實踐的不多,真正獲得收益的案例就更為有限。小規模的大數據應用能快速展現出大數據的優勢,并有助于洞察類似的應用能為企業帶來多少收益。在一個相對較小的范圍內先實現目標,然后再逐步推廣,這樣更容易獲得認可。

 

需要注意的是,即使是小規模應用,也需要足夠的基礎支撐,比如硬件設備、人才,企業應該先認清自己的信息化水平,在自身能力范圍內展開大數據的應用,效果會更加顯著。

篇9

歸檔到磁盤

傳統上,人們習慣用磁盤做備份,用磁帶做歸檔。隨著數據量的不斷增加,人們需要更快速地處理、歸檔數據,而且要保證歸檔數據隨時可查。雖然從成本的角度考慮,磁帶仍然是最經濟的歸檔介質,而且磁帶可以實現離線的數據保護,這有利于數據的異地保存和安全性,但是性能始終是磁帶最大的掣肘。Janae Lee舉例說:“在美國,我們的一個客戶為了提高系統的整體處理性能,在一級存儲中使用了固態硬盤(SSD),之后不經過任何中間環節,就將數據直接歸檔到磁盤系統中。”一些互聯網企業和游戲客戶可能會對這種高性能磁盤歸檔方案感興趣。

從技術的角度看,將磁盤用于歸檔是否可行呢?當磁盤上的數據越聚越多時,即使有RAID等技術作為保護,磁盤還是會容易出現故障。退一步說,就算RAID技術能夠起到保護作用,RAID進行數據重構時,也要花費一定時間,當數據達到PB量級時,這種重構所花費的時間可能是用戶難以忍受的。由此可見,將磁盤用于備份,一個前提是必須提升磁盤的效率、安全性,同時降低其整體擁有成本。為此,昆騰將一種原先用于通信領域的技術引入到磁盤歸檔方案中,推出了基于Wide Area Storage(WAS)技術的磁盤備份方案。與RAID磁盤相比,WAS的安全性大大提高,效率提高50%~70%,整體擁有成本降低50%~70%。Janae Lee介紹說:“我們的磁盤歸檔方案基于NAS界面,可與StorNext軟件配合使用,非常適合云歸檔應用。磁盤歸檔方案將于2013年初面世。”

磁帶是數據保護的最后一道防線。Janae Lee表示:“磁盤歸檔方案與磁帶歸檔方案之間不是替代的關系,而是互補的關系。磁帶歸檔市場仍在不斷擴大。對于那些辦公場所位置分散,又希望快速存取數據的用戶來說,WAS是比較理想的選擇。”

磁帶不受影響

在大數據時代,磁帶的重要性會進一步被削弱嗎?昆騰公司大中華區總經理張金華介紹說:“從2011年昆騰在中國的銷售業績看,以DXi系列產品為代表的磁盤業務始終保持高速增長的態勢,每個季度的增長率都能達到兩位數,而磁帶業務則與2010年持平。”雖然昆騰的業務重點已經轉向數據保護整體解決方案和大數據,磁帶不再是業務核心,但是昆騰并沒有放棄磁帶業務,對于磁帶的研發投入也沒有減少。

“我們為磁帶庫產品增加了一些新的功能,比如EDLM自動磁帶內容檢查功能、雙機械臂、Active Vault等。這些新功能的加入,可以讓磁帶庫與StorNext軟件更好地配合使用。”Janae Lee舉例說,“在廣電領域,10%的數據存儲在磁盤上,90%的數據存儲在磁帶上。用戶還要經常調取磁帶上的數據。StorNext 4.3版本增加了一項新功能,在將數據寫入磁盤的同時,也會寫入磁帶。這種技術非常適合電視臺節目上傳的應用。”

軟硬件都重要

在昆騰的大數據解決方案中,StorNext扮演了極其重要的角色。以前,StorNext都是以軟件的方式提供給客戶的。但是有客戶反映,StorNext的部署和調優比較復雜。為此,從2011年開始,昆騰開始提供基于StorNext的軟硬件一體化解決方案。

篇10

根據計世資訊2013年3月的中國大數據市場調查報告顯示,相較2011年,2012年中國大數據市場規模增長52.4%,達到3.2億元。預計到2017年,中國大數據市場的年增長率都將超過60%,到2017年,達到37.9億元的市場規模,在經濟、整體IT市場低迷的情況下,實現大幅逆勢增長。

在日前由《計算機世界》報主辦的“大數據時代的商業智能高峰論壇”上,來自IT廠商的代表、業內專家、資深分析師及用戶代表就大數據熱門話題展開了激烈的討論。

焦點一:

大數據是不是大忽悠?

IT技術的每一次更新迭代都面臨同樣的問題,前兩年的云計算、如今的大數據無不如此。實際上我們回過頭來看,所有的技術和產業的發展都有泡沫化的過程,包括互聯網、金融危機、云計算、大數據,都會有一個泡沫化的過程,而泡沫破滅的過程也正是這項技術落地的過程。

大數據熱起因是其可以產生更多的價值,而在當前這個時間點熱,一方面是越來越多的人意識到了其中的價值,另一方面則與技術的發展成熟密不可分。戴爾云計算及大數據高級解決方案架構師郝繼玖和EMC資深技術顧問楊永波在這個問題上所持的觀點基本相同,他們認為并不是之前沒有大數據,而是沒有能力處理。當下這個時間點一方面是數據規模確實越來越大,而另一方面計算能力也達到了一定的水平,當這兩者都具備的時候,才催生了大數據時代的到來。

作為用戶代表,IDG集團中國區副總裁、計世傳媒集團董事許偉明表示認同,他認為主要是當前IT系統的計算能力和成本都已經降低到了可以負擔的水平,由此推動了大數據的快速發展。

作為大數據領域的專家,北京理工大學計算機學院院長助理、大數據搜索與挖掘實驗室主任張華平副教授表達了他的看法。他表示,雖然當前大數據還停留在泡沫階段,不過大數據的泡沫不會比云計算大,因為云計算更多涉及的是架構問題,業內分歧比較多,而大數據關注的只是業務,更加專注,因此也會更快地實現落地。

焦點二:

上馬大數據要做哪些準備?

根據計世資訊的大數據市場調研報告顯示,未來半數以上的企業會采用大數據解決方案。用戶如果真的要部署大數據解決方案,要做哪些準備?

了解需求、獲得老板的認可,是首先要考慮的。許偉明認為,從公司角度來看,最大的問題是如何獲得老板的支持;而從業務層面出發,則需要考慮實際的需求。比如你所處的企業如果數據量很大,則需要在IT架構上做準備,考慮包括數據是怎么收集的、從哪里收集、如何與其他數據進行匹配等問題。而在操作過程中,則可以首先嘗試一些開源的工具進行小范圍測試,做一些基本了解,然后再找相關的專家仔細進行評估。

這僅僅是最基礎的部分,在此之上,企業還要將項目與整體業務緊密地聯系在一起。因為如果只是單獨考慮某一部分的業務,失敗的概率非常大。楊永波表示,從IT架構層面來講,很多數據的獲取并不容易,打通所有層級、部門的數據是比較難的,但是只有把信息打通了,才擁有了真正的大數據。

郝繼玖則進一步做了補充:“大數據相應的IT架構搭建完成后,還需要考慮服務的標準化,因為隨著數據量、設備及人員的增加,如何分工、保證高質量的運維效果是需要迫切考慮的問題,這個過程就需要建立統一的服務標準和流程。”

除了技術層面的問題外,還有一個很大的問題就是隱私問題。張華平講到,現在有很多大數據隱私被濫用的問題,無論從國家還是公司層面來講,要想把大數據做好,都面臨數據公開的問題,需要各個部門數據的融合。因此,利用大數據的時候,要考慮隱私的問題。另外,還需要考慮數據本身的生命周期問題,有一些老的或者過時的數據,可能對你最后的分析結果產生特別糟糕的影響。因此,專業的人才不可或缺,應該有一些數據分析師,或者跟業務相關的數據科學家對數據進行分析。

焦點三:

用開源平臺還是商業軟件?

一提到大數據很多人會想到Hadoop。作為開源平臺的忠實支持者,張華平認為做開源和共享平臺,從最終的情況來看,獲取的價值更大。因為開源軟件參與的用戶多,反饋多,更容易改進和完善。

不過,楊永波并不這么看,他認為Hadoop不等于大數據,針對非結構化數據的分析,Hadoop是比較好的平臺,也是現在被廣泛接受的平臺。但也正因為其是開源平臺,也存在一些弊端,比如服務質量無法保證。另外,Hadoop有很多版本,要真正實現商用,需要用戶具備足夠高的技術水平。因此,用戶在選擇時并不能一味追求開源,需要綜合考慮自己的情況。

對此,許偉明表示認同楊永波的觀點,他認為無論是開源還是商業軟件,最重要的還是服務質量、服務速度,不能一味考慮成本問題。

郝繼玖表示:“大數據發展速度越來越快,給IT市場帶來的空間也越來越大。因此,在開源平臺方面,我們一直在積極參與,推動行業的發展。戴爾并不提供大數據運行平臺,提供的只是其中的計算能力。”

焦點四:

大數據時代,安全如何保證?

大數據并沒有人排斥,但在記者采訪過程中,經常有用戶問這樣的問題:如何保證我的信息安全,如果無法保證安全,大數據還上不上?對此,張華平一語中的,“我們不會因為高鐵出事不坐高鐵,不會因為飛機出事不坐飛機,大數據是科技發展的趨勢,但要把握好方向,這需要法律的完善。”

張華平的觀點得到了與會嘉賓的贊同。郝繼玖認為,數據是把雙刃劍。消費者網購時需要提供家庭地址,才能給你運過來,這是經過同意獲取你的信息,因為有良好的法律環境進行統一管理,所以買家不用那么擔心;而生活中很多時候是濫用信息的收集,是在用戶不知情的情況下搜集你的信息,這就需要相應立法進行保護。大數據也是類似的,只讓適合的人利用我的數據。另外,關于大數據的報道,未來也要有嚴格的法律保護體系,保證我的數據不被泄露出去。

許偉明還在此基礎上提到了平衡,他講到,一個信息點傳播出去,對某個人而言,可能是隱私受到了侵犯,但從另一個角度來看,你把互聯網當成是一個系統,你不斷地訓練這個系統,讓其更好地為你服務,其實也不是壞事。“我們做媒體的,研究的大數據就包括精準的廣告投放。比如在你閱讀的時候,獲得了你想要的廣告信息,對用戶而言也不是壞事。再比如你在研究旅行的時候,給你一些旅行社的信息,或者給你一些比較便宜的飛機票等,相信客戶還是愿意看的。實際上你可以有意識地泄露一些你的信息,這樣系統會分析你的數據,真正地幫助你,所以我覺得沒必要恐懼。而惡意的信息收集、未經用戶允許收集的信息,都是違法的。這其中就需要平衡,不能因為有可能被泄露隱私就不用大數據。”

鏈接

2013大數據平臺最佳創新產品獎

Dell PowerEdge C8000

數據中心基礎設施解決方案獎

Nutanix虛擬計算平臺

2013大數據優秀解決方案

帝聯科技“云主機解決方案”

南大通用GBase 8a數據庫

Informatica PowerCenter大數據版

2013大數據優秀產品獎

華為12800交換機

浪潮云海大數據一體機

SAS可視化分析平臺

知意圖精準推薦系統

2013大數據人才培養貢獻獎

慧科教育

大數據時代的商業智能高峰論壇召開