數(shù)據(jù)理論論文范文

時間:2023-04-11 17:15:14

導語:如何才能寫好一篇數(shù)據(jù)理論論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

數(shù)據(jù)理論論文

篇1

(一)類型繁多(Variety)

數(shù)據(jù)通常被分為結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。相對于傳統(tǒng)的以文本為主的結構化數(shù)據(jù),網絡日志、音頻、視頻、圖片、地理位置信息等半結構化、非結構化數(shù)據(jù)越來越多。同時,近幾年出現(xiàn)的微博、微信等可通過移動互聯(lián)設備使用的電子交往形式使數(shù)據(jù)量和數(shù)據(jù)種類更加復雜化。

(二)價值不高(Value)

價值密度的高低與數(shù)據(jù)總量的大小成反比。以社會中常見的監(jiān)控錄像為例,一天的監(jiān)控記錄,有用數(shù)據(jù)可能僅有一二秒。如何將已有的結構化數(shù)據(jù)、半結構化數(shù)據(jù)及非結構化數(shù)據(jù)進行整合、分析,挖掘出更多有價值的信息,并通過強大的計算能力迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。

(三)要求高速處理(Velocity)

這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預計到2020年,全球數(shù)據(jù)使用量將達到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是生命。

二、圖書館大數(shù)據(jù)的主要來源分析

根據(jù)大數(shù)據(jù)的基本特征,經筆者分析,圖書館知識服務領域的未來大數(shù)據(jù)的來源主要有RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網絡和移動互聯(lián)數(shù)據(jù)等幾個方面。隨著圖書館數(shù)字技術的不斷提高,RFID將不斷推廣,這將是未來圖書館大數(shù)據(jù)的主要來源之一;由圖書館中的傳感器感知生成的數(shù)據(jù),長時間積累后也將產生巨大的數(shù)據(jù)量;社交網絡已廣泛應用于社會各個方面,逐步成為人們交往的主要形式,其所產生的數(shù)據(jù)量遠超以往任何一個信息傳播媒介,由其生成的數(shù)據(jù)量是不可估量的;移動互聯(lián)網及移動互聯(lián)技術的不斷完善,使得圖書館可以靈活獲取移動電子設備、人員、資源、用戶行為和需求等信息,并對這些信息進行實時分析,從而幫助我們開展有效的智能輔助決策。

三、大數(shù)據(jù)對圖書館管理的影響和挑戰(zhàn)

(一)海量數(shù)據(jù)處理考驗圖書館計算能力

大數(shù)據(jù)時代背景下,各類數(shù)據(jù)量迅速增長,數(shù)據(jù)產生的方式、范圍發(fā)生前所未有的變化,人們在社會中的各類行為都產生了大量的信息數(shù)據(jù),信息數(shù)據(jù)的組成結構、格式類型、存在形態(tài)等都更加復雜。圖書館要對上述復雜的數(shù)據(jù)進行應用、存儲,將具有很強的挑戰(zhàn)性,不僅僅涉及云計算、大數(shù)量級數(shù)據(jù)存儲等技術問題,還可能促發(fā)圖書館服務模式、資源建設模式、管理模式與發(fā)展模式的轉變。

(二)數(shù)據(jù)分析方式轉變帶來的挑戰(zhàn)

隨著圖書館信息化程度的提高,以互聯(lián)網信息搜索、查詢?yōu)榛A的知識服務逐漸被更多的圖書館所采用。但不管是簡單的信息服務,還是結合了信息檢索、組織、分析等高級業(yè)務服務,都可歸納為就數(shù)據(jù)而進行的服務。大數(shù)據(jù)時代背景下要求圖書館不僅需要通過結構化數(shù)據(jù)了解客戶需求,也需要大量的非結構化數(shù)據(jù)、半結構化數(shù)據(jù)去挖掘、預測和分析當前和未來的用戶需求,社會大眾的需求也將隨著不斷變化的個性化的高滿意度服務出現(xiàn)而對圖書館的服務呈現(xiàn)出明確和迫切的需求。滿足用戶的需求,提供復雜數(shù)據(jù)的處理也將成為大數(shù)據(jù)時代圖書館的發(fā)展方向,如何處理好數(shù)據(jù)分析,將直接影響圖書館的生存與發(fā)展。

(三)大數(shù)據(jù)對圖書館基礎設施提出更高的要求

半結構化及非結構化數(shù)據(jù)的迅速增加,導致數(shù)據(jù)存儲、計算規(guī)模越來越大,其成本急劇上升。很多知識服務機構出于成本的考慮將應用由高端服務器轉向中低端硬件構成的大規(guī)模計算機集群,從而對支持非結構化數(shù)據(jù)存儲及分析的基礎設施提出了很高的要求。

四、大數(shù)據(jù)時代圖書館管理發(fā)展方向

(一)探索利用數(shù)據(jù)分析技術與工具

對圖書館來說,在大數(shù)據(jù)時代要想在激烈的市場份額競爭中爭得一席之地,避免邊緣化,開展必要的大數(shù)據(jù)分析服務顯得必不可少。圖書館開展的大數(shù)據(jù)分析服務業(yè)務,主要可以有以下幾種:首先是圖書館自身建設所需的大數(shù)據(jù)分析。這類分析一般以圖書館的現(xiàn)有數(shù)據(jù)為對象進行分析,如讀者的借閱方式、行為愛好等,是一種對現(xiàn)有資源的分析與挖掘;其次是客戶即讀者所需的大數(shù)據(jù)分析。這類分析業(yè)務類似于當今圖書館為企業(yè)等客戶群體所做的信息情報參考、競爭情報分析,但也有著很大的區(qū)別,如對于分析對象數(shù)據(jù)的不同、分析手段的不同、分析目的不同等,這類分析業(yè)務所依靠的大量數(shù)據(jù)可能并非圖書館所擁有,從而成為限制該項業(yè)務發(fā)展的瓶頸,如何解決此類服務的數(shù)據(jù)問題是突破該瓶頸的關鍵。麥肯錫的《大數(shù)據(jù):創(chuàng)新、競爭和生產力的下一個前沿領域》報告中首次提出了“大數(shù)據(jù)”的概念,對大數(shù)據(jù)的分析技術與工具進行了列舉,如目前已為廣大圖書情報研究者所熟知的聚類分析、數(shù)據(jù)挖掘、網絡分析、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等,特別是聚類分析、可視化分析與數(shù)據(jù)挖掘技術。但這些現(xiàn)有的研究目前僅僅只是針對結構化數(shù)據(jù)和有限數(shù)量的關鍵詞進行聚類分析、共現(xiàn)分析等,并不能真正挖掘大量負責數(shù)據(jù)的存在與表現(xiàn)形態(tài),更不能通過這些分析去預測未來的可能發(fā)展趨勢。當然,大量網絡社交等信息行為產生的大量非結構化數(shù)據(jù)、半結構化數(shù)據(jù)也讓許多學者開始思考去采集和利用這些信息,如蘇玉照等人就認為如果能夠采集到Web日志的數(shù)據(jù),就能很好地滿足發(fā)現(xiàn)關聯(lián)規(guī)則、內容分類和用戶聚類的需求,從而能提高個性化推薦的精度,進而對定制Web日志的數(shù)據(jù)模型、過程及方法進行探索。

(二)重視基礎設施建設

大數(shù)據(jù)時代,圖書館的核心競爭力不再僅是文獻數(shù)據(jù)信息的競爭,各類形式的海量數(shù)據(jù)以及對海量數(shù)據(jù)的分析、挖掘才是今后圖書館之間競爭的核心因素。因此,要跟上大數(shù)據(jù)的腳步,必須完善信息收集的基礎設施建設,加強各類信息資源的收集將成為圖書館資源建設的大方向。圖書館首先要明白“數(shù)據(jù)即生命”,解決數(shù)據(jù)存儲問題。大數(shù)據(jù)時代對于圖書館的數(shù)據(jù)存儲量要求極高。早在2007年,沃爾瑪就通過對消費者的購物行為等非結構化數(shù)據(jù)進行分析,創(chuàng)造了“啤酒與尿布”的經典商業(yè)案例。這樣的經典案例是通過對海量的多類型數(shù)據(jù)收集和分析得到的。因此,圖書館要掌握讀者用戶、館員乃至社會服務群體等的信息,既要有當前通用的數(shù)據(jù)記錄中的個人身份、借閱記錄等結構化數(shù)據(jù),還要有存儲信息行為、搜索方式、行為痕跡等非傳統(tǒng)數(shù)據(jù),這些都需要通過基礎設施的建設來支持。除此之外,圖書館還必須解決數(shù)據(jù)計算和數(shù)據(jù)分析問題。要積極利用“云計算”技術,搭建圖書館的云計算平臺,解決圖書館自身海量數(shù)據(jù)的存儲及運算能力與大數(shù)據(jù)對存儲能力的高要求之間的矛盾。

(三)提高圖書館服務的智能化程度

篇2

城鎮(zhèn)土地調查數(shù)據(jù)庫的主要內容包括:土地權屬、土地登記、土地利用、基礎地理、影像等信息。城鎮(zhèn)土地調查數(shù)據(jù)庫建設的依據(jù)是《城鎮(zhèn)地籍調查規(guī)程》、《城鎮(zhèn)地籍數(shù)據(jù)庫標準》和二次調查相關技術標準、規(guī)范和辦法等,根據(jù)城鎮(zhèn)地籍測量、城鎮(zhèn)地籍調查和土地登記成果,建立了城鎮(zhèn)土地調查數(shù)據(jù)庫。①數(shù)據(jù)檢查。利用自主開發(fā)的MDIGS數(shù)字化系統(tǒng)對入庫前的地籍、地形圖、入庫基礎街坊圖內業(yè)數(shù)據(jù)進行100%的檢查,對檢查到的線型、符號等地形要素、數(shù)據(jù)字段屬性等錯誤自動或人工進行了及時改正,保證了入庫基礎數(shù)據(jù)的完整性、正確性。在數(shù)據(jù)庫內,利用ARCGIS9.3拓撲檢查工具、“城鎮(zhèn)地籍建庫管理軟件以及“ACCESS2003”數(shù)據(jù)庫工具,對所有錄入的地籍調查表主、子表項、勘丈數(shù)據(jù)、街坊面積、街坊數(shù)據(jù)圖等100%進行了嚴密地檢查。對檢查中發(fā)現(xiàn)的問題,由相關作業(yè)人員進行了更正。②數(shù)據(jù)入庫。借助數(shù)據(jù)庫管理系統(tǒng),將圖形和屬性數(shù)據(jù)轉入城鎮(zhèn)土地調查數(shù)據(jù)庫管理系統(tǒng)。③數(shù)據(jù)庫建設質量控制。對城鎮(zhèn)土地調查數(shù)據(jù)庫建設進行全過程質量控制,包括基礎數(shù)據(jù)源質量控制、環(huán)節(jié)質量控制、交接檢查、數(shù)據(jù)自檢、數(shù)據(jù)庫建設成果質量檢查。數(shù)據(jù)庫建設過程中重要的過程數(shù)據(jù)和質量控制記錄進行了保存,以保證數(shù)據(jù)質量的可追查性,確保數(shù)據(jù)安全。④統(tǒng)計數(shù)據(jù)輸出。經檢查合格后的入庫數(shù)據(jù),按《城鎮(zhèn)地籍調查規(guī)程》、二次調查的規(guī)定輸出各種統(tǒng)計報表。

2上交產品質量

根據(jù)對樣本圖幅綜合質量特性的檢測結果,無錫市錫山區(qū)第二次土地調查1:500城鎮(zhèn)土地調查(A標段)各項精度指標均需符合技術設計書和規(guī)范的要求,質量保證可靠。上交質量包括控制測量資料和城鎮(zhèn)土地調查質量,其中控制測量資料包括一二級導線觀測記錄手簿、一二級導線平差計算成果、圖根導線計算成果、一二級導線點點之記、埋石圖根點點之記、一二級導線點成果表、圖根點成果表、控制點展點圖、儀器鑒定資料;城鎮(zhèn)土地調查資料包括街道街坊分布圖、城鎮(zhèn)地籍調查表及相關資料、宗地界址點坐標及面積表、以街坊為單位的宗地面積匯總表、以街道為單位的土地分類面積匯總表、城鎮(zhèn)土地分類面積統(tǒng)計表、1:500分幅地籍圖接合表、宗地圖、新舊街坊對照表、新舊宗地號對照表。上交質量還應該包括數(shù)據(jù)建庫資料(宗地圖分幅地籍圖光盤、城鎮(zhèn)地籍數(shù)據(jù)庫)、專項調查統(tǒng)計資料(工業(yè)用地、基礎設施用地、金融商業(yè)服務用地、開發(fā)園區(qū)用地、房地產用地統(tǒng)計)、文檔資料(無錫市1:500城鎮(zhèn)土地調查技術設計書、技術總結檢查報告)。

3總結

篇3

1.1系統(tǒng)功能模塊設計經過對福州外語外貿學院科研管理的需求調查分析,對取得的信息進行仔細整理可以發(fā)現(xiàn),科研管理系統(tǒng)的主要任務可以劃分為機構管理、科研人員管理、科研項目管理、科研成果管理、報表打印管理、系統(tǒng)管理6個部分,各部分之間并非各個獨立,而是相互聯(lián)系。本研究正是據(jù)此設計,從而使本系統(tǒng)能夠很好地完成這些功能。具體功能結構如圖2所示。(1)機構管理:科研機構包括各學院、部處、機關單位等,所有的科研人員、成果、項目等都按照科研機構進行歸口管理。提供各科研機構的增加、刪除、修改與檢索。(2)科研人員管理:主要對學校參與科研工作的人員基本信息進行管理,提供人員信息的增加、刪除、修改與檢索。為其他模塊提供人員信息,是其他模塊的基礎。(3)科研成果管理:主要對科研論文、著作、成果等進行管理,提供成果信息的增加、刪除、修改與檢索。(4)科研項目管理:主要對已經立項后的項目進行管理,提供項目信息的增加、刪除、修改與檢索。可以對項目狀態(tài)進行編輯。(5)報表打印管理:可以打印部門成果報表、個人成果報表、成果分類統(tǒng)計表、院部處教師科研分統(tǒng)計表、申報項目表、立項項目表等報表的打印。(6)系統(tǒng)管理:用于對登錄用戶信息、密碼等進行維護。

1.2數(shù)據(jù)庫設計數(shù)據(jù)庫設計在軟件開發(fā)過程中是一個很重要的環(huán)節(jié),數(shù)據(jù)庫是任何系統(tǒng)都不可避免的。本研究在設計數(shù)據(jù)庫時盡量滿足第三范式,減少數(shù)據(jù)冗余,盡量設計比較精簡的數(shù)據(jù)庫。(1)人員信息表:有機構、人員編號、姓名、出生日期、性別、職稱、最后學歷、最后學位、學科、研究方向等字段。(2)科研成果信息表:有機構、成果編號、成果名稱、第一作者、成果來源、成果形式、出版單位、出版時間、刊號、關鍵字、成果字數(shù)等字段。(3)科研項目信息表:有機構、項目編號、項目名稱、項目來源、批準號、負責人、立項時間、完成時間、項目狀態(tài)、批準經費等字段。(4)管理員信息表:有用戶名稱、密碼。管理員登錄的時候要進行驗證,表單獲得的數(shù)據(jù)和數(shù)據(jù)庫中該表的數(shù)據(jù)對比如果成功,則登錄成功,否則,登錄失敗。對以上所有表的添加、刪除、修改、讀取等數(shù)據(jù)操作都設計相應的存儲過程來實現(xiàn)。

2系統(tǒng)實現(xiàn)

2.1系統(tǒng)用戶界面的設計用戶界面設計的要求是:(1)簡單清晰,一目了然,容易上手;(2)功能相似的頁面,采用統(tǒng)一的布局;(3)方便操作,盡量減少數(shù)據(jù)錄入量;(4)具有較好的錄入容錯功能。用戶工作界面由三層組成:上方是圖標欄;左下方為事務菜單;右下方為操作界面。頁面主要采用webForm來進行設計。如校級管理員用戶通過驗證后的登入界面。

2.2數(shù)據(jù)庫的實現(xiàn)本科研管理系統(tǒng)采用了三層結構的框架,將訪問數(shù)據(jù)庫的一些底層方法封裝在DBUtility這個類庫中,其中DbHelperSQL類和DbHelperSQLP類是連接數(shù)據(jù)庫字符串和一些公用的方法,如簡單的SQL語句,帶參數(shù)的SQL語句,存儲過程的操作等,DES-Encrypt類是數(shù)據(jù)庫的安全性,加密解密等操作。PubConstant類是動態(tài)的配置數(shù)據(jù)庫的連接字符串。

2.3配置web.config為了方便數(shù)據(jù)操作和維護,可以將一些數(shù)據(jù)庫連接配置參數(shù)放在web.config文件中,代碼如下。

2.4科研項目管理功能模塊的實現(xiàn)高校科研項目管理主要針對已通過審核的項目提供管理功能,能提供項目的信息,對項目實現(xiàn)增加、修改、查找等功能。點擊項目管理,可以出現(xiàn)項目一覽和新增項目兩個功能模塊。這時候點擊項目一覽,可以出現(xiàn)項目的一些基本信息,并且可以對其進行增加、修改、查找等相關操作。系統(tǒng)管理員有最高權限,可以查找全校的申報項目,可以模糊查找,有修改、刪除的權限,還可以導出所要的項目資料。以下是校級科研項目管理設計界面,如圖4所示。

3結束語

篇4

1.1BGP/MPLSVPN技術分析基于BGP與MPLS結合的第三層VPN在確保安全性的基礎上為解決骨干網絡的可擴展性問題提供了一種有效的技術手段。MPLS技術為IP骨干網提供了安全、高速的數(shù)據(jù)傳輸隧道以及流量工程控制的能力;而BGP則負責骨干網中的路由信息與控制信息的傳遞,通過BGP的擴展屬性實現(xiàn)VPN的地址與路由信息分離。

1.2路由設計技術分析路由設計是數(shù)據(jù)網建設中的核心問題,設計恰當與否直接影響到整個網絡的可靠性及效率。在建設骨干IP網中,選擇合適的路由協(xié)議非常重要,路由協(xié)議有域內路由和域間路由兩種基本類型。域間路由協(xié)議主要有邊界網關協(xié)議(BGP)和外部網關協(xié)議(EGP)等;域內路由協(xié)議主要有開放式最短路由優(yōu)先協(xié)議(OSPF)、中間系統(tǒng)路由選擇協(xié)議(IS-IS)和路由信息協(xié)議(RIP)/RIP2等。作為一個大型電力城域網的內部路由協(xié)議可供選擇的實際上有:靜態(tài)路由、RIP、EIGRP、OSPF和IS-IS。(1)由于EIGRP是Cisco專有協(xié)議,而不是標準、開放協(xié)議,考慮到系統(tǒng)的開放性與互連性,不建議選擇EIGRP。(2)RIP是較老的路由協(xié)議,加上它收斂慢,受Hop跳數(shù)限制,所以也不建議選擇。(3)IS-IS路由協(xié)議多用于ISP,企業(yè)用戶不熟悉,不建議選擇。(4)從MPLS草案及現(xiàn)實運行來看,如果要運行MPLS網絡,OSPF和IS-IS經常被選用做內部IGP,但是根據(jù)綜合業(yè)務數(shù)據(jù)網的規(guī)模和層次化結構,建議選擇OSPF+MPBGP作為主要的路由協(xié)議,其中OSPF路由協(xié)議作為骨干數(shù)據(jù)網連接路由協(xié)議,MPBGP用于MPLSVPN的實現(xiàn)。(5)靜態(tài)路由協(xié)議的優(yōu)點是配置簡單,效率高,缺點是不靈活。我們可以在局部情況下,例如MPLSPE和CE的連接中部分選擇靜態(tài)路由協(xié)議。

1.3QoS技術分析QoS指網絡提供服務的能力,包括專用帶寬、抖動控制和延遲(用于實時和交互式流量情形)、丟包率的改進以及不同WAN、LAN和MAN技術下的指定網絡流量等,同時確保為每種流量提供的優(yōu)先權不會阻礙其他流量的進程。QoS是網絡與用戶之間以及網絡上互相通信的用戶之間關于信息傳輸與共享的質的約定,例如,傳輸延遲允許時間、最小傳輸畫面失真度以及聲像同步等,是用來解決網絡延遲和阻塞等問題的一種技術。現(xiàn)在的路由器一般均支持QoS,當網絡過載或擁塞時,QoS能確保重要業(yè)務量不受延遲或丟棄,同時保證網絡的高效運行。

1.4IPv6技術分析IPv6被稱作下一代互聯(lián)網協(xié)議,它是由IETF設計的用來替代現(xiàn)行的IPv4的一種新IP。現(xiàn)在互聯(lián)網大多數(shù)應用的是IPv4,但IPv4面臨著地址匱乏等一系列問題。在IPv6的設計過程中除解決了地址短缺問題以外,還考慮了在IPv4中解決不好的其他一些問題,主要有端到端IP連接、QoS、安全性、多播、移動性、即插即用等。

二、安全體系建設內容

2.1MPLSVPN協(xié)議安全性遼寧電力綜合數(shù)據(jù)通信網承載了數(shù)10個重要業(yè)務,業(yè)務之間的安全和隔離成為首要安全設計目標,正是因為如此,遼寧電力綜合數(shù)據(jù)通信網使用MPLSVPN技術對網絡進行整合。MPLSVPN提供的業(yè)務之間的隔離性是邏輯性的,但是要想從一個業(yè)務VPN非法訪問另一個業(yè)務VPN基本不可能。在MPLSVPN中,業(yè)務隔離性是來自于每個業(yè)務VPN實例都有一個獨立的邏輯控制平面,這表明一個業(yè)務VPN實例并不能學習到另一個業(yè)務VPN的路由表。這樣的隔離性不僅可以確保VPN之間的獨立性,還可以確保任何一個業(yè)務VPN都不能訪問骨干網的全局路由空間(IGP),確保骨干網的安全。因此MPLSVPN在協(xié)議上即具備極高的安全性和可靠性。使用MPLSVPN技術對遼寧電力綜合數(shù)據(jù)通信網進行整合可確保遼寧電力各項重要業(yè)務的隔離性和安全性。

2.2數(shù)據(jù)鏈路層安全綜合數(shù)據(jù)通信網的本地接入層和邊緣接入層連接的網點、廠商網絡眾多,接口數(shù)量巨大,是進行安全防御的重點區(qū)域,而在本地接入層和邊緣接入層網絡中,數(shù)據(jù)鏈路層較容易出現(xiàn)安全問題。為了防范問題,遼寧電力綜合數(shù)據(jù)通信網部署了如下安全措施:對于所有的中繼端口使用專門的VLANID;避免使用VLAN1;將所有的業(yè)務接口設置為非中繼;為業(yè)務接口部署端口安全;部署ARP安全選項;啟用STP攻擊防御(BPDU防護及根防護);在不需要的地方禁用CDP;禁用所有未使用的端口,并將它們放入一個為使用的VLAN中;在需要的地方部署DHCP安全選項。

2.3IP地址安全遼寧電力綜合數(shù)據(jù)通信網在IP地址規(guī)劃充分考慮了安全控制,采取基于業(yè)務角色的子網劃分方法,并預留足夠的擴展空間。同時,也采用路由匯總的方法來提高路由效率以及管理效率。遼寧電力綜合數(shù)據(jù)通信網地址規(guī)劃使用RFC1918定義的私網地址,確保綜合數(shù)據(jù)通信網的地址空間獨立和安全。遼寧電力綜合數(shù)據(jù)通信網使用了MPLSVPN技術,在MPLSVPN中,VPN實例通過路由標識符RD(RouteDistinguisher)實現(xiàn)地址空間獨立,且MPLSVPN使用VPN-IPv4地址族,VPN-IPv4地址共有12個字節(jié),包括8Byte的路由標識符RD(RouteDistinguisher)和4Byte的IPv4地址前綴,如圖1所示。增加了RD的IPv4地址稱為VPN-IPv4地址,這樣PE從CE接收到普通IPv4路由后,轉換為VPN-IPv4路由,進行私網路由在公網上的傳輸。RD確保了MPLSVPN中的地址空間獨立性和安全性。

2.4預防DoS安全遼寧電力綜合數(shù)據(jù)通信網完善工程在省網骨干層以及地市匯聚層均增加了防火墻板卡以及入侵檢測板卡,可以有效預防DoS攻擊。防火墻板卡可以攔截TCPSYN泛洪等欺騙類DoS攻擊,可以通過限制會話數(shù)量以及設置會話超時來預防DoS攻擊。當入侵檢測板卡發(fā)現(xiàn)DoS攻擊時,還可以進行記錄并與防火墻聯(lián)動對攻擊進行攔截。另外,在重要的業(yè)務網絡邊緣上進行限速措施,防止DoS攻擊對業(yè)務網絡或骨干網絡造成嚴重影響。同時,在遼寧電力綜合數(shù)據(jù)通信網部署NetFlow管理,可以及時發(fā)現(xiàn)異常流量以及蠕蟲、DoS攻擊等威脅。

2.5訪問控制安排和部署(1)MPLSVPN策略設計使用MPLSVPN技術,在同一物理拓撲的基礎上,MPLSVPN能夠按照需求實現(xiàn)多種業(yè)務的隔離,并且管理和控制VPN的業(yè)務只是在數(shù)據(jù)上作相應配置,物理設備和鏈路都不用作改動,這樣為各VPN業(yè)務的管理和維護提供了很大的方便,具有很好的業(yè)務擴展性。BGP/MPLSIPVPN使用32位的BGP擴展團體屬性-VPNTarget(也稱為RouteTarget/RT)來控制VPN路由信息的。通過嚴格的RT規(guī)則控制,上述業(yè)務網絡之間做到了完全隔離,確保各業(yè)務網絡的運行安全。遼寧電力綜合數(shù)據(jù)通信網通過MPLSVPN部署,實現(xiàn)物理上多網合一、邏輯上各網絡隔離,滿足多種靈活的業(yè)務需求。(2)面向MPLSVPN的防火墻及入侵檢測系統(tǒng)設計及部署地市業(yè)務匯聚層設備連接了地市各類業(yè)務網絡,是綜合數(shù)據(jù)通信網的重要安全邊界,也是MPLSVPN的重要PE設備,本次新增防火墻板卡及入侵檢測板卡主要部署在此設備上。在省網骨干層以及地市匯聚層均增加了防火墻板卡以及入侵檢測板卡,在PE的邊界進行邏輯部署,對PE上每個業(yè)務VPN的進出流量都可以執(zhí)行訪問控制等防火墻功能,確保業(yè)務網絡以及綜合數(shù)據(jù)通信網骨干網的安全運行,部署方式如圖2所示。入侵檢測系統(tǒng)(IDSM-2)的邏輯部署位置在防火墻后側,靠近業(yè)務網絡CE。入侵監(jiān)控模塊本身沒有物理端口,通過多個GE和背板總線連接,可以同時監(jiān)控多個VLAN和VLANID,通過VLAN訪問控制列表VACL獲取功能來提供對數(shù)據(jù)流的訪問權限VACL。防火墻板卡(FWSM)與入侵檢測系統(tǒng)(IDSM-2)聯(lián)動部署。融合兩種技術發(fā)展趨勢的優(yōu)點,在單一設備中提供業(yè)界領先的安全保護;IDSM-2和FWSM防火墻模塊之間可以非常容易地實現(xiàn)互動,IDSM-2在監(jiān)測到網絡攻擊之后,可以直接控制FWSM防火墻模塊和CAT6K做出相應的安全防護動作,有效地防護網絡攻擊。

2.6網絡管理協(xié)議安全性在網絡管理協(xié)議安全性方面,本次工程采取了如下措施:通過全網安全加固,已全部禁用Telnet遠程訪問協(xié)議,并啟用SSHv2協(xié)議;Web管理協(xié)議已全部啟用HTTPs,禁用HTTP;網絡管理協(xié)議正在向SNMPv3遷移;禁用TFTP進行設備文件傳輸,從FTP向SFTP遷移;定期檢查設備的Syslog服務器配置來確保Syslog傳輸安全;只在網絡的關鍵點部署NetFlow,并避免長距離傳輸NetFlow數(shù)據(jù),通過NetFlow的正確部署,遼寧電力綜合數(shù)據(jù)通信網可以及時發(fā)現(xiàn)異常流量以及蠕蟲、DoS攻擊等威脅。

2.7重點業(yè)務保障對于重點業(yè)務,例如視頻會議、調度電話、95598用電服務、行政電話網絡、電能質量在線監(jiān)測等業(yè)務實現(xiàn)安全保護機制,網絡實時業(yè)務安全(監(jiān)控)機制。對各專項業(yè)務采取有效的安全保障管理,確保業(yè)務網絡數(shù)據(jù)傳輸質量,減少因個體業(yè)務分支的因素影響全部數(shù)據(jù)信通運行的風險。

2.8實時業(yè)務服務質量保障對重點保障業(yè)務,由使用單位提出最低保障帶寬,通過QoS保障技術確保數(shù)據(jù)傳送的安全。為了保障實時業(yè)務的服務質量,主要采取如下措施:實時業(yè)務流量抓取及分析;基于MPLSVPNQoS的實時業(yè)務服務質量保障;實時業(yè)務的QoS持續(xù)優(yōu)化。

三、項目創(chuàng)新點

在本次遼寧電力綜合數(shù)據(jù)通信網安全體系建設中進行了大量的技術創(chuàng)新,這些技術和管理方法上的創(chuàng)新形成了一個創(chuàng)新集合,為電力綜合數(shù)據(jù)通信網建設積累了大量的經驗和案例,本次完善工程中主要的技術創(chuàng)新點如下。(1)基于MPLSVPN的綜合數(shù)據(jù)網整合方案傳統(tǒng)的VPN構建使用永久虛電路(PVC)和隧道技術。隨著網絡連接范圍的不斷擴大,其可擴展性和管理問題日益突出。MPLS技術的出現(xiàn)使我們可以建設能夠支持多種業(yè)務級別并且能夠無限擴展的全互連IPVPN。(2)基于MPLSVPNQoS的實時業(yè)務服務質量保障MPLS實現(xiàn)了一種高效的流量工程機制。采用基于MPLSVPNQoS的實時業(yè)務服務質量保障解決方案能夠平衡網絡中的各種鏈接、路由器和交換機上的網絡匯集業(yè)務負載,使這些特定的單元不會被過分使用,也不會未被充分利用。這樣可以使網絡的運行更有效,并能提供更多可預測的業(yè)務。(3)面向MPLSVPN的防火墻及入侵檢測系統(tǒng)設計及部署,建立通道保障體系面向MPLSVPN的防火墻及入侵檢測系統(tǒng)在復雜網絡、多數(shù)據(jù)、多設備的情況下,通過該保障體系保障了實時業(yè)務、高保護業(yè)務的安全。(4)IPv6在綜合數(shù)據(jù)網中的應用遼寧電力公司是國網IPv6試點單位,率先在省公司和營口、渤海等地進行應用,在使用過程中驗證了IPv6的優(yōu)越性。

四、工作展望

篇5

環(huán)境監(jiān)測一般包括常規(guī)監(jiān)測和污染源監(jiān)測[6]。常規(guī)監(jiān)測的對象是大氣、噪聲、河流等,污染源監(jiān)測對象通常是一些工業(yè)單位,我國的工業(yè)單位眾多,單位之間有各不相同,給環(huán)境監(jiān)測工作帶來了更大的困難。大氣、河流、降水甚至噪聲都是環(huán)境監(jiān)測的內容,每一項檢測內容又有不同的監(jiān)測指標,此外還涉及到污染物的排放量、治理效果等,所以環(huán)境監(jiān)測工作量繁重。環(huán)境監(jiān)測工作關聯(lián)性較強,而且還是按照一定的順序進行的。環(huán)境監(jiān)測工作和其他的環(huán)保工作也相關聯(lián),因此環(huán)境監(jiān)測工作在滿足自身要求的同時,還需要同時滿足各項工作要求。必須建立健全環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng)。在進行數(shù)據(jù)統(tǒng)計分析工作時,必須按照要求生成格式化的標準報表與非標準報表。

二、環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng)

1、環(huán)境監(jiān)測模塊

該模塊的功能在于通過時間觸發(fā)器連續(xù)或間斷地對某地區(qū)環(huán)境條件下的污染物性質變化進行判斷,同時對污染物濃度發(fā)展情況、趨勢進行預測,通過預測分析污染物的變化趨勢及其可能性,判定環(huán)境問題、污染問題發(fā)生的結果。環(huán)境監(jiān)測通常是按照檢測目的劃分的,其中包括兩部分,即監(jiān)視性監(jiān)測、特定監(jiān)測。在系統(tǒng)設計過程中,應當參照監(jiān)測目的對相關模塊進行劃分,并在此基礎上確定監(jiān)視性監(jiān)測、特定監(jiān)測子系統(tǒng)。環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng),圍繞著空氣質量、水質質量以及廢棄物和噪聲進行常規(guī)性的監(jiān)測,從而實現(xiàn)數(shù)據(jù)管理、預測和統(tǒng)計分析,重點數(shù)據(jù)繪制環(huán)境質量圖過程中顯示出來,從而使其更加的直觀。其具體的功能結構設計如下圖所示。

2、排污申報與環(huán)境污染源管理模塊

環(huán)保法及相關法規(guī)規(guī)定的排污單位,一定要履行申報義務,排污申報是污染管理系統(tǒng)的一個非常重要的功能。對于該模塊而言,其包含如下功能:數(shù)據(jù)匯總,即對污染源數(shù)據(jù)進行及時的匯總,采取相關信息資料。數(shù)據(jù)查詢:根據(jù)排污單位、污染源對其進行查詢;數(shù)據(jù)管理,即排污申請?zhí)顚懀瑢ξ廴驹葱畔①Y料進行維護;數(shù)據(jù)分析,即針對性的對重點企業(yè)、污染源進行分析。在數(shù)據(jù)查詢功能設計過程中,查詢危險源以及排污企業(yè),并且基于GIS技術的應用在地圖上對排污企業(yè)的具置顯示出來;按單位名稱和污染源名稱對其進行查詢,并且按地區(qū)對污染源進行查詢。數(shù)據(jù)分析功能設計為:分析污染事故緩沖區(qū),對重點污染源進行分析,并且用圖表將其顯示出來;污染物歷年數(shù)據(jù)分析;地區(qū)污染物以及污染企業(yè)分析等。排污申報及污染源管理系統(tǒng)如下圖所示。

3、環(huán)境在線監(jiān)控模塊

監(jiān)控的主要內容是污染源排放在線監(jiān)控煙塵、污水(主要是COD、流量、TOC以及總磷和pH值等),同時還包括污染源噪聲。首先,系統(tǒng)登陸。客戶端管理軟件提供具體的授權訪問模式,以確保該系統(tǒng)管理的安全可靠性。授權用戶利用賬號、密碼登錄該數(shù)據(jù)管理系統(tǒng),并且用戶權限由管理員進行分配。比如,管理員可以進行建庫、控制、監(jiān)測以及其他高級功能;一般用戶則只能使用基本的系統(tǒng)功能,比如在線監(jiān)測和基本的圖表報表打印等。系統(tǒng)登錄過程中,先輸入用戶名、登錄密碼,然后驗證身份,進入該系統(tǒng)主界面。其次,系統(tǒng)界面。客戶端管理界面為XP風格界面,客戶端管理軟件所有功能均可通過在界面右側選擇任務欄目實現(xiàn),任務欄為可展開/收縮的風格控件,功能欄目為類Web風格的超級鏈接。界面中部為GIS地理信息系統(tǒng),GIS的主要功能通過GIS工具欄實現(xiàn)。界面右側還有若干窗口顯示即時消息、系統(tǒng)報警以及快速查看數(shù)據(jù)等功能。數(shù)據(jù)輸入:把各類污染物的監(jiān)測數(shù)據(jù)都存儲起來,構建成一個數(shù)據(jù)庫,這樣可以方便數(shù)據(jù)統(tǒng)計,也為技術人員的分析提供了數(shù)據(jù)基礎。通過先進的計算機技術,把這些數(shù)據(jù)都統(tǒng)一管理,然后按照監(jiān)測地點、監(jiān)測類型、監(jiān)測時間等信息,分類處理這些數(shù)據(jù),方便用戶選擇,使他們可以快速的掌握到想要了解的信息。此外,必須注意數(shù)據(jù)的存儲工作,多做一些備份,以免數(shù)據(jù)丟失,影響環(huán)境監(jiān)測工作不能正常的進行。數(shù)據(jù)修改:錄入環(huán)境監(jiān)測數(shù)據(jù)以后,管理人員要認真仔細的核對數(shù)據(jù),要及時的修改和更正以及刪除無效的數(shù)據(jù),確保數(shù)據(jù)的準確性[4]。數(shù)據(jù)修改有條件修改、當前記錄修改和替換修改的功能,這些功能的設置,可以方便管理人員快速、高效的進行修改工作,也能提高數(shù)據(jù)的準確性。數(shù)據(jù)備份:由于環(huán)境監(jiān)測數(shù)據(jù)眾多,而且是環(huán)境監(jiān)測分析工作的基礎,一旦丟失,就會給環(huán)境檢測部門帶來很大的損失,所以管理人員在管理數(shù)據(jù)的時候必須注意數(shù)據(jù)的備份工作,把數(shù)據(jù)存儲在不同的工具下,預防電腦崩潰使數(shù)據(jù)丟失。確保數(shù)據(jù)的安全性,保證環(huán)境監(jiān)測工作的順利進行。數(shù)據(jù)查詢。數(shù)據(jù)查詢可以幫助用戶很快的找到他們需要的數(shù)據(jù),使他們更好的進行環(huán)境監(jiān)測工作。在查詢數(shù)據(jù)的過程中,用戶可以設置條件,然后數(shù)據(jù)庫中相關的數(shù)據(jù)就會自動出現(xiàn),這樣可以減少查詢時間,提高查詢的效率,而且還能保證數(shù)據(jù)的準確性。數(shù)據(jù)輸出:數(shù)據(jù)輸出一般采用打印輸出、屏幕輸出[5]以及文件輸出三種輸出方法。打印輸出,顧名思義就是把數(shù)據(jù)報表通過打印機打印出來;屏幕輸出則是把數(shù)據(jù)制作成圖形和圖表的形式顯示在電腦屏幕上,供用戶查看,然后根據(jù)這些信息來分析環(huán)境狀況;文件輸出就是把環(huán)境監(jiān)測數(shù)據(jù)、分析結果通過不同的文件格式存儲在磁盤上,可供用戶下載查看。數(shù)據(jù)統(tǒng)計:數(shù)據(jù)庫中的數(shù)據(jù)一般只是環(huán)境監(jiān)測的原始數(shù)據(jù),可供用戶進行查看、統(tǒng)計分析,然后更好的進行環(huán)境保護工作。數(shù)據(jù)統(tǒng)計分為常規(guī)統(tǒng)計和選擇統(tǒng)計兩種。常規(guī)統(tǒng)計是按照報表的要求進行的,要計算監(jiān)測點以及區(qū)域的年、月、日均值等,然后保存。選擇統(tǒng)計則是按照用戶的定義條件進行的,靈活性較大。數(shù)據(jù)分析:數(shù)據(jù)分析是把數(shù)據(jù)轉化為圖形或者圖表的形式來展示數(shù)據(jù)信息,可以使用戶更加直觀、清晰的掌握環(huán)境的質量和變化情況,方便環(huán)境監(jiān)測部門快速、高效的處理環(huán)境問題,更好的服務環(huán)境保護工作。

4、環(huán)境監(jiān)測部門的職能

建立環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng)是為了更好的管理環(huán)境監(jiān)測的數(shù)據(jù),為了使環(huán)境監(jiān)測部門管理人員可以準確、快捷的掌握環(huán)境質量信息,因此必須要符合環(huán)境監(jiān)測部門的工作要求,提高工作人員的管理水平,滿足環(huán)境信息化的需求,做好環(huán)保工作。環(huán)境監(jiān)測主要是監(jiān)測污染源以及常規(guī)的監(jiān)測,做好了這兩種工作才能保證我國環(huán)境污染狀況不再加劇。常規(guī)監(jiān)測是一項銜接性很強的工作,需要經過一系列的過程:現(xiàn)場采樣,樣品登記,分析實驗等等,最后通過審核簽字才能生成分析報表。在進行常規(guī)監(jiān)測工作的時候,一定要有序進行[3],這樣才能保證分析報表的準確性。污染源監(jiān)測也是一項非常繁瑣的工作,進行污染源監(jiān)測工作時首先要委托登記,其次分配任務,然后按照現(xiàn)場采樣、樣品登記等的順序進行監(jiān)測工作。現(xiàn)階段我國已經控制了污染源的排放量,只有減少污染源的排放,我國的環(huán)境質量才能得到徹底的改善。

三、結語

篇6

要了解Web數(shù)據(jù)挖掘技術,首先就必須要了解數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘是指從大量不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識的過程。它的表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷。數(shù)據(jù)挖掘技術是人們長期對數(shù)據(jù)庫技術進行研究和開發(fā)的結果。起初各種商業(yè)數(shù)據(jù)是存儲在計算機的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進行查詢和訪問,進而發(fā)展到對數(shù)據(jù)庫的即時遍歷。Web數(shù)據(jù)挖掘是一種綜合的技術,它主要是使用數(shù)據(jù)挖掘技術在互聯(lián)網挖掘各種有用的、有趣的、隱藏起來的信息或者是有用的模式。與傳統(tǒng)的數(shù)據(jù)挖掘相比,Web數(shù)據(jù)挖掘所挖掘的信息更加的海量,這些信息具有異構和分布廣的特點。對于服務器上的日志與用戶信息的挖掘仍然屬于傳統(tǒng)的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘由于Web的邏輯結構其所挖掘到的模式有可能是關于Web內容的,也有可能是關于Web結構的。同時有些數(shù)據(jù)挖掘技術也不能直接運用到Web數(shù)據(jù)挖掘中。Web數(shù)據(jù)挖掘的研究范圍十分廣泛,它的研究主要包括了數(shù)據(jù)庫技術、信息獲取技術、統(tǒng)計學、神經網絡等。Web數(shù)據(jù)挖掘根據(jù)所處理的對象可以分為三類:Web文檔的內容挖掘、Web文檔的結構挖掘、Web使用的挖掘。Web文檔的內容挖掘指的是從Web文檔及對其的描述內容中獲取到有用的信息,即是對Web上大量的各種文檔集合的內容進行處理,例如摘要、分類、聚類、關聯(lián)分析等。同時內容挖掘還可以對各種多媒體信息進行挖掘。Web上的內容摘要是用簡潔的語言和方式對文檔的內容進行描述和解釋,讓用戶在不用瀏覽全文的情況下就可以對全文的內容和文章寫作的目的有一個總體的了解。文章寫作的目的有一個總體的了解。而Web內容挖掘的這種方式非常有用,例如應用到檢索結果的顯示中。Web分類則指的是根據(jù)已經確定好的類別,為每一個獲得的Web文檔確定一個大類。聚類則是指的在沒有確定類別之前,將相似度高的文檔歸為一類。關聯(lián)分析指的是從文檔集合中找出不同語詞之間的具有的關系。Web文檔的結構挖掘指的是從互聯(lián)網的整體結構和網頁之間的相互鏈接以及網頁本身的結構中獲取有用的信息和知識。目前為止針對結構的挖掘主要還是鏈式結構模式。對于Web結構的挖掘主要源于對引文的分析,引文分析的主要內容就是通過對網頁的鏈接數(shù)和被連接數(shù)以及對象的分析來建立一個鏈接結構模式,這種模式可以用來對網頁進行歸類,同時還可以獲取網頁之間的相似度和關聯(lián)度等信息。Web使用的挖掘一般情況下指的是對Web日志的挖掘。其挖掘的對象是用戶與互聯(lián)網交互過程中所抽取出來的各種信息,例如訪問記錄、用戶名、用戶注冊信息以及用戶所進行的操作等。在這一方面的研究已經比較成熟,同時也有很多較為成熟的產品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技術較為成熟的產品。

二、Web數(shù)據(jù)挖掘技術的工作流程

Web數(shù)據(jù)挖掘技術的主要工作流程可以分為以下幾個步驟:第一步,確立目標樣本,這一步是用戶選取目標文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標樣本的詞頻分布,從現(xiàn)有的統(tǒng)計詞典中獲取所要挖掘的目標的特征向量,并計算出其相應的權值;第三步,從網絡上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點的網絡數(shù)據(jù)庫中的動態(tài)信息,然后生成WWW資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。

三、Web數(shù)據(jù)挖掘技術在高校數(shù)字圖書館中的應用

高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻等數(shù)字資源;圖書借閱、歸還等服務;圖書信息、管理制度;導航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時常登錄到網站中查找其需要的信息,根據(jù)師生所學專業(yè)、研究方向不同,關注目標也不同。通常這類師生會到常用的圖書館網站上,查找自己所需要的特定領域的資源;瀏覽一下有哪些內容發(fā)生變化,是否有新知識增加,而且所有改變常常是用戶所關注的內容;另外,當目標網頁所在的位置有所改變或這個網站的組織結構、層次關系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內容。本課題采用Web挖掘技術與搜索技術相結合。首先允許用戶對感興趣的內容進行定制,構造數(shù)據(jù)挖掘的先驗知識,然后通過構造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個性化服務頁面,并提供用戶對站內信息進行搜索功能,同時可以滿足師生對于圖書館資源進行查找訪問的需求,實現(xiàn)高校圖書館網站資源真正意義上的個性化服務。

1、為開發(fā)網絡信息資源提供了工具

數(shù)字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠對信息進行深層的加工管理,提供多層次的、智能化的信息服務和全方位的知識服務,提供經過加工、分析綜合等處理的高附加值的信息產品和知識產品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對數(shù)據(jù)只能進行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網絡信息資源的一種浪費。而通過Web數(shù)據(jù)挖掘技術科研有效的解決這一問題。這種技術可以用于挖掘文檔的隱含的有用的內容,或者可以在其他工具搜索的基礎上進一步進行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術科研對數(shù)字圖書關注中的信息進行更加有效地整合。

2、為以用戶為中心的服務提供幫助

通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務器中用戶請求失敗的數(shù)據(jù),結合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導對信息資源采集的改進,讓高校數(shù)字圖書館的信息資源體系建設的更加合理。對數(shù)字圖書館系統(tǒng)的在線調查、留言簿、薦書條等的數(shù)據(jù)進行收集整理,并使之轉化為標準的結構化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時還可以預先發(fā)現(xiàn)用戶群體興趣的變遷,調整館藏方向,提前做好信息資源的采集計劃。通過Web數(shù)據(jù)挖掘,可以對用戶的信息需求和行為規(guī)律進行總結,從而為優(yōu)化網絡站點的結構提供參考,還可以適當各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調整站點結構,并在適當處加上廣告或薦書條。

3、Web數(shù)據(jù)挖掘技術在圖書館采訪工作中的應用

在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務質量產生影響。通常情況圖書館的工作人員會根據(jù)圖書館的性質、服務對象及其任務來決定采訪的內容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現(xiàn)應該購進的文獻沒有買,不應該買的文獻卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數(shù)據(jù)進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學合理的分析報告和預測報告。根據(jù)對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應該及時的進行補充,哪些文獻應該進行剔除,對館藏機構進行優(yōu)化,真正的為高校里的師生提供所需要的文獻和資料。

4、使用Web數(shù)據(jù)挖掘技術提供個性化服務

傳統(tǒng)的信息檢索工具在友好型、可理解性、交互性方面都存在著很大的缺陷。通常情況下都只是將各種查詢結果毫無邏輯的簡單的進行羅列,用戶很難從其中獲取自己需要的信息,通過數(shù)據(jù)挖掘,可以對圖書館網站上的在線調查、留言簿、讀者調查表等數(shù)據(jù)進行收集整理,對不需要的冗余信息進行剔除。通過分析可以獲知用戶所喜好的瀏覽模式是哪種,他們常訪問的網站的路徑是什么,他們對圖書館中的那些資源比較有興趣。然后再根據(jù)用戶的普遍需求與每個人的個性需求,建立起相應的規(guī)則,從而幫助網站設計人員對網站進行設計和優(yōu)化,使得這些信息檢索變得更加的個性化、智能化,并根據(jù)每個用戶的偏好等特征將檢索到的信息排列處理,使得讀者可以用最快的速度獲得想要檢索的文獻信息。通過Web數(shù)據(jù)挖掘技術可以對用戶的特征信息進行總結,將那些從沒有發(fā)出過信息的潛在用戶進行歸類,同時還可以免費的為他們提供各種他們所感興趣的信息和資料,把這些潛在的用戶轉變?yōu)檎降挠脩羰褂肳eb數(shù)據(jù)挖掘可以對用戶的檢索日志進行分析,從而得知用戶所感興趣的內容、他們的研究方向,并根據(jù)這些內容為用戶指定個性化服務的內容,為用戶提供各種他們所感興趣的各種信息。

篇7

我國大部分醫(yī)院的倉庫管理工作都是基于其醫(yī)療設備管理信息系統(tǒng)的。這些系統(tǒng)大部分都是由PB語言編程的,數(shù)據(jù)庫應用的是Oragcle數(shù)據(jù)庫系統(tǒng)。應用了數(shù)據(jù)信息技術的系統(tǒng)軟件可以準確地記錄了醫(yī)院材料入庫、出庫等業(yè)務,并可以更規(guī)范的對醫(yī)院的庫存進行清單查詢、財務查詢以及對賬等查詢工作,也可以根據(jù)其來出具更加準確的季度收支和財務報表和明細表。目前,信息技術在我國醫(yī)院倉庫管理中的應用已經比較廣泛。我國很多醫(yī)院都通過構建高速的以太網,來部署高質量的無線網絡以及一些移動應用軟件,通過這些硬件設備來構建移動庫房管理系統(tǒng)。并通過管理信息系統(tǒng)來做到醫(yī)院倉庫庫存減少,耗材量也有所降低,使醫(yī)院的倉庫管理由過去的倉儲模式轉變成為了現(xiàn)代物流的倉庫管理模式。醫(yī)院倉庫管理信息技術系統(tǒng)構建的整體思路是利用信息條形碼、無線網絡、以及智能計算、移動技術以及RFID等技術,來將醫(yī)院的材料通過完全流程從進貨、入庫、登記、收費、使用等完整的工作管理環(huán)節(jié)來嚴格的控制和管理。通過數(shù)據(jù)信息技術,我國醫(yī)院已經取得了更好的成績,完善了醫(yī)院的物資管理質量,也同時提升了我國醫(yī)院的經濟效益和服務質量。

(一)數(shù)據(jù)信息技術系統(tǒng)的構成數(shù)據(jù)信息技術系統(tǒng)的構成是由MC50、RFID以及一些其他數(shù)據(jù)采集終端和無線網絡聯(lián)合構成的。通過這些技術與醫(yī)院倉庫后臺服務器進行實時交互。醫(yī)院倉庫應用有線網絡對數(shù)據(jù)庫的信息進行查詢以及錄入,并實現(xiàn)數(shù)據(jù)的共享和交互,保持醫(yī)療信息數(shù)據(jù)的同步。

(二)數(shù)據(jù)信息技術系統(tǒng)的功能模塊數(shù)據(jù)信息技術系統(tǒng)的功能模塊主要包括醫(yī)院倉庫的采購管理模塊、入庫管理模塊、出庫管理模塊、庫存管理模塊、會計管理模塊以及物資質量管理模塊。

(三)數(shù)據(jù)信息技術系統(tǒng)的工作流程數(shù)據(jù)信息技術系統(tǒng)的工作流程是比較明確的。當材料進入醫(yī)院的倉庫時,材料物品一定要貼上條碼或者RFID等信息化標簽,并在后臺映射與其對應的數(shù)據(jù)。醫(yī)院倉庫管理工作人員應該持手持終端接入無線網絡,通過網上申領,填寫醫(yī)院倉庫領用物品名稱、數(shù)量以及信息。醫(yī)院倉庫管理的工作人員通過PC上查看科室領用計劃,并根據(jù)這個領用計劃來準備材料。醫(yī)療材料出庫之后,應該將領用的物品保存在智能耗材柜中。

二、數(shù)據(jù)信息技術為醫(yī)院倉庫管理帶來的效益分析

篇8

使用秘密共享技術可利用多個數(shù)據(jù)中心形成低成本的醫(yī)療數(shù)據(jù)云,實現(xiàn)云計算時代的數(shù)據(jù)管理要求,即不需要自己保管關鍵數(shù)據(jù),有安全的地方保存關鍵數(shù)據(jù),任何地點、任何時間可使用數(shù)據(jù),僅合法用戶可訪問數(shù)據(jù),降低初始投資和運營成本,確保業(yè)務的持續(xù)性。秘密共享也是一種加密技術。以Shamir[1]的(k,n)門限秘密共享方案為例,其原理是將秘密消息加密并分割成n個分享份額后分布存儲到不同的遠程數(shù)據(jù)中心,多個數(shù)據(jù)中心構成低成本的醫(yī)療數(shù)據(jù)云。每個數(shù)據(jù)中心存放的單個分享份額看起來毫無意義,傳輸和存儲不再需要額外的機密性保護,秘密只能從不同數(shù)據(jù)中心收集滿任意k個組成的授權子集中得以恢復,而對于不足k個分享份額的非授權子集,即使擁有無限計算能力和無限大的存儲器也無法恢復秘密,因為秘密共享技術的安全性不像傳統(tǒng)加密技術那樣基于復雜的計算,而是基于信息理論,所以可保證秘密的長期安全性,目前主要用于安全要求較高的密鑰管理方面。此外,n個分享份額具有冗余性,即使任意(n-k)個分享份額遭到損壞或因網絡故障不能獲取,也能從其余的k個分享份額中恢復出秘密,這可保證業(yè)務的持續(xù)性。秘密共享方案可以是完美的,也可以是不完美的。(k,n)門限方案具有完美的安全性,即少于門限值k個的分享份額得不到原始消息的任何信息,完美方案的缺點是每個分享份額的長度≥原始消息的長度,即所有分享份額的總容量≥原始消息的n倍,如果用于數(shù)據(jù)量很少的密鑰共享是沒有問題,目前實際應用的幾乎都是完美秘密共享方案,但對于數(shù)據(jù)量較大的醫(yī)療數(shù)據(jù)管理來說,效率和安全一樣重要。

二、提高秘密共享技術的效率

要提高秘密共享技術的效率首先可從算法入手,目前典型的秘密共享算法是Shamir[1]的多項式插值法,這種算法的優(yōu)點是不管(k,n)門限方案中k和n取什么值,都能用通用的公式實現(xiàn)加密和解密。有作者提出了(k,n)門限方案的異或運算方法[2-4],異或運算的效率要比多項式插值法高很多,這種方法沒有通用的加密或解密公式,不同的k和n取值,需設計不同的加密和解密方法,這使得加密和解密方法也成了秘密的一部分,雖然通用性不高,但安全性更高。Yamamoto[5]提出的(k,L,n)秘密共享方案可大幅減少計算量和傳輸量,該方案被設計成1個原始消息s可從n個分享份額中的任意k個分享份額獲得重構,從任何(k-L)個或更少的分享份額中得不到原始消息的任何信息,但可能會從(K-j)(其中,j=1,2,…,L-1)個分享份額組成的跳板(Ramp)集合中獲得一點兒有關原始消息的信息,由于該方案可能會犧牲一點安全性,所以被稱為不完美的秘密共享。但根據(jù)對已有(k,L,n)方案的具體算法的研究發(fā)現(xiàn),Ramp集合的不安全性是可以避免和消除的。此方案的優(yōu)點是:每個分享份額的位長是原始消息長度的1/L,所有分享份額的總容量降為原始消息的n/L,這將使計算量和傳輸量比(k,n)方案降低大約L倍。(k,L,n)方案的概念自提出以來,根據(jù)廣泛的國內外文獻檢索結果顯示,目前國際上實際的應用案例還非常少,迄今還沒發(fā)現(xiàn)任何醫(yī)院使用這項技術進行數(shù)據(jù)安全管理。

三、秘密共享服務軟件

我們開發(fā)了秘密共享服務測試軟件,使用了異或運算的(3,2,4)Ramp秘密共享技術,發(fā)現(xiàn)該技術完全可勝任大容量醫(yī)療數(shù)據(jù)的分布式存儲。該秘密共享服務軟件可為用戶提供遠程備份、遠程訪問、共享與交換等醫(yī)療數(shù)據(jù)的安全管理功能。用戶通過常規(guī)方式在指定文件夾中存儲1個文件,該文件就會被自動加密并分割成4個子文件,子文件又被分布存儲到4個數(shù)據(jù)中心,每個數(shù)據(jù)中心存放的單個子文件毫無意義。用戶隨時隨地再次登錄并打開文件時,秘密共享服務軟件又自動從不同的遠程數(shù)據(jù)中心收集任意3個子文件,恢復出原始文件,同時相關聯(lián)的應用程序會自動開啟,文件又可被編輯和瀏覽。任何一個子文件遭破壞或因網絡故障無法獲取,也不會影響文件的恢復。將秘密共享服務軟件用于醫(yī)療數(shù)據(jù)的遠程備份可兼顧安全性和冗余性,從而保證業(yè)務的持續(xù)性;用于遠程訪問可使遠程工作者無需隨身攜帶數(shù)據(jù),隨時隨地通過賬號遠程登錄秘密共享服務文件夾抽取數(shù)據(jù);通過多用戶共享1個秘密共享文件夾可為多用戶或多機構的醫(yī)療數(shù)據(jù)交換與共享提供多一種選擇。

四、秘密共享方案的優(yōu)勢

篇9

科學工作流中的任務之間的依賴既包含控制依賴,也包含數(shù)據(jù)依賴。連接兩個任務(t1-t2)的邊表示任務t1的輸出作為任務t2的輸入,工作流中的每個任務可能讀入一個或多個輸入文件,然后寫入一個或多個輸出文件。在工作流層,文件可以分為3種類型:輸入文件、中間文件和輸出文件。不同類型的文件具有不同的生命周期。(1)輸入文件。輸入文件不由工作流中的任務產生,文件通常駐留在用戶存儲服務器上。在運行時,可以從一個存儲服務器傳送到另一個存儲服務器,然后在這里被檢索,也可以在存儲服務器上直接檢索。圖1中的F-input就是一個輸入文件[10]。(2)中間文件。在工作流運行過程中產生但無需長期保存的文件稱為中間文件,將在所有使用它的任務結束后被立即刪除。圖1中的f-t1-o1、f-t1-o2、f-t2-o1、f-t2-o2都是中間文件。(3)輸出文件,由工作流產生,對用戶有用并且在工作流結束后需要永久保存的文件。在工作流執(zhí)行過程中,這些文件通常被轉移到常駐存儲中。圖1中的F-output就是工作流的輸出文件。值得注意的是,輸出文件不一定必須是工作流中最后任務的輸出,也可能是中間環(huán)節(jié)任務的輸出數(shù)據(jù)。

2云計算環(huán)境下工作流執(zhí)行模型

科學工作流由工作流管理系統(tǒng)提交和管理,工作流管理系統(tǒng)駐留在提交主機,協(xié)調調度工作的流執(zhí)行。工作流管理系統(tǒng)將工作流中的任務分配到虛擬機的工作節(jié)點,任務的執(zhí)行所需要的數(shù)據(jù)可以從一個或多個輸入數(shù)據(jù)存儲點輸入。中間文件在工作流執(zhí)行期間駐留在數(shù)據(jù)暫存站點。當工作流結束時,工作流管理系統(tǒng)刪除中間數(shù)據(jù),同時將輸出文件從暫存站點轉存到輸出站點,然后永久性保存。根據(jù)工作流管理系統(tǒng)和目標執(zhí)行環(huán)境的不同,多個數(shù)據(jù)站點可以協(xié)同工作。例如,在輸入數(shù)據(jù)已經駐留在計算節(jié)點的情況下,該計算節(jié)點和輸入點是相同的。圖2顯示了具有兩個任務的工作流,來說明工作流所需的文件是如何在邏輯上獨立的站點之間移動的。

3對象存儲應用于科學工作流中的數(shù)據(jù)管理

對象存儲系統(tǒng)主要包括存儲服務器、元數(shù)據(jù)服務器、客戶端等組成部分,其核心思想是將數(shù)據(jù)的讀和寫與元數(shù)據(jù)存儲分離,如圖3所示。存儲服務器主要負責數(shù)據(jù)存儲、智能的數(shù)據(jù)分布以及每個對象元數(shù)據(jù)的管理;元數(shù)據(jù)服務器主要提供對象存儲訪問、文件和目錄訪問管理以及客戶端緩存的一致性管理等功能。為了提供可擴展的可靠服務,對象存儲器的內部結構非常復雜。例如,亞馬遜的簡單存儲服務(S3)[12]通過REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供檢索和刪除操作;它將一個對象的多個副本布局在存儲服務器上以提供錯誤情況下的冗余。很多網格存儲服務和為數(shù)據(jù)密集型應用設計的協(xié)議可以認為是對象存儲,這種架構對構建來自不同的執(zhí)行環(huán)境的數(shù)據(jù)管理模式而言具有重要的借鑒意義。針對面向大數(shù)據(jù)工作流,利用對象存儲的優(yōu)點,本文提出兩個方案:一是工作流中的3類數(shù)據(jù)文件都使用遠程的對象存儲;二是在計算節(jié)點上使用共享文件系統(tǒng)作為數(shù)據(jù)暫存點來存儲中間數(shù)據(jù)。

3.1單獨使用對象存儲

在這種情況下,所有的數(shù)據(jù)都存儲在對象存儲系統(tǒng)中,工作流管理系統(tǒng)需要從對象存儲中無縫檢索數(shù)據(jù),為本地工作流任務使用。在這樣的設置中,工作流管理系統(tǒng)從對象存儲中檢索輸入文件和中間文件,然后,工作流中的任務對本地的POSIX文件系統(tǒng)做必要的輸入/輸出設置,任務完成時,工作流管理系統(tǒng)能夠將中間數(shù)據(jù)和輸出數(shù)據(jù)存儲到對象存儲中。這樣,即使工作流被部署在分布的資源上,科學應用只需要對POSIX做常規(guī)的輸入/輸出設置,就能完成工作流的執(zhí)行。工作流管理系統(tǒng)與對象存儲的多次交互增加了工作流執(zhí)行的開銷,而該開銷與分布資源上的計算相比并不算大。對象存儲中既有輸入數(shù)據(jù)也有中間數(shù)據(jù),只要工作流系統(tǒng)與對象存儲能夠無縫檢索和存儲,那么任務執(zhí)行可以在任何地方。如圖4中,任務t1可以在校園計算機集群上完成,而屬于同一工作流的任務t2可以在亞馬遜的EC2上完成,t1、t2使用亞馬遜的S3對象存儲作為中間數(shù)據(jù)文件的暫存。總之,數(shù)據(jù)存儲和執(zhí)行環(huán)境的分離,使得工作流在分布資源上的執(zhí)行更為容易。一個常見的情況是,當計算需求超過本地或校園計算所提供的資源時,將使用云資源。圖4也說明了工作流的數(shù)據(jù)移動情況。在這里,文件F-i被傳送到云中的高性能計算集群工作節(jié)點的本地文件系統(tǒng)。任務t1從該節(jié)點開始,讀入輸入文件F-i,然后寫入本地文件系統(tǒng)的中間文件F-t,F(xiàn)-t被傳回到作為數(shù)據(jù)暫存點的對象存儲中。F-t文件將從對象存儲中被檢索進入到EC2節(jié)點的本地文件系統(tǒng)。任務t2啟動后讀取F-t文件(該文件是由t1創(chuàng)建),然后將F-o寫到本地磁盤,再傳送到對象存儲中。以上所有的數(shù)據(jù)傳輸工作都由工作流管理系統(tǒng)完成。科學工作流中單獨使用對象存儲的明顯不足之處是,數(shù)據(jù)重復傳輸會引起在大數(shù)據(jù)處理過程中的延遲。工作流中的多個任務使用相同的文件,所以重復傳輸是顯而易見的[13][14]。對象存儲將對同一資源的重復請求認為是不同的請求,對象存儲通常以其良好的擴展性減輕這種重復對工作流性能造成的影響。另外,工作流系統(tǒng)可能在本地節(jié)點選擇緩存文件,或者利用集群中的共享文件系統(tǒng)來減輕此問題。延遲是整個工作流性能應該關注的問題,云對象存儲的設計提供了很高的帶寬,但對單個檢索或對象操作可能需要數(shù)秒鐘的延遲。對具有大量文件的數(shù)據(jù)密集型的科學工作流而言,這種延遲顯著增加了工作流運行的時間開銷。大型工作流中的另一個問題是多數(shù)中間文件需要被傳輸?shù)綄ο蟠鎯χ杏上嚓P后續(xù)任務檢索并使用。由于商業(yè)對象存儲提供以GB為單位的存儲,并按遷移、存儲和檢索的請求數(shù)付費,所以重復傳輸也就意味著費用的增加。

3.2共享文件系統(tǒng)作為數(shù)據(jù)暫存

解決由數(shù)據(jù)重復遷移造成的延遲問題的方法之一,是工作流管理系統(tǒng)將中間文件暫存在POSIX兼容系統(tǒng)中,由多個計算節(jié)點文件系統(tǒng)共享,然后在一個資源節(jié)點上運行所有的計算。文件共享系統(tǒng)保存了工作流管理系統(tǒng)中所有任務的中間數(shù)據(jù),在這種情況下,只有輸入輸出文件存儲在對象存儲中。由于中間文件不需要在對象存儲與計算節(jié)點之間傳送,從而可降低使用商業(yè)云對象存儲的費用。如圖5所示,是一個具有文件共享系統(tǒng)的高性能計算環(huán)境下具有2個任務的簡單工作流。文件F-i被工作流管理系統(tǒng)傳送到集群文件共享文件系統(tǒng)。任務t1在計算節(jié)點1上啟動,從共享文件系統(tǒng)中讀入文件F-i,然后將中間文件F-i-t寫入到共享文件系統(tǒng)中,任務t2在計算節(jié)點2上啟動,從文件共享系統(tǒng)中讀入F-i-t(由任務t1創(chuàng)建),然后將其輸出寫入到F-o,F(xiàn)-o由工作流管理系統(tǒng)送到對象存儲中,這種方法的優(yōu)點在傳統(tǒng)的有高速并行超級計算環(huán)境中尤為顯著。例如,XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)節(jié)點對多數(shù)科學工作流點有極大擴展性[15]。值得注意的是,如果第一個計算節(jié)點忙而需要將計算溢出到另一個節(jié)點時,這種隨數(shù)據(jù)布局任務的方法,損失了布局計算的靈活性。以上兩種方法各有所長,選擇使用哪種方法取決于工作流的類型和工作流執(zhí)行的目標環(huán)境,這就要求工作流管理系統(tǒng)的開發(fā)具有彈性的數(shù)據(jù)管理方案,允許科學家有效使用對他們有用的基礎設施。工作流中的數(shù)據(jù)管理方案應該具有如下特征:首先,科學工作流管理系統(tǒng)允許任務和數(shù)據(jù)后綁定,任務依據(jù)資源的可用性映射到計算資源上,任務在執(zhí)行時能夠發(fā)現(xiàn)資源,并從眾多存儲中選擇數(shù)據(jù)暫存位置;其次,在科學家只有一個計算資源可用的情況下,允許任務和數(shù)據(jù)的靜態(tài)綁定;再次,支持使用不同協(xié)議和不同安全機制訪問對象存儲。

4相關工作

工作流管理系統(tǒng)處理數(shù)據(jù)的方法很多,Swift[16]采用與本文所描述的第二種模式類似,使用本地文件系統(tǒng)或共享文件系統(tǒng)作為數(shù)據(jù)緩存,提交主機扮演數(shù)據(jù)暫存的角色。系統(tǒng)首先選擇一個計算站點來運行一個任務,然后將數(shù)據(jù)從提交主機推向該站點的文件系統(tǒng),任務執(zhí)行后,輸入的文件被回傳給提交主機,中間文件被留在共享文件系統(tǒng)中以便后續(xù)任務的執(zhí)行。相對而言,本文將數(shù)據(jù)文件(包括輸入、輸出、中間文件)與提交主機分離,并使用不同的協(xié)議,具有更好的靈活性。其他工作流管理系統(tǒng)如Kepler[17],Triana[18]和Taverna[19]關注的是流式工作流中任務的調度和其他Web資源的調用,這些工作流具有圖形化的用戶界面,允許用戶搭建具有不同部件的工作流,但通常沒有涉及訪問大量數(shù)據(jù)集的問題。這些工作流中的數(shù)據(jù)管理很大程度上依賴于用戶,數(shù)據(jù)管理自動化非常有限。Kepler[20]引入了一個MapReduce執(zhí)行器,允許執(zhí)行采用MapReduce算法的混合工作流。Hadoop平臺通常用來運行數(shù)據(jù)密集型的科學應用,它所提供的文件操作與POSIX類似,允許隨機讀,但不允許隨機寫。在這種情況下,Hadoop平臺負責將輸入文件切片并分布在各個數(shù)據(jù)節(jié)點。而本文提出的方法主要針對工作流運行在多個不同的執(zhí)行環(huán)境中,代碼不能MapReduce的情況。在XSEDE中,任務利用分布式文件系統(tǒng)如GPFS-WAN[21](GeneralParallelFileSystem-WAN)來訪問數(shù)據(jù),分布式文件系統(tǒng)支持POSIX操作,可以對輸入和輸出文件進行遠程訪問。研究表明[22],將大型數(shù)據(jù)集布局在本地計算節(jié)點會更好,但這一策略也會帶來新的問題,如不同類型工作流的融合以及數(shù)據(jù)布局策略算法等。

5總結

篇10

1 大數(shù)據(jù)采集    

大數(shù)據(jù)采集是大數(shù)據(jù)能力的基礎,培養(yǎng)學生快速準確全面獲取數(shù)據(jù)的能力是大數(shù)據(jù)分析技能的起點。企業(yè)各種原始憑證、記賬憑證、賬簿、報表等會計資料信息采集,包括傳統(tǒng)紙質材料和電商電子材料等信息的采集,因為相對工整規(guī)范,采集難度不大;培養(yǎng)學生對企業(yè)自有數(shù)據(jù)倉庫數(shù)據(jù)抽取導出能力,將充分發(fā)揮企業(yè)歷年數(shù)據(jù)作用。    

同時,企業(yè)不僅要采集企業(yè)內部核算資料,還要進行管理活動需要采集原材料價格、市場前景、同類產品銷售情況等外部數(shù)據(jù)資料,這些資料有公開的如鋼鐵價格、原油價格等,也有不公開的某企業(yè)某產品銷售情況,所以通過大數(shù)據(jù)的手段在獲取某類產品、某些特點產品的銷售情況,或者購買參考公共銷售情況數(shù)據(jù),需要培養(yǎng)學生爬取數(shù)據(jù)的能力。    

例如,利用八爪魚進行淘寶、天貓、京東等網站商品檢索結果抓取或者商品詳情內頁資料進行抓取,也可以自行設計或者購買規(guī)則進行特定數(shù)據(jù)抓取;利用公共平臺數(shù)據(jù)對企業(yè)商品的競爭情況有更全面的了解,也可以獲取消費者的檢索熱點;對自己產品的評論資料可以進行典型意見和關鍵詞的提取,提高CRM水平,如圖1所示。 隨著物聯(lián)網傳感器的發(fā)展,自動、實時、全面、完整、可靠、準確的數(shù)據(jù)不斷出現(xiàn),每一個界面、每一個動作、每一次交互都有跡可循并被規(guī)范記錄,獲取的數(shù)據(jù)也將更加全面,企業(yè)的數(shù)據(jù)采集也更趨自動。

2 大數(shù)據(jù)清洗    

培養(yǎng)學生通過對數(shù)據(jù)進行多方驗證、審核,將有雜質的數(shù)據(jù)剔除能力;培養(yǎng)學生從格式、邏輯、數(shù)值等多方面進行數(shù)據(jù)清洗和整理,處理缺失值、孤立點垃圾信息、規(guī)范化、重復記錄、特殊值、合并數(shù)據(jù)集等問題的能力。

3 大數(shù)據(jù)分析    

對于企業(yè)積累數(shù)據(jù)和獲取的外部數(shù)據(jù)都要及時進行分析應用,快速充分分析數(shù)據(jù)尤為關鍵。培養(yǎng)學生數(shù)據(jù)分析、數(shù)據(jù)挖掘的技能尤為重要,具體需培養(yǎng)數(shù)據(jù)分析技能如。  

(1)描述型分析:是什么?    

描述性分析會提供重要指標和信息。例如,通過每月的銷售單據(jù),可以獲取大量的客戶數(shù)據(jù),如客戶的地理信息、客戶偏好等;也可以了解企業(yè)庫存、銷售等生產經營數(shù)據(jù)。    

(2)診斷型分析:為什么?    

通過評估描述型數(shù)據(jù),診斷分析工具能夠深入的分析數(shù)據(jù),鉆取到數(shù)據(jù)的核心,分析某種產品或者某些產品銷售量變化原因等。    

(3)預測型分析:可能怎樣?    

預測型分析主要用于進行預測事件未來發(fā)生的可能性、預測一個可量化的值,或者是預估事情發(fā)生的時間點。使用各種可變數(shù)據(jù)來實現(xiàn)預測,在充滿不確定的環(huán)境下,預測能夠幫助做出更好的決定,如預測原料價格可以輔助決定庫存、預測銷售可以輔助決定產量、預測業(yè)務量可以輔助決定資金籌集量等。    

(4)指令型分析:做什么?    

指令模型是基于對“是什么”“為什么”和“可能怎樣”的分析,幫助用戶決定應該采取什么措施。通常情況下,指令型分析不是單獨使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通規(guī)劃分析考量了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來幫助選擇最好的回家路線;企業(yè)考量了銷售數(shù)據(jù)的變化、分析了市場和消費者的原因、預判了產品市場前景,進而決定對產品實施哪些改進。

4 大數(shù)據(jù)可視化    

大數(shù)據(jù)可視化是培養(yǎng)學生對大數(shù)據(jù)分析結果進行直觀呈現(xiàn)能力。培養(yǎng)學生利用企業(yè)自有數(shù)據(jù)或者外部連接數(shù)據(jù)、抓取數(shù)據(jù)等方式獲得的數(shù)據(jù)進行全方位呈現(xiàn)的能力,培養(yǎng)學生將數(shù)據(jù)的匯總、平均、交叉列聯(lián)分析等描述和分析結果,利用適當?shù)膱D形進行展示的能力。大數(shù)據(jù)可視化是非常重要的技能,具體如。   

4.1各類變量適合的基本可視化效果    

單一變量:點圖、抖動圖;直方圖、核密度估計;累計分布函數(shù)。    

兩個變量:散點圖、LOESS平滑、殘差分析、對數(shù)圖、傾斜。    

多個變量:假色圖、馬賽克圖、平行左邊圖。