統計學樣本的概念范文

時間:2023-07-10 17:19:32

導語:如何才能寫好一篇統計學樣本的概念,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

統計學樣本的概念

篇1

關鍵詞:大數據;海量存儲;數據挖掘;標本庫;醫學生物信息;數據挖掘

隨著信息技術在醫學臨床和科研中的應用,臨床醫學、生物學、信息學發生了一次交叉融合, 這種以生物大數據信息是未來生物醫學研究發展的核心點。這種以海量、高維度、數據變量復雜、為特征的數據結構, 需要我們在傳統的醫學基礎之上集數學、統計學、工程學、計算機信息科學的交叉綜合、理論和實驗相結合,建立新的新方法和手段。使得我們的臨床醫學模式從經驗醫學進一步向循證醫學轉變,無序醫療向著有序醫療發展,醫學研究也會進入從發現、研究、驗證、應用到再發現、再研究、再驗證、再應用的迭代式良性循環過程中。

1實現大數據的大價值是醫學信息建設的新目標

信息化時代各行業信息數據量呈現指數上升,醫療行業的數據信息增長更快。經研究表明,未來10年醫學數據將高爆式地增長,其增長來源于醫院醫療信息運行數據的積累、新的臨床信息系統的嵌入(如電子病例系統)、新醫療診療設備接入等。隨著醫學的進步以生物芯片為代表的高通量生物技術的飛速發展,基因組學、轉錄組學、蛋白質組學、代謝組學的信息也會涌入醫學生物信息領域。這種大量高速增長的數據被稱之為海量數據或者大數據(big data)。大數據的特點是海量、高維度、數據變量復雜、分析處理復雜。

隨著信息技術在醫學臨床和科研中的應用,臨床醫學、生物學、信息學發生了一次交叉融合,形成了生物醫學信息學(Biomedical Informatics)。這種以生物大數據信息是未來生物醫學研究發展的核心點。我們可以看到,生物醫學領域的大數據時代正在來臨,其發展將促使我們盡快構建一個實時、便捷、全方位的醫學生物信息挖掘和應用系統。在醫學信息研究方面,我國還主要處在對醫療流程的信息化管理、質量控制等初級階段,尚未開展面對"大數據"挖掘的系統研究與應用,但這種研究與挖掘應用必將成為生物醫藥科學技術發展的趨勢。大數據時代的到來,既對臨床醫生、研究人員、醫院管理者、醫療監管機構等都提出了巨大的挑戰,也為生物醫學研究帶來了前所未有的機遇。生物醫學領域里科學研究的一個重要發展趨勢就是數據驅動。以前進行實驗研究的目的是獲得結論或者是提出一種新的假設,大數據技術通過對海量數據的研究來探索其中的規律,可以直接提出假設或得出可靠的結論。

當前,以臨床醫療信息為基礎的計算機信息系統可擴展到多個相聯的信息系統,包括:電子病例系統、隨訪信息管理系統、實驗室信息管理系統、生物信息分析系統、基因組學數據庫系統、藥物臨床試驗信息系統等,在醫學科研與臨床應用之間架起了一道不可或缺的橋梁。收集大數據、整合大數據、處理和分析大數據,形成價值密度高、利用價值高的數據資源體系,實現"大數據"的"大價值",是醫學信息建設的新目標。

2大數據挖掘將盤活醫學生物信息資產

醫學生物信息的大數據包括醫療對象以及與醫療對象相關的信息特征集合,生物標本以及與生物標本信息相關的特征集合,這些大數據集帶有自己的、潛在的、未被揭示的規律趨勢特征,這才是醫學生物信息價值的核心所在。這些醫學生物信息是我們進行用于人類健康研究價值的資產,研究、分析、挖掘海量醫學生物信息就是盤活人類健康研究的資產。數據挖掘,也稱知識發現,是盤活這些寶貴的醫學生物信息資產的有力工具。

大數據的挖掘和應用不同于傳統的采樣分析法,它有自身的一些獨特特點,如:①大數據挖掘分析與事物相關的所有數據,而非少量數據樣本,研究的樣本數量趨近于總體數量;②大數據挖掘追求的是效率和趨勢,而非絕對的準確性;③大數據挖掘更多關注事物的相關關系而非因果關系,這種信息與信息之間的相關關系會提醒我們某件事情正在發生。

同時,從數據中發現價值的實踐也由來已久。橫跨數據庫技術、統計學和機器學習等交叉學科和技術的數據挖掘是大數據分析的基礎,傳統的數據分析實踐是無法適應大數據的發展的。

近年來,數據挖掘引起了信息產業界的極大關注。其主要原因是,由業務系統產生的大量數據,迫切需要將這些數據轉換成有用的信息和知識,并廣泛使用于業務中。獲取的信息和知識可以廣泛用于各種實踐應用,包括商務管理、生產控制、市場分析、工程設計和科學探索等領域。數據挖掘利用了來自如下一些領域的思想和方法:統計學、人工智能、模式識別、機器學習等。數據挖掘的很多算法都采用了以上領域中的理論算法、建模技術和學習理論等。數據挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優化技術、進化計算、信息論、信號處理、可視化和信息檢索技術等。數據挖掘也需要數據庫系統提供有效的存儲、索引和查詢處理得支持。源于高性能并行計算的技術在處理海量數據集方面常常是也重要的。分布式計算技術也能有效地幫助處理海量數據,并且當數據不能集中到一起處理時更是至關重要的[2]。

醫學生物信息的數據挖掘應用比較廣泛,醫學樣本庫領域的應用就是其中的一個實例。通過建立臨床醫學樣本信息篩選和偵測交互信息平臺來建立協作樣本庫和虛擬樣本庫。建立樣本庫協作單位的協作機制、嚴格的樣本篩選策略(根據研究項目協議和國家地方相關標準診斷、歸轉標準[5-7])、應答式的標本收集機制、樣本區域內(研究機構、轉化中心、醫院)權利共享機制,以建立全新模式、響應一致、反應迅速、整齊劃一的樣本收集研究管理的體系。建設樣本從標篩選、采集、管理策略運轉的實例,是以一個研究中心結合4~5個醫院以及4~5個樣本篩選醫院,建立研究臨床醫學轉化知識發現和研究驗證系統信息平臺和建立臨床醫學樣本信息篩選和偵測交互信息平臺的基礎。

醫學生物信息的數據挖掘應用的另一個實例是醫學科研。生物醫藥領域里科學研究的一個重要發展趨勢就是數據驅動。以前進行實驗研究的目的是獲得結論或者是提出一種新的假設,而現在通過對海量數據的研究來探索其中的規律,可以直接提出假設或得出可靠的結論[8]。另一方面,必須清楚的是,大數據作用與價值的重點在于能夠引導和啟發科研者的創新思維、并輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數據能夠提供若干種參考方法,將解決問題的思路拓寬、拓廣、拓深。當然我們需要在學科知識的結合上下內功,不能單純依靠智能挖掘技術及工具就能解決大數據的應用問題,實際上我們還要有熟悉掌握和運用智能挖掘技術及工具的業務技術人才,才能在浩瀚的信息資源中遨游,才能真正利用好醫學信息這個巨大的資產。

3挖掘和利用醫學生物信息的技術方法

醫學科學的第三次革命需要在傳統的醫學基礎之上集數學、統計學、工程學、計算機信息科學的交叉綜合、理論和實驗相結合,建立新的新方法和手段。目前,我國醫院信息系統存在著許多問題,集中體現在:醫學生物信息內容缺失、信息標準化程度低以及發展目標不明確等問題上。我們建設目的①堅持醫療一線的工作需要,②堅守醫學大數據信息資源的理念,③做好大數據收儲分析的準備工作。 大數據時代醫院該如何挖掘和利用醫學生物信息?我們通過與國內外有關數據挖掘的技術專家的合作,總結了醫學生物信息的挖掘和利用的一些方法。

3.1數據集成(多種數據源可以組合在一起) 把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為醫院和研究機構提供局部的或全面的數據共享。

3.2數據選擇(從數據庫中提取與分析任務相關的數據) 根據確定的數據分析對象,抽象出在數據分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數據庫。對于海量數據,選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。

3.3數據規約 數據挖掘時往往數據量非常大,在大量數據上進行挖掘分析需要很長的時間,數據歸約技術可以用來得到數據集的歸約表示,它小得多但仍然接近于保持原數據的完整性,數據挖掘的結果與歸約前結果相同或幾乎相同。

3.4數據清理(消除噪音或不一致數據) 在數據庫中的數據有一些是不完整的(有些感興趣的屬性缺少屬性值)、含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進行數據清理,將完整、正確、一致的數據信息存入數據庫中,否則會影響數據挖掘的結果。

3.5數據變換(數據變換或統一成適合挖掘的形式;如,通過匯總或聚集操作等) 通過平滑聚集、數據概化、規范化等方式將數據轉換成適用于數據挖掘的形式。對于有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。

3.6模型運算(使用智能化的算法提取數據模式) 根據數據庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集、神經網絡、遺傳算法等方法處理信息,得出有用的分析信息。通過對數據的挖掘,①可以發現數據的歷史規律,對過去進行總結;②可以根據數據對未來進行預測,研究者可以根據預測對未來行情趨勢做出預判,并作出相關決策。

3.7模型評估 根據某種興趣度度量,識別提供知識的真正有趣的模式。

3.8知識表示。(使用可視化和知識表示技術,向用戶提供挖掘的知識) 將數據挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。使用各種圖表、三維地圖、動態模擬以及相關的動畫技術使原本枯燥乏味的數據變得生動起來。數據可視化把數據以更加直觀的形態展現出來,使人們對相關數據做到一目了然。經過上面幾步我們就把原先認為毫無價值的數據變成了信息,最后演變為有價值的知識。

對于醫學生物信息挖掘系統的建設者(這里包括醫院科研部門和信息部門)來說,數據挖掘項目不因該是一個普通的IT項目,不能依照原來信息項目模式建設,更不能理解成為是個管理工具,在項目各個階段,數據信息每一次挖掘、演繹、分析是建設者和研究者全程參與的藝術性結合。目前對于各行業、各類典型問題的數據挖掘應用,還缺乏標桿模式作為參考。數據挖掘工作更像一個年輕醫師,需要通過不斷嘗試來積累經驗,面對如潮水般涌來的海量數據,她必將成為了生物醫學研究的支柱技術之一。

綜上所述,在今后的發展中計算機硬件性能的巨幅提升和數據庫技術的飛速發展,使得企業級大數據量的計算成為現實,數據挖掘涉及的數據量會更大。數據挖掘工具也將越來越強大,匯合的挖掘算法越來越多,并將逐步實現算法的自動選擇和參數自動調優,數據挖掘各類算法的巨大潛力將得到充分發揮。

我們設想在不久的將來,生物信息大數據的應用將會改變著醫學臨床實踐。臨床醫學模式從經驗醫學進一步向循證醫學轉變,無序醫療向著有序醫療進一步發展,醫學研究也會進入從發現、研究、驗證、應用到再發現、再研究、再驗證、再應用的迭代式良性循環過程中。古老的醫學走到了今天,已經發展成為多學科、多領域結合交匯的領域,生物信息科學、計算機科學和計算應用數學的介入為大數據信息時代開創了新的前景,未來數據資源將會成為極具研究價值的醫學資產,而且我國又是一個醫學研究資源豐富的大國,我們有理由相信,我們的醫學研究者會通過醫學生物信息的挖掘和利用,在醫學的研究和發展中為廣大人民的健康事業做出更多貢獻。

參考文獻:

[1]中國醫藥生物技術協會生物樣本庫標準(試行)[J].中國醫藥生物技術,2011, 6(1):71-79.

[2]朱凌云,吳寶明.醫學數據挖掘的技術方法及應用[J].生物醫學工程學雜志,2003;20(3):559-562.

[3]衛生信息數據元.中華人民共和國衛生行業標準[S].VS 363.3-2011.

[4]科學技術部.十二五"生物技術發展規劃[S].2011;11.

[5]劉淑珍,駱巖林,黃永峰.基于XML的電子病歷存儲管理系統的實現[J].醫院數字化,2007,22(7):24-26.

[6]孫榮國,賈曉蓉.對我國臨床標本庫建設的建議[J].衛生軟科學,2012,26(9):772.