醫療數據分析論文

時間:2022-03-27 03:04:54

導語:醫療數據分析論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

醫療數據分析論文

1醫療數據分析模型

將醫院、醫療保健組織等數字化的醫療數據以特定的格式、協議發送到醫療數據分析模塊進行分析與疾病預測.醫療數據提取模塊:該模塊由醫院電子病歷系統負責實現,我們使用openEHR系統作為醫院電子病歷系統,并在openEHR中實現醫療數據的提取功能.openEHR系統是一個開源、靈活的電子病歷系統,支持HL7衛生信息交換標準.很多醫療健康組織、政府和學術科研單位都使用openEHR進行開發和科研工作.如一種基于openEHR的患者病歷數據管理模型、openEHR等許多開源的電子病歷平臺的對比與評估和基于openEHR的檔案建模等.數據交換模塊:基于Web服務的數據交換模塊使用醫療數據通信協議實現醫療數據分析模塊與醫療數據提取模塊的數據交換.Web服務是一個平臺獨立、松耦合的Web應用程序.由于Web服務的跨平臺特性,許多模型與框架是基于Web服務構建的,如基于Web服務集成分布式資源和數據流分析測試等.在本文提出的醫療數據分析模型中,使用Web服務來連接醫療數據分析模塊和醫療數據提取模塊.醫療數據提取模塊作為Web服務的服務端,實現的方法包括存取數據、數據預處理、序列化等,改進后的模型要求實現指定維度,指定屬性數據的讀取.本文提出的醫療數據分析模塊作為Web服務的客戶端,通過HTTP服務向數據提取模塊請求獲取數據,并對數據進行預處理.醫療數據分析模塊:我們使用Caisis開源平臺作為醫療數據分析與疾病預測系統實現這一模塊.Caisis是基于Web的開源癌癥數據管理系統,一些臨床醫學研究使用Caisis系統管理和歸檔數字顯微圖像,通過向Caisis系統中添加特征選擇和SVM算法,使用SVM算法對醫療數據進行分析和疾病預測,因此使用的特征選擇算法需要基于SVM,可以提高數據分析和疾病預測過程的效率和準確度.

2數據分析模塊與算法

2.1SVM算法SVM算法最初是由Vapnik等人在1995年提出的一種可訓練的機器學習算法.依據統計學習理論、VC維理論和結構風險最小化理論,從一定數目的樣本信息在學習能力和復雜度(對訓練樣本的學習程度)中找到最佳折中,以期望獲得最好的推廣能力(或稱泛化能力).

2.2基于SVM的醫療數據分析模塊將SVM分類算法應用到醫療數據分析模塊中,進行疾病預測.基于SVM的醫療數據分析模塊,通過數據交換模塊獲取原始組數據(患病病人醫療數據和對照組病人數據).通過特征選擇過程輸入到SVM分類器中進行訓練,訓練后可以對新的醫療數據進行分析預測.

3改進的醫療數據交換模塊

3.1醫療數據交換模塊在原始的醫療數據交換模塊中,數據請求原語只由4條通信原語組成.由原始醫療數據分析模型的3個模塊構建,其中在醫療數據分析模塊與醫療數據提取模塊之間的4條通信原語包括2條請求和2條應答.由于醫療數據的維度極大,屬性很多,但是在預測某個疾病時,只有很少的一部分屬性會對分類預測產生影響.這樣的全部維度的數據都需要傳輸,浪費了時間,降低了數據傳輸效率,影響了醫療數據分析模塊的算法效率.

3.2改進的醫療數據交換模塊在改進的醫療數據交換模塊中,在數據傳輸協議中增加了4條原語.在每條原語中不僅有醫療記錄條數的要求,還包括對所請求醫療數據維度和屬性的具體說明.醫療數據分析模塊先請求一小部分全部維度的數據,對這小部分數據進行特征選擇.然后醫療數據分析模塊只請求特征選擇出來的對預測相關的屬性的剩余所有醫療數據.最后通過SVM分類算法進行訓練和預測.在新的醫療數據交換模塊中,大部分數據中只有小部分相關屬性被傳輸到數據分析模塊,極大地減少了數據傳輸總量,也同時增加了分析模塊預測算法的效率.

4原始模型與改進模型的對比結果

在對改進后的模型進行實驗評估時,當Caisis系統請求的訓練數據總數從100~600條變化時,特征選擇請求的數據條數均取100條.當Caisis系統請求的訓練數據總數為100條時,改進模型與原始模型的總數據傳輸時間是相同的,這是因為當Caisis系統請求的訓練數據總數與改進模型的特征選擇請求的數據條數都是100條.無論是原始模型還是改進模型,openEHR系統發送回來的數據都是100條的全部屬性.所以,當Caisis請求的訓練數據總數與進行特征選擇的條數相同時,改進模型降級為與原始模型具有相同傳輸效率.但是隨著Caisis系統請求的訓練數據總數的不斷增加,改進模型則具有非常明顯的優勢.對改進模型的評估.當Caisis系統請求的醫療數據總數一定時,隨著Caisis系統進行特征選擇所請求的數據條數變化,總數據傳輸時間不斷增加,傳輸效率逐漸降低.Caisis系統第一步進行特征選擇所請求的數據條數越小,就會有更少的數據以全部屬性傳輸,也就是說,更多的數據會以更少的屬性傳輸.這樣,總的數據量變小,醫療數據的傳輸效率就增大.相反,隨著Caisis系統第一步特征選擇所請求的數據條數的增加,總的傳輸數據量變大,醫療數據的總傳輸時間也會變長.當Caisis系統第一步特征選擇所請求的數據條數等于需要訓練的總數時,全部數據的全部屬性都需要傳輸給Caisis,這就使得改進模型降級為與原始模型具有相同的低效率模型系統.實驗結果表明,改進后的醫療數據交換協議具有更高的數據交換效率,并且醫療數據分析與預測系統進行特征選擇時使用的數據量越小,醫療數據的交換效率越高;基于SVM的特征選擇算法提高了醫療數據分析系統的效率,并提高了使用SVM算法進行預測分析的效率和準確度.

作者:田宇馳胡亮單位:吉林大學計算機科學與技術學院