中醫藥大數據應用核心問題分析
時間:2022-05-22 11:44:34
導語:中醫藥大數據應用核心問題分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
中醫藥大數據應用的最終目標是高效保存傳承名老中醫經驗,提高中醫診療智能化水平。筆者認為,中醫藥大數據應用是以臨床真實世界醫療為源,收集各醫院平臺及古籍文獻的中醫診療數據,利用適用中醫特點的數據挖掘方法,挖掘出能夠指導臨床應用的醫療思路或方法,如保存與共享名老中醫經驗、中醫臨床經驗智能化搜索、中醫智能化診療、中醫真實世界療效評價及診療方案優化等,最終得以提升中醫藥療效水平。本文從中醫藥診療數據的收集、數字化、數據挖掘方法及數理模型等方面論述,以期為建立相關關鍵技術提出思路和可解決方案。
1多源數據整合是中醫藥大數據利用的前提
中醫藥大數據應包括中醫古籍專著、文獻期刊、名老中醫的醫案專著,醫院保存的病歷、社區健康檔案、可穿戴設備數據及天文、地理數據等等。這些數據散在于不同空間位置,收集和整合是一個艱巨而漫長的過程,必須由點及面,從縱到橫逐漸融合積累。多種來源的資料匯總非人力所及,必須依賴電腦技術。其中文本挖掘、文本搜索及網絡爬蟲技術是必備的關鍵技術。文本挖掘是指抽取有效、有用、可理解、散在于文本文件中的有價值知識并利用這些知識更好地組織信息的過程[1];文本檢索是指根據文本內容,如關鍵字、語義等對文本集合進行檢索、分類、過濾[2];網絡爬蟲是對網絡頁面上的資源進行定向下載的技術[3]。通過上述技術的綜合應用,可以達到整合資源數據的目的。
2中醫詞庫標準化是中醫藥大數據利用的基礎
2.1建立標準化中醫分詞詞庫。中文文本的計算機處理首先是將字讀入計算機內,計算機只認識字不認識詞,要想讓計算機認識詞,必須經過一系列的處理,這個過程叫作中文分詞。中文分詞依賴于關鍵文件———中文詞庫。中文詞庫有通用版本和專業版本,以常用通用版本jieba分詞(結巴分詞)為例,里邊有近35萬個中文詞,結巴詞庫中除常用詞外,也會包括一部分專業詞匯,但難以滿足專業需求,各專業需要專門構建專業詞庫。目前,中醫詞庫尚未發現有影響力的專業中文詞庫,急需建立并完善。其實,構建專業詞庫并不困難,技術上已經普及,其原理是讓計算機讀取大量中醫藥辭典及文獻期刊,根據詞頻來確定入庫詞匯。2.2統一中醫診療用語標準。中醫標準詞是指中醫藥大數據應用時需要參與計算機運算和保存的詞。中醫分詞過程得到大量的中醫詞匯,成為非標準詞,這些詞中有很多近義詞、同義詞,大量詞匯形成維度災難[4],使計算機編程和運算及結果解釋面臨困難。因此,將大量的非標準詞轉換為有限的標準詞是中醫藥大數據應用急需解決的關鍵問題之一。非標準詞轉換為標準詞,技術上較簡單,既可利用查詢法,亦可利用人工智能技術中的自然語言處理技術。但非標準詞與標準詞“詞對”間的匹配對應,涉及古今文字差異與各地表達不同,需有人工標注,無法使用計算機替代。由于人工標注工作量巨大,不可能一蹴而就,應以需求為導向逐步擴大。
3中醫數字化及模型建立是中醫藥大數據應用的核心
世界上無論宏觀與微觀、整體與局部,任何不能以數學為基礎來表達的領域都不能成為科學。中醫的科學性受到質疑,其根本問題就在于中醫理論無法用數字語言來表達。因此,盡早構建中醫理論數字模型是中醫藥科學化、現代化面臨的重大問題之一,也是中醫藥大數據應用的關鍵核心技術。本課題組嘗試應用范式模型解決中醫數學模型問題:構建中醫理論科學公式yi=f(xi)。中醫理論內容豐富,但如果歸納為科學問題,最后就會形成一個問題,即通過什么方法根據不同的語言詞匯(癥狀、舌象、脈象)組合來推測出另一部分語言詞匯(藥物)的組合(處方)。用公式表達,即為yi=f(xi),yi表示藥物組合,xi表示癥狀組合,f表示函數。根據集合理論,xi可以理解為從整個癥狀集合[A]中抽取的不同元素的組合,即為集合A的子集,yi可理解為藥物集合[B]的子集。問題是yi和xi均是參與到函數f中計算的數值,如何來求這些值?如何來定義函數公式?3.1模糊數學方法賦值證藥信息。模糊集合論是1965年美國學者創立的研究有關非精確現象的理論,適應中醫診療特點。模糊集合理論認為,研究一門模糊領域的數學問題,首先要定義一個研究的范圍,或稱為討論的領域,簡稱論域[5]。論域確定后,在論域上賦值,即形成模糊集合。中醫的論域核心是藏象、陰陽五行等理論,歸納起來可以分為3類信息,即位置信息、性質信息和狀態信息。位置信息包括五臟六腑、十二經脈、奇經八脈等;性質信息包括氣血、陰陽、津液、瘀血、痰飲等;狀態信息包括升、降、浮、沉、生、克、乘、侮等。中醫的辨證就是根據這類信息來合成出很多證素,然后根據證素特征歸納為某一證候。中醫的每個癥狀都內含著這3種信息的1種、2種或3種。如果把每一個癥狀在這3種信息上賦值(賦0、1或0、1、2、3),即可解決癥狀賦值問題。這是構建整個模型的第一步,也是最基礎的一步。通過模型可以采用很多算法來產生證素。3.2矩陣分析方法構建。yi=f(xi)矩陣的概念,是基于線性空間發展而來,矩陣分析是線性代數的延伸,即將實數域的分析擴展到復數域。通俗地講,矩陣分析可以用一定的公式來表示一個矩陣的特征或兩個矩陣的相似性。矩陣也可以理解為一個空間的值。根據矩陣的維度,零維矩陣代表空間的一個點;一維矩陣代表空間中的一條線;二維矩陣代表空間中的一個面;三維矩陣代表空間中的立體形狀。在一維矩陣(向量)中,矩陣中不同的值代表位于空間中不同方向和長度的線,通過計算這條線在空間中的位置和長度,可以比較兩個向量的相似程度。假如yi和xi均能轉化為矩陣,f是計算矩陣相似度的公式,yi=f(xi)即可建立起函數關系。3.3證素賦值法構建。yi、xi中醫辨證論治的核心是根據癥狀找出證候,再用處方治療證候。眾多研究表明,證候是由證素所構成,中藥處方也是對證素來設計的[6-10]。所以,構建一個全證素論域,如[證素1、證素2、證素3、證素4……證素11],然后癥狀在每一個證素上賦值,即可得到單個癥狀的矩陣。下一步把癥狀在位置信息、性質信息、狀態信息上所賦值轉化為在證素論域上賦值。這個可通過多種辦法解決,比如邏輯推理法、隨機森林計算法等。有單個癥狀的證素矩陣,通過一定的規則加權平均,將各個癥狀的證素矩陣合并成一個證素矩陣,即可得到yi轉化來的矩陣。通過以上方法,就可成功構建中醫數字化模型。3.4人工智能構建函數f建立函數f既可采用數字化模型,也可采用人工智能模型。前者屬于“白箱模型”,后者屬于“黑箱模型”。目前,公認的效率及準確性較高的人工智能模型主要是深度人工神經網絡模型,如AM(attentionmodel)模型,這種模型主要用于語言轉換,即輸入若干個詞匯,轉換為同種文字或不同種文字的另外一些詞匯,并支持輸入與輸出字數量的不等長度,非常適合于把癥狀組合轉換為藥物組合,從而完成yi=f(xi)的構建,這里函數f就是AM模型。
4討論
中醫智能化診療是未來醫療發展的趨勢。目前,中醫智能化診療關鍵在于中醫診療的經驗性、不確定性、模糊性難以轉化為線性邏輯。隨著人工智能的發展日漸成熟,多種模型可模擬人腦進行黑箱操作,處理非線性信息并可自適應學習。白箱模型與黑箱模型各有優劣,白箱模型的優勢是不需要大量訓練樣本,可根據已有知識賦值構建模型,劣勢是模型預測結果準確性需要通過多次調整賦值進行調試,一開始很難做成大而全的模型,只能從小模型逐漸擴展,比如先做某個病的模型;黑箱模型的優勢是可做成大而全的模型,只要訓練樣本支持,做成后可直接應用,不足之處是需要有大量的真實有效的臨床病例作為訓練樣本進行反復訓練,并且最終的模型需要反復超參調優。另外,白箱模型可以產生大量的模擬病例,供黑箱模型超參調優使用。本文所述的關鍵技術均是經過實踐探索過的。本研究在tensorflow系統環境下利用以上理論開發的算法成功建立了中醫數字化模型,可達到輸入癥狀產生處方的效果。利用該模型保存和共享名老中醫經驗則非常理想,已在互聯網實現應用?,F在國內中醫藥大數據應用僅停留在各平臺醫療數據的收集和名老中醫藥物應用分析,不同數據庫無法銜接,形成大量數據孤島。本研究認為,實現中醫藥大數據應用的核心是中醫數字化模型。構建理想的中醫數字化模型需要專業的計算機技術和扎實的中醫理論、豐富的中醫經驗相結合,涉及中醫學、互聯網技術、人工智能等相關專業知識。要想盡快在中醫藥大數據應用上產生明顯成果,僅靠互聯網技術和人工智能方面的人才是難以完成的,急需除中醫知識以外的,同時具備數學、統計學、人工智能及計算機知識的綜合型人才。中醫以其天人合一的思想傳承守護中華民族千年,也必將通過現代化智能化的手段將其應用于全人類。
作者:潘玉穎 崔偉鋒 范軍銘 單位:河南省中醫藥研究院
- 上一篇:中西醫結合治療腦小血管病分析
- 下一篇:中醫藥治療肝纖維化研究