卷積神經(jīng)網(wǎng)絡(luò)的步驟范文
時(shí)間:2024-04-02 18:04:32
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇卷積神經(jīng)網(wǎng)絡(luò)的步驟,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
(江蘇科技大學(xué)電子信息學(xué)院,江蘇鎮(zhèn)江212003)
摘要:在實(shí)際交通環(huán)境中,由于運(yùn)動(dòng)模糊、背景干擾、天氣條件以及拍攝視角等因素,所采集的交通標(biāo)志的圖像質(zhì)量往往不高,這就對(duì)交通標(biāo)志自動(dòng)識(shí)別的準(zhǔn)確性、魯棒性和實(shí)時(shí)性提出了很高的要求。針對(duì)這一情況,提出一種基于深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法。該方法采用深層卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督學(xué)習(xí)模型,直接將采集的交通標(biāo)志圖像經(jīng)二值化后作為輸入,通過(guò)卷積和池采樣的多層處理,來(lái)模擬人腦感知視覺(jué)信號(hào)的層次結(jié)構(gòu),自動(dòng)地提取交通標(biāo)志圖像的特征,最后再利用一個(gè)全連接的網(wǎng)絡(luò)實(shí)現(xiàn)交通標(biāo)志的識(shí)別。實(shí)驗(yàn)結(jié)果表明,該方法利用卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)能力,自動(dòng)地提取交通標(biāo)志的特征,避免了傳統(tǒng)的人工特征提取,有效地提高了交通標(biāo)志識(shí)別的效率,具有良好的泛化能力和適應(yīng)范圍。
關(guān)鍵詞 :交通標(biāo)志;識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
中圖分類號(hào):TN911.73?34;TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004?373X(2015)13?0101?06
收稿日期:2015?01?09
基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目(61371114)
0 引言
隨著智能汽車的發(fā)展,道路交通標(biāo)志的自動(dòng)識(shí)別[1?3]作為智能汽車的基本技術(shù)之一,受到人們的高度關(guān)注。道路交通標(biāo)志識(shí)別主要包括兩個(gè)基本環(huán)節(jié):首先是交通標(biāo)志的檢測(cè),包括交通標(biāo)志的定位、提取及必要的預(yù)處理;其次是交通標(biāo)志的識(shí)別,包括交通標(biāo)志的特征提取和分類。
如今,交通標(biāo)志的識(shí)別方法大多數(shù)都采用人工智能技術(shù),主要有下述兩類形式[4]。一種是采用“人工特征+機(jī)器學(xué)習(xí)”的識(shí)別方法,如基于淺層神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)的特征識(shí)別等。在這種方法中,主要依靠先驗(yàn)知識(shí),人工設(shè)計(jì)特征,機(jī)器學(xué)習(xí)模型僅負(fù)責(zé)特征的分類或識(shí)別,因此特征設(shè)計(jì)的好壞直接影響到整個(gè)系統(tǒng)性能的性能,而要發(fā)現(xiàn)一個(gè)好的特征,則依賴于研究人員對(duì)待解決的問(wèn)題的深入理解。另一種形式是近幾年發(fā)展起來(lái)的深度學(xué)習(xí)模型[5],如基于限制波爾茲曼機(jī)和基于自編碼器的深度學(xué)習(xí)模型以及卷積神經(jīng)網(wǎng)絡(luò)等。在這種方法中,無(wú)需構(gòu)造任何的人工特征,而是直接將圖像的像素作為輸入,通過(guò)構(gòu)建含有多個(gè)隱層的機(jī)器學(xué)習(xí)模型,模擬人腦認(rèn)知的多層結(jié)構(gòu),逐層地進(jìn)行信息特征抽取,最終形成更具推廣性和表達(dá)力的特征,從而提升識(shí)別的準(zhǔn)確性。
卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)模型之一,是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它利用一系列的卷積層、池化層以及一個(gè)全連接輸出層構(gòu)建一個(gè)多層的網(wǎng)絡(luò),來(lái)模仿人腦感知視覺(jué)信號(hào)的逐層處理機(jī)制,以實(shí)現(xiàn)視覺(jué)特征信號(hào)的自動(dòng)提取與識(shí)別。本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識(shí)別,通過(guò)構(gòu)建一個(gè)由二維卷積和池化處理交替組成的6層網(wǎng)絡(luò)來(lái)逐層地提取交通標(biāo)志圖像的特征,所形成的特征矢量由一個(gè)全連接輸出層來(lái)實(shí)現(xiàn)特征的分類和識(shí)別。實(shí)驗(yàn)中將加入高斯噪聲、經(jīng)過(guò)位移、縮放和旋轉(zhuǎn)處理的交通標(biāo)志圖像以及實(shí)際道路采集交通標(biāo)志圖像分別構(gòu)成訓(xùn)練集和測(cè)試集,實(shí)驗(yàn)結(jié)果表明,本文所采用的方法具有良好的識(shí)別率和魯棒性。
1 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理
1.1 深度學(xué)習(xí)
神經(jīng)科學(xué)研究表明,哺乳動(dòng)物大腦皮層對(duì)信號(hào)的處理沒(méi)有一個(gè)顯示的過(guò)程[5],而是通過(guò)信號(hào)在大腦皮層復(fù)雜的層次結(jié)構(gòu)中的遞進(jìn)傳播,逐層地對(duì)信號(hào)進(jìn)行提取和表述,最終達(dá)到感知世界的目的。這些研究成果促進(jìn)了深度學(xué)習(xí)這一新興研究領(lǐng)域的迅速發(fā)展。
深度學(xué)習(xí)[4,6?7]的目的就是試圖模仿人腦感知視覺(jué)信號(hào)的機(jī)制,通過(guò)構(gòu)建含有多個(gè)隱層的多層網(wǎng)絡(luò)來(lái)逐層地對(duì)信號(hào)特征進(jìn)行新的提取和空間變換,以自動(dòng)學(xué)習(xí)到更加有效的特征表述,最終實(shí)現(xiàn)視覺(jué)功能。目前深度學(xué)習(xí)已成功地應(yīng)用到語(yǔ)音識(shí)別、圖像識(shí)別和語(yǔ)言處理等領(lǐng)域。在不同學(xué)習(xí)框架下構(gòu)建的深度學(xué)習(xí)結(jié)構(gòu)是不同的,如卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。
1.2 卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及原理
卷積神經(jīng)網(wǎng)絡(luò)受視覺(jué)系統(tǒng)的結(jié)構(gòu)啟發(fā)而產(chǎn)生,第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)計(jì)算模型是在Fukushima 的神經(jīng)認(rèn)知機(jī)中提出的[8],基于神經(jīng)元之間的局部連接和分層組織圖像轉(zhuǎn)換,將有相同參數(shù)的神經(jīng)元應(yīng)用于前一層神經(jīng)網(wǎng)絡(luò)的不同位置,得到一種平移不變神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)形式。后來(lái),LeCun 等人在該思想的基礎(chǔ)上,用誤差梯度設(shè)計(jì)并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)[9?10],在一些模式識(shí)別任務(wù)上得到優(yōu)越的性能。
卷積神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一種有監(jiān)督的深度學(xué)習(xí)算法,無(wú)需事先知道輸入與輸出之間精確的數(shù)學(xué)表達(dá)式,只要用已知的模式對(duì)卷積神經(jīng)網(wǎng)絡(luò)加以訓(xùn)練,就可以學(xué)習(xí)到輸入與輸出之間的一種多層的非線性關(guān)系,這是非深度學(xué)習(xí)算法不能做到的。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)是由一系列的卷積和池化層以及一個(gè)全連接的輸出層組成,可以采用梯度下降法極小化誤差函數(shù)對(duì)網(wǎng)絡(luò)中的權(quán)值和閾值參數(shù)逐層反向調(diào)節(jié),以得到網(wǎng)絡(luò)權(quán)值和閾值的最優(yōu)解,并可以通過(guò)增加迭代次數(shù)來(lái)提高網(wǎng)絡(luò)訓(xùn)練的精度。
1.2.1 前向傳播
在卷積神經(jīng)網(wǎng)絡(luò)的前向傳播中,輸入的原始圖像經(jīng)過(guò)逐層的卷積和池化處理后,提取出若干特征子圖并轉(zhuǎn)換成一維特征矢量,最后由全連接的輸出層進(jìn)行分類識(shí)別。
在卷積層中,每個(gè)卷積層都可以表示為對(duì)前一層輸入圖像的二維卷積和非線性激勵(lì)函數(shù),其表達(dá)式可用式(1)表示:
式中:Yj 表示輸出層中第j 個(gè)輸出;Y l + 1i 是前一層(l + 1層)
的輸出特征(全連接的特征向量);n 是輸出特征向量的長(zhǎng)度;Wij 表示輸出層的權(quán)值,連接輸入i 和輸出j ;bj表示輸出層第j 個(gè)輸出的閾值;f (?) 是輸出層的非線性
1.2.2 反向傳播
在反向傳播過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法采用類似于BP神經(jīng)網(wǎng)絡(luò)的梯度最速下降法,即按極小化誤差的方法反向傳播調(diào)整權(quán)值和閾值。網(wǎng)絡(luò)反向傳播回來(lái)的誤差是每個(gè)神經(jīng)元的基的靈敏度[12],也就是誤差對(duì)基的變化率,即導(dǎo)數(shù)。下面將分別求出輸出層、池采樣層和卷積層的神經(jīng)元的靈敏度。
(1)輸出層的靈敏度
對(duì)于誤差函數(shù)式(6)來(lái)說(shuō),輸出層神經(jīng)元的靈敏度可表示為:
在前向傳播過(guò)程中,得到網(wǎng)絡(luò)的實(shí)際輸出,進(jìn)而求出實(shí)際輸出與目標(biāo)輸出之間的誤差;在反向傳播過(guò)程中,利用誤差反向傳播,采用式(17)~式(20)來(lái)調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,極小化誤差;這樣,前向傳播和反向傳播兩個(gè)過(guò)程反復(fù)交替,直到達(dá)到收斂的要求為止。
2 深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法
2.1 應(yīng)用原理
交通標(biāo)志是一種人為設(shè)計(jì)的具有特殊顏色(如紅、黃、白、藍(lán)、黑等)和特殊形狀或圖形的公共標(biāo)志。我國(guó)的交通標(biāo)志主要有警告、禁令、指示和指路等類型,一般采用顏色來(lái)區(qū)分不同的類型,用形狀或圖形來(lái)標(biāo)示具體的信息。從交通標(biāo)志設(shè)計(jì)的角度來(lái)看,屬于不同類型(不同顏色)的交通標(biāo)志在形狀或圖形上有較大的差異;屬于相同類型(相同顏色)的標(biāo)志中同類的指示信息標(biāo)志在形狀或圖形上比較接近,如警告標(biāo)志中的平面交叉路口標(biāo)志等。因此,從機(jī)器視覺(jué)的角度來(lái)分析,同類型中同類指示信息的標(biāo)志之間會(huì)比不同類型的標(biāo)志之間更易引起識(shí)別錯(cuò)誤。換句話說(shuō),相比于顏色,形狀或圖形是正確識(shí)別交通標(biāo)志的關(guān)鍵因素。
因此,在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志時(shí),從提高算法效率和降低錯(cuò)誤率綜合考慮,將交通標(biāo)志轉(zhuǎn)換為灰度圖像并作二值化處理后作為卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像信息。圖2給出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志的原理圖。該網(wǎng)絡(luò)采用了6層交替的卷積層和池采樣層來(lái)逐層提取交通標(biāo)志的特征,形成的特征矢量由一個(gè)全連接的輸出層進(jìn)行識(shí)別。圖中:W1i(i=1,2,…,m1),W1(j j=1,2,…,m2),…,W1k(k=1,2,…,m(n?1))分別表示卷積層L1,L3,…,Ln - 1 的卷積核;Input表示輸入的交通標(biāo)志圖像;
Pool表示每個(gè)池采樣層的采樣池;map表示逐層提取的特征子圖;Y 是最終的全連接輸出。
交通標(biāo)志識(shí)別的判別準(zhǔn)則為:對(duì)于輸入交通標(biāo)志圖像Input,網(wǎng)絡(luò)的輸出矢量Y = [y1,y2 ,…,yC ],有yj = Max{y1,y2 ,…,yC},則Input ∈ j,即判定輸入的交通標(biāo)志圖像Input為第j 類交通標(biāo)志。
2.2 交通標(biāo)志識(shí)別的基本步驟
深層神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志主要包括交通標(biāo)志的訓(xùn)練與識(shí)別,所以將交通標(biāo)志識(shí)別歸納為以下4個(gè)步驟:(1) 圖像預(yù)處理:利用公式Gray= 0.299R +0.587G + 0.114B 將彩色交通標(biāo)志圖像轉(zhuǎn)換為灰度圖像,再利用鄰近插值法將交通標(biāo)志圖像規(guī)格化,最后利用最大類間方差將交通標(biāo)志圖像二值化。
(2)網(wǎng)絡(luò)權(quán)值和閾值的初始化:利用隨機(jī)分布函數(shù)將權(quán)值W 初始化為-1~1之間的隨機(jī)數(shù);而將閾值b 初始化為0。
(3)網(wǎng)絡(luò)的訓(xùn)練:利用經(jīng)過(guò)預(yù)處理的交通標(biāo)志圖像構(gòu)成訓(xùn)練集,對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過(guò)網(wǎng)絡(luò)前向傳播和反向傳播的反復(fù)交替處理,直到滿足識(shí)別收斂條件或達(dá)到要求的訓(xùn)練次數(shù)為止。
(4)交通標(biāo)志的識(shí)別:將實(shí)際采集的交通標(biāo)志圖像經(jīng)過(guò)預(yù)處理后,送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行交通標(biāo)志特征的提取,然后通過(guò)一個(gè)全連接的網(wǎng)絡(luò)進(jìn)行特征分類與識(shí)別,得到識(shí)別結(jié)果。
3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)主要選取了我國(guó)道路交通標(biāo)志的警告標(biāo)志、指示標(biāo)志和禁令標(biāo)志三類中較常見(jiàn)的50幅圖像。考慮到在實(shí)際道路中采集到的交通標(biāo)志圖像會(huì)含有噪聲和出現(xiàn)幾何失真以及背景干擾等現(xiàn)象,因此在構(gòu)造網(wǎng)絡(luò)訓(xùn)練集時(shí),除了理想的交通標(biāo)志以外,還增加了加入高斯噪聲、經(jīng)過(guò)位移、旋轉(zhuǎn)和縮放處理和實(shí)際采集到的交通標(biāo)志圖像,因此最終的訓(xùn)練樣本為72個(gè)。其中,加入的高斯噪聲為均值為0,方差分別為0.1,0.2,0.3,圖像的位移、旋轉(zhuǎn)、縮放的參數(shù)分別隨機(jī)的分布在±10,±5°,0.9~1.1的范圍內(nèi)。圖3給出了訓(xùn)練集中的交通標(biāo)志圖像的示例。圖4是在實(shí)際道路中采集的交通標(biāo)志圖像構(gòu)成的測(cè)試集的示例。
在實(shí)驗(yàn)中構(gòu)造了一個(gè)輸入為48×48個(gè)神經(jīng)元、輸出為50 個(gè)神經(jīng)元的9 層網(wǎng)絡(luò)。網(wǎng)絡(luò)的輸入是像素為48 × 48 的規(guī)格化的交通標(biāo)志圖像,輸出對(duì)應(yīng)于上述的50種交通標(biāo)志的判別結(jié)果。網(wǎng)絡(luò)的激活函數(shù)采用S型函數(shù),如式(2)所示,其輸出范圍限制在0~1之間。
圖6是交通標(biāo)志的訓(xùn)練總誤差EN 曲線。在訓(xùn)練開(kāi)始的1 500次,誤差能迅速地下降,在迭代2 000次以后是一個(gè)平穩(wěn)的收斂過(guò)程,當(dāng)?shù)?0萬(wàn)次時(shí),總誤差EN可以達(dá)到0.188 2。
在交通標(biāo)志的測(cè)試實(shí)驗(yàn)中,為了全面檢驗(yàn)卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別性能,分別針對(duì)理想的交通標(biāo)志,加入高斯噪聲、經(jīng)過(guò)位移、旋轉(zhuǎn)和比例縮放以及采集的交通標(biāo)志圖像進(jìn)行實(shí)驗(yàn),將以上測(cè)試樣本分別送入到網(wǎng)絡(luò)中識(shí)別,表2給出了測(cè)試實(shí)驗(yàn)結(jié)果。
綜合分析上述實(shí)驗(yàn)結(jié)果,可以得到以下結(jié)論:(1)在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)過(guò)程中,整個(gè)網(wǎng)絡(luò)的誤差曲線快速平穩(wěn)的下降,體現(xiàn)出卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)具有良好的收斂性。
(2)經(jīng)逐層卷積和池采樣所提取的特征具有比例縮放和旋轉(zhuǎn)不變性,因此對(duì)于旋轉(zhuǎn)和比例縮放后的交通標(biāo)志能達(dá)到100%的識(shí)別率。
(3)與傳統(tǒng)的BP網(wǎng)絡(luò)識(shí)別方法[11]相比較,卷積神經(jīng)網(wǎng)絡(luò)能夠達(dá)到更深的學(xué)習(xí)深度,即在交通標(biāo)志識(shí)別時(shí)能夠得到更高的所屬類別概率(更接近于1),識(shí)別效果更好。
(4)卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)際采集的交通標(biāo)志圖像的識(shí)別率尚不能達(dá)到令人滿意的結(jié)果,主要原因是實(shí)際道路中采集的交通標(biāo)志圖像中存在著較嚴(yán)重的背景干擾,解決的辦法是增加實(shí)際采集的交通標(biāo)志訓(xùn)練樣本數(shù),通過(guò)網(wǎng)絡(luò)的深度學(xué)習(xí),提高網(wǎng)絡(luò)的識(shí)別率和魯棒性。
4 結(jié)論
本文將深層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于道路交通標(biāo)志的識(shí)別,利用卷積神經(jīng)網(wǎng)絡(luò)的深層結(jié)構(gòu)來(lái)模仿人腦感知視覺(jué)信號(hào)的機(jī)制,自動(dòng)地提取交通標(biāo)志圖像的視覺(jué)特征并進(jìn)行分類識(shí)別。實(shí)驗(yàn)表明,應(yīng)用深層卷積神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志取得了良好的識(shí)別效果。
在具體實(shí)現(xiàn)中,從我國(guó)交通標(biāo)志的設(shè)計(jì)特點(diǎn)考慮,本文將經(jīng)過(guò)預(yù)處理二值化的圖像作為網(wǎng)絡(luò)的輸入,主要是利用了交通標(biāo)志的形狀信息,而基本略去了顏色信息,其優(yōu)點(diǎn)是在保證識(shí)別率的基礎(chǔ)上,可以簡(jiǎn)化網(wǎng)絡(luò)的結(jié)構(gòu),降低網(wǎng)絡(luò)的計(jì)算量。在實(shí)際道路交通標(biāo)志識(shí)別中,將形狀信息和顏色信息相結(jié)合,以進(jìn)一步提高識(shí)別率和對(duì)道路環(huán)境的魯棒性,是值得進(jìn)一步研究的內(nèi)容。
此外,本文的研究沒(méi)有涉及到道路交通標(biāo)志的動(dòng)態(tài)檢測(cè),這也是今后可以進(jìn)一步研究的內(nèi)容。
參考文獻(xiàn)
[1] 劉平華,李建民,胡曉林,等.動(dòng)態(tài)場(chǎng)景下的交通標(biāo)識(shí)檢測(cè)與識(shí)別研究進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(5):493?503.
[2] SAHA S K,DULAL C M,BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication,2012,50(10):35?41.
[3] STALLKAMP J,SCHLIOSING M,SALMENA J,et al. Man vs.computer:benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network,2012,32(2):323?332.
[4] 中國(guó)計(jì)算機(jī)學(xué)會(huì).深度學(xué)習(xí):推進(jìn)人工智能夢(mèng)想[EB/OL].[2013?06?10].http://ccg.org.cn.
[5] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2014,19(2):175?184.
[6] FUKUSHIMA K. Neocognition:a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics,1980,36(4):193?202.
[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines,1989,86(11):2278?2324.
[8] LECUN Y,BOTTOU L,BENGIO Y,et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation,1989,1(4):541?551.
[9] CIRESAN D,MEIER U,MAsci J,et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works,2012,32(2):333?338.
[10] NAGI J,DUCATELLE F,CARO D,et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur:IEEE,2011,342?347.
[11] 楊斐,王坤明,馬欣,等.應(yīng)用BP神經(jīng)網(wǎng)絡(luò)分類器識(shí)別交通標(biāo)志[J].計(jì)算機(jī)工程,2003,29(10):120?121.
[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http://cogprints.org/5869/.
[13] 周開(kāi)利,康耀紅.神經(jīng)網(wǎng)絡(luò)模型及其Matlab 仿真設(shè)計(jì)[M].北京:清華大學(xué)出版社,2005.
[14] 孫志軍,薛磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806?2810.
[15] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2014(7):1921?1930.
篇2
2. 應(yīng)用領(lǐng)域安防
實(shí)時(shí)從視頻中檢測(cè)出行人和車輛。
自動(dòng)找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時(shí)發(fā)出帶有具體地點(diǎn)方位信息的警報(bào)。
自動(dòng)判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過(guò)密人群帶來(lái)的潛在危險(xiǎn),幫助工作人員引導(dǎo)和管理人流。
醫(yī)療
對(duì)醫(yī)學(xué)影像進(jìn)行自動(dòng)分析的技術(shù)。這些技術(shù)可以自動(dòng)找到醫(yī)學(xué)影像中的重點(diǎn)部位,并進(jìn)行對(duì)比比分析。
通過(guò)多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計(jì)手術(shù),確保手術(shù)
為我們每個(gè)人提供康建議和疾病風(fēng)險(xiǎn)預(yù)警,從而讓我們生活得更加健康。
智能客服
智能客服可以像人一樣和客戶交流溝通。它可以聽(tīng)懂客戶的問(wèn)題,對(duì)問(wèn)題的意義進(jìn)行分析(比如客戶是詢問(wèn)價(jià)格呢還是咨詢產(chǎn)品的功能呢),進(jìn)行準(zhǔn)確得體并且個(gè)性化的回應(yīng)。
自動(dòng)駕駛
現(xiàn)在的自動(dòng)駕駛汽車通過(guò)多種傳感器,包括視頻攝像頭、激光雷達(dá)、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BDS、全球定位系統(tǒng)GPS等)等,來(lái)對(duì)行駛環(huán)境進(jìn)行實(shí)時(shí)感知。智能駕駛系統(tǒng)可以對(duì)多種感知信號(hào)進(jìn)行綜合分析,通過(guò)結(jié)合地圖和指示標(biāo)志(比如交通燈和路牌),實(shí)時(shí)規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運(yùn)行。
工業(yè)制造
幫助工廠自動(dòng)檢測(cè)出形態(tài)各異的缺陷
3. 概念什么是人工智能?
人工智能是通過(guò)機(jī)器來(lái)模擬人類認(rèn)知能力的技術(shù)。
人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。下文會(huì)一一介紹。
二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征
花瓣數(shù)量、顏色
人工設(shè)計(jì)特征
先確定哪些特征,再通過(guò)測(cè)量轉(zhuǎn)化為具體數(shù)值
深度學(xué)習(xí)特征
這里先不提及,文章后面會(huì)說(shuō)
2. 感知器
老師給了一道題:
要區(qū)分兩種鸞尾花,得畫(huà)出一條直線區(qū)分兩類花,你可以畫(huà)出無(wú)數(shù)條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學(xué)渣啊,靠蒙!
隨便找三個(gè)數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個(gè)特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測(cè)] = 1,此時(shí) y[實(shí)際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實(shí)際] – y[預(yù)測(cè)] = 0.
重復(fù)以上兩步,得出所有的『實(shí)際值和預(yù)測(cè)值的差距的綜合,記為 Loss1
可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜啊!繼續(xù)懵!像猜世界杯一樣猜就好了。
通過(guò)沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的!)下降的方向繼續(xù)猜數(shù)字,具體過(guò)程大概是這樣子的:
上述所屬的實(shí)際值和預(yù)測(cè)值的差距 實(shí)際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點(diǎn)間直線距離公式,余弦相似度公式等等可以計(jì)算預(yù)測(cè)結(jié)果和實(shí)際結(jié)果之間的差距。
劃重點(diǎn):損失函數(shù)就是現(xiàn)實(shí)和理想的差距(很殘酷)
3. 支持向量機(jī)
*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)
直觀的說(shuō),縫隙(上圖的分類間隔)越大越好
4. 多分類
如果有多種花怎么辦?
一趟植物課上,老師請(qǐng)來(lái)了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤(pán)花給各個(gè)專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。
老師綜合了各位專家的意見(jiàn)后,告訴同學(xué)們,這是一盤(pán)梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請(qǐng)三個(gè)專家
老師:你給我滾出去
實(shí)際計(jì)算過(guò)程就是通過(guò)用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對(duì)應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來(lái)說(shuō),可以直觀的看看書(shū)中這個(gè)表格就懂了:
5. 非監(jiān)督學(xué)習(xí)第 2.2 能從預(yù)測(cè)值和實(shí)際值的差別判斷”是否猜對(duì)了”,是因?yàn)樯锢蠋煾嬖V了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實(shí)際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。
那該怎么辦呢?
機(jī)器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。
這里我們換個(gè)場(chǎng)景:
假如你是某直播老板,要找一堆小主播,這時(shí)候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡(jiǎn)歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒(méi)空全部面試,那應(yīng)該怎么挑選呢?
這時(shí)候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上:
這是你隨手一劃,把她們分成兩組,可以說(shuō)“聚成兩類了”。
用某種計(jì)算方式(比如平均值)找到這個(gè)聚類的中心。點(diǎn)離聚類中心越近,代表越相似。
求出每個(gè)聚類中的點(diǎn)到藍(lán)色聚類中心點(diǎn)和黃色聚類中心的距離
如果一個(gè)點(diǎn)離黃色聚類中心更近卻被你隨手劃到了藍(lán)色分組(上圖用紅色邊框標(biāo)出的小方塊),那么就把它劃入黃色分組。
這時(shí)因?yàn)榉纸M范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時(shí)候你需要以 步驟3 的方法重新計(jì)算聚類的中心
重復(fù)步驟 4 (算點(diǎn)中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍(lán)色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個(gè)過(guò)程直到藍(lán)色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。
至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:
計(jì)算機(jī)在沒(méi)有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來(lái)就可以在把兩種主播各投放2個(gè)到平臺(tái)看看誰(shuí)更能干。效果更好的,以后就以那個(gè)聚類的樣本特征擴(kuò)充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過(guò)程可以看下圖,有個(gè)直觀的了解:
三、這是什么物品(圖像識(shí)別)1. 特征提取人類感官特征
花瓣顏色、花瓣長(zhǎng)度、有沒(méi)有翅膀(區(qū)分貓和小鳥(niǎo))、有沒(méi)有嘴巴和眼睛(飛機(jī)和小鳥(niǎo))
感官的特征通過(guò)量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征
人工設(shè)計(jì)特征
深度學(xué)習(xí)特征
通過(guò)卷積提取圖像特征
劃重點(diǎn):卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。
1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2維卷積 1*2+3*0+2*4+4*2=28…
通過(guò)卷積就可以得到圖像的特征信息,比如邊緣
垂直邊緣檢測(cè)
水平邊緣檢測(cè)
方向梯度直方圖
2. 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?
區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長(zhǎng)度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計(jì)特征的步驟,交由卷積操作去自動(dòng)提取,分類器的訓(xùn)練也同時(shí)融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實(shí)現(xiàn)了端對(duì)端的學(xué)習(xí)
劃重點(diǎn):端對(duì)端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒(méi)有中間商,自己賺差價(jià)。
3. 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問(wèn)題一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會(huì)提高準(zhǔn)確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:
過(guò)擬合學(xué)渣把高考預(yù)測(cè)試題的答案都背一遍而不理解,考試的時(shí)候,如果試題是考生背過(guò)的,那么考生就能答對(duì);如果沒(méi)背過(guò)那么考生就不會(huì)回答了。我們就可以說(shuō),學(xué)渣『過(guò)擬合了預(yù)測(cè)試題。
與之對(duì)應(yīng)的是:欠擬合渣得不能再渣的人,連預(yù)測(cè)試題都背不下來(lái),即使考試試題和預(yù)測(cè)試題一模一樣,他也只能答對(duì)30%。那么就可以說(shuō)這種人~~欠揍~~欠擬合。
有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網(wǎng)上很火很勵(lì)志的一個(gè)公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過(guò)程中,學(xué)習(xí)將變得非常慢。(好比從一個(gè)碗頂部放下一個(gè)小球,在底部徘徊的速度會(huì)越來(lái)越慢)
非凸優(yōu)化學(xué)習(xí)過(guò)程可能在局部最小值(極小值)就停止了,因?yàn)樘荻龋ㄐ甭剩榱恪T诰植孔畹屯V苟皇侨肿畹屯V梗瑢W(xué)習(xí)到的模型就不夠準(zhǔn)確了。
看圖感受一下
你說(shuō)的底不是底,你說(shuō)的頂是什么頂
解決的辦法
均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠(yuǎn)鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開(kāi)說(shuō)明了。
4. 應(yīng)用人臉識(shí)別
自動(dòng)駕駛把汽車頂部拍攝到的圖片切分層一個(gè)個(gè)小方塊,每個(gè)小方塊檢測(cè)物體是車還是行人還是狗,是紅燈還是綠燈,識(shí)別各種交通標(biāo)識(shí)等等。再配合雷達(dá)等判斷物體距離。
四、這是什么歌(語(yǔ)音識(shí)別)1. 特征提取人類感官特征音量、音調(diào)、音色
通過(guò)采樣、量化、編碼。實(shí)現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號(hào))
人工設(shè)計(jì)特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽(tīng)覺(jué)感受是相似的,即在一定頻率范圍內(nèi)人對(duì)低頻聲音比較敏感而對(duì)高頻聲音不敏感)。
關(guān)系為:
在每一個(gè)頻率區(qū)間對(duì)頻譜求均值,它代表了每個(gè)頻率范圍內(nèi)聲音能量的大小。一共有26個(gè)頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學(xué)習(xí)特征通過(guò) 3.1 所介紹的 1維卷積進(jìn)行特征提取
2. 應(yīng)用音樂(lè)風(fēng)格分類
輸入:音頻文件特征:聲音特征輸出:音樂(lè)種類
語(yǔ)音轉(zhuǎn)文字
輸入:音頻文件特征:聲音特征輸出:聲學(xué)模型(比如26個(gè)英文字母)
再把聲學(xué)模型送入另外的學(xué)習(xí)器
輸入:聲學(xué)模型特征:語(yǔ)義和詞匯輸出:通順的語(yǔ)句(可以查看第6點(diǎn),如何讓計(jì)算機(jī)輸出通順的語(yǔ)句)
聽(tīng)歌識(shí)曲通過(guò)窗口掃描(把音樂(lè)分割成一小段一小段的),然后通過(guò)4.1說(shuō)的方法提取這一段的特征,就得到一個(gè)特征向量。對(duì)數(shù)據(jù)庫(kù)的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計(jì)算相似度(兩個(gè)向量的距離可以用余弦公式算夾角大小或者兩點(diǎn)間距離公式來(lái)算)
五、視頻里的人在做什么(視頻理解,動(dòng)作識(shí)別)1. 介紹視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因?yàn)槿艘曈X(jué)的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時(shí),光信號(hào)傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫(huà)面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。識(shí)別視頻里面有什么物體,可以用上文說(shuō)過(guò)的圖像識(shí)別和分類方法去實(shí)時(shí)分析單幀圖像,比如:
但是視頻相對(duì)于圖像有一個(gè)更重要的屬性:動(dòng)作(行為)。
怎么從一個(gè)連續(xù)的視頻分析動(dòng)作呢?
舉個(gè)例子,像上圖那只二哈,腿部的像素點(diǎn)相對(duì)于黃色的方框(框和狗相對(duì)靜止)在左右”移動(dòng)”,這里的”移動(dòng)”我們引入一個(gè)概念——光流(一個(gè)像素點(diǎn)從一個(gè)位置移動(dòng)到另一個(gè)位置),通過(guò)像素點(diǎn)移動(dòng)形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑作為訓(xùn)練目標(biāo)值(Y),經(jīng)過(guò)多次的迭代訓(xùn)練,機(jī)器就可以擬合得出一個(gè) Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
2. 光流假設(shè),1)相鄰兩幀中物體運(yùn)動(dòng)很小2)相鄰兩幀中物體顏色基本不變
至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個(gè)像素點(diǎn)的,這里不展開(kāi)說(shuō)明。
第 t 時(shí)刻的點(diǎn)指向第 t+1 時(shí)刻該點(diǎn)的位置,就是該點(diǎn)的光流,是一個(gè)二維的向量。
整個(gè)畫(huà)面的光流就是這樣:
整個(gè)視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個(gè)點(diǎn)移動(dòng)的軌跡
假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來(lái)表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進(jìn)行分類訓(xùn)練。
進(jìn)一步優(yōu)化,可以把光流簡(jiǎn)化為8個(gè)方向上的,把視頻某一幀的所有光流累加到這八個(gè)方向上得出某一幀的光流直方圖,進(jìn)一步得出 8 維的特征向量。
六、一段文字在表達(dá)什么(自然語(yǔ)言處理)1. 特征提取
這里有4個(gè)句子,首先進(jìn)行分詞:
去掉停用詞(副詞、介詞、標(biāo)點(diǎn)符合等等,一般在文本處理上都有一個(gè)停用詞表)
編碼詞表
句子向量化
這樣就得到一個(gè)句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標(biāo)簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。
2. 進(jìn)階詞向量化厲害-牛逼、計(jì)算機(jī)-電腦是同義詞。光從上面的步驟,我們可能認(rèn)為厲害和牛逼是兩個(gè)完全不一樣的詞語(yǔ),但其實(shí)他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點(diǎn)呢?需要從多個(gè)維度去進(jìn)一步給詞語(yǔ)更豐富的內(nèi)涵,比如:
舉例來(lái)說(shuō),男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個(gè)維度擴(kuò)展之后,就得到“男人”這個(gè)詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率一個(gè)詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說(shuō)明這個(gè)次能代表這篇文章的分類。比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(yǔ)(1次)更能代表體育類的文章。
假設(shè)句子中有 N 個(gè)詞, 某個(gè)詞出現(xiàn)次數(shù)為 T,一共有 X 個(gè)句子,該詞語(yǔ)在 W 個(gè)句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
3. 應(yīng)用
七、讓計(jì)算機(jī)畫(huà)畫(huà)(生成對(duì)抗網(wǎng)絡(luò))從前有個(gè)人,以賣臨摹名家的畫(huà)來(lái)賺錢。他開(kāi)始臨摹一副名畫(huà):
第一次他畫(huà)成這樣子了:
鑒賞家一眼就看出來(lái)是假的,他不得不回去畫(huà)第二幅畫(huà)、第三幅畫(huà)…
經(jīng)過(guò)了10萬(wàn)次”畫(huà)畫(huà)-鑒別”的過(guò)程,這個(gè)臨摹者畫(huà)出來(lái)的畫(huà),鑒賞家居然認(rèn)為這是真的原作,以高價(jià)買入了這副畫(huà)。
這種生成(畫(huà)畫(huà))- 鑒別(鑒偽)的模式正是生成對(duì)抗網(wǎng)絡(luò)(GAN)的核心。
通過(guò)生成器,把隨機(jī)像素點(diǎn)有序排列形成具有意義的畫(huà)面,再通過(guò)鑒別器得出生成的畫(huà)面的分類、和真實(shí)畫(huà)面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會(huì)了畫(huà)『真畫(huà)了。
計(jì)算機(jī)是怎么把隨機(jī)像素點(diǎn)變成有意義的畫(huà)面的呢?我們通過(guò)一個(gè)簡(jiǎn)化的例子來(lái)看看。
直線上一些均勻分布的點(diǎn),經(jīng)過(guò) y=2x+1變換后變成了非均勻分布。一張隨機(jī)排布的像素點(diǎn)畫(huà)面,經(jīng)過(guò)某個(gè)f(x) 變換后就會(huì)變成具有某種意義的畫(huà)面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
下圖為計(jì)算機(jī)生成手寫(xiě)數(shù)字的過(guò)程
劃重點(diǎn):函數(shù)可以變換數(shù)據(jù)分布(庫(kù)克說(shuō):可以把直的變成彎的)
八AlphaGo是怎么下棋的?(強(qiáng)化學(xué)習(xí))1. 粗略認(rèn)知監(jiān)督/無(wú)監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確強(qiáng)化學(xué)習(xí):多次任務(wù)是否達(dá)成最終目標(biāo)
每一次任務(wù)都準(zhǔn)確,不就是能達(dá)成最終目標(biāo)嗎?我們來(lái)看一個(gè)例子:
一家批發(fā)商店的老板愛(ài)麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機(jī),其中一個(gè)銷售員查爾斯弄到了一個(gè)可以獲利的大單,但是之后公司因?yàn)楣?yīng)緊缺無(wú)法交付這些收音機(jī)。
應(yīng)該責(zé)怪誰(shuí)呢?
從愛(ài)麗絲的角度來(lái)看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒(méi)完成)。
但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達(dá)成)。——《心智社會(huì)》第7.7章
2. AlphaGo下圍棋,最古老的辦法是決策樹(shù),從左上角的位置開(kāi)始到右下角的位置遍歷,每一個(gè)空的位置就是一個(gè)分支,然后預(yù)測(cè)每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測(cè)器。
但是由于圍棋19X19的超大棋盤(pán),空間復(fù)雜度高達(dá)10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。
我們?cè)耘嘁活w小盆栽的時(shí)候,如果不對(duì)枝葉進(jìn)行修剪,那么養(yǎng)分就會(huì)浪費(fèi)在沒(méi)長(zhǎng)好的枝條上。需要及時(shí)對(duì)枯萎或者異常的枝條進(jìn)行修剪以保證養(yǎng)分往正常(或者說(shuō)我們希望它生長(zhǎng)的方向)枝條上輸送。
同樣的道理,有限的計(jì)算機(jī)算力如果浪費(fèi)在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費(fèi)大量的時(shí)間也難以找到最優(yōu)的方案。
是否可以通過(guò) “修剪” 落子選擇器這顆龐大的決策樹(shù),加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價(jià)值評(píng)估器(哪個(gè)棋盤(pán)的贏的概率更大),把沒(méi)有價(jià)值的棋局先去掉不再往下遍歷,這就同時(shí)減少了搜索的廣度和深度。
其中,落子預(yù)測(cè)器有個(gè)名稱,叫做政策網(wǎng)絡(luò)(policy network)價(jià)值評(píng)估器有個(gè)名稱,叫做價(jià)值網(wǎng)絡(luò)(value network)政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹(shù)從當(dāng)前棋局推演(隨機(jī)下棋)到最終的棋局,最終勝則回報(bào)為正,反之回報(bào)為負(fù)。之后該算法會(huì)反向沿著該對(duì)弈過(guò)程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高,與此對(duì)應(yīng)將敗者的落子方案分?jǐn)?shù)降低,所以之后遇到相同局面時(shí)選擇勝者方案的概率就會(huì)增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。
通過(guò) 政策網(wǎng)絡(luò) + 價(jià)值網(wǎng)絡(luò) + 蒙特卡洛搜索樹(shù) 實(shí)現(xiàn)最優(yōu)落子方案的選擇,同時(shí)兩個(gè)機(jī)器人互相對(duì)弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。
3. 定義接下來(lái)說(shuō)一下枯燥的定義
什么是強(qiáng)化學(xué)習(xí)?
當(dāng)我們關(guān)注的不是某個(gè)判斷是否準(zhǔn)確,而是行動(dòng)過(guò)程能否帶來(lái)最大的收益時(shí)使用強(qiáng)化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場(chǎng)景中。
強(qiáng)化學(xué)習(xí)的目標(biāo)是要獲得一個(gè)策略(poliey)去指導(dǎo)行動(dòng)。比如在圍棋博弈中,這個(gè)策略可以根據(jù)盤(pán)面形勢(shì)指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個(gè)策略會(huì)告訴我們?cè)谑裁磿r(shí)候買入、什么時(shí)候賣出。
一個(gè)強(qiáng)化學(xué)習(xí)模型一般包含如下幾個(gè)部分:
一組可以動(dòng)態(tài)變化的狀態(tài)(sute)
對(duì)于圍棋棋盤(pán)上黑白子的分布位置對(duì)于股票交易來(lái)說(shuō),就是股票的價(jià)格
一組可以選取的動(dòng)作(metion)
對(duì)于圍棋來(lái)說(shuō),就是可以落子的位置;對(duì)于股票交易來(lái)說(shuō),就是每個(gè)時(shí)間點(diǎn),買入或者賣出的股票以及數(shù)量。
一個(gè)可以和決策主體(agent)進(jìn)行交互的環(huán)境(environment)這個(gè)環(huán)境會(huì)決定每個(gè)動(dòng)作后狀態(tài)如何變化。
棋手(主體)的落子會(huì)影響棋局(環(huán)境),環(huán)境給主體獎(jiǎng)勵(lì)(贏)或懲罰(輸)操盤(pán)手(主體)的買入或賣出會(huì)影響股票價(jià)格(環(huán)境,供求關(guān)系決定價(jià)格),環(huán)境給主體獎(jiǎng)勵(lì)(賺錢)或懲罰(虧錢)
篇3
關(guān)鍵詞:水尺 檢測(cè) 圖像識(shí)別
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2013)01-0114-02
1 引言
隨著航運(yùn)技術(shù)的發(fā)展,船舶運(yùn)輸越來(lái)越受到人們的關(guān)注。船舶的水尺計(jì)重作為一種科學(xué)的計(jì)重方法,具有一定的準(zhǔn)確性,在國(guó)際上已廣泛應(yīng)用,其計(jì)算結(jié)果可作為商品交接結(jié)算、理賠、計(jì)算運(yùn)費(fèi)和通關(guān)計(jì)稅的依據(jù)。其適用于價(jià)值較低,衡重困難的大宗散裝固體商品,例如煤炭、鐵礦石、水泥、糧食等商品的重量計(jì)算。水尺計(jì)重的優(yōu)點(diǎn)是省時(shí)、省力、省費(fèi)用,能迅速計(jì)算出整船貨物的重量,但是計(jì)算過(guò)程較為復(fù)雜,影響計(jì)重結(jié)果的客觀因素較多,特別船舶刻度觀測(cè)水平是影響水尺準(zhǔn)確性最重要因素。船舶吃水線的檢測(cè)目前主要依靠經(jīng)過(guò)長(zhǎng)期訓(xùn)練的觀察人員目測(cè)船舶的水尺標(biāo)志而獲得船舶的實(shí)際吃水值,為了獲得較為精確的數(shù)值,需要觀察人員多次查看,以求得平均值。這種人眼目測(cè)船舶吃水線數(shù)值的方式,往往帶有主觀性,存在較大的局限性,例如:觀測(cè)不方便,受環(huán)境影響大,并且觀測(cè)存在一定危險(xiǎn)。因此,本文提出采用Matlab7.0作為仿真環(huán)境,利用圖像處理技術(shù),設(shè)計(jì)船舶吃水線自動(dòng)檢測(cè)的算法來(lái)自動(dòng)檢測(cè)船舶水尺刻度數(shù)值,可以克服人工目測(cè)所引起的一系列問(wèn)題,完整的記錄整個(gè)觀測(cè)階段的吃水線位置,并使后續(xù)的數(shù)據(jù)處理成為可能。降低了系統(tǒng)復(fù)雜性,又提高了效率和準(zhǔn)確度。
2 圖像識(shí)別技術(shù)的原理
近年來(lái),拍攝設(shè)備性能的不斷完善,設(shè)備的分辨率能夠達(dá)到很精確的程度,圖片質(zhì)量清晰度非常高,同時(shí)計(jì)算機(jī)體系結(jié)構(gòu)和算法的快速發(fā)展,使得圖像處理的性能和運(yùn)算速度得到了較大提高,這些都為吃水線的求取提供了可能。一幅圖像在計(jì)算機(jī)中可以定義為一個(gè)二維函數(shù)f(x,y),其中x和y是空間(平面)坐標(biāo),而在任何一對(duì)空間坐標(biāo)(x,y)處的幅值f稱為該點(diǎn)處的灰度,當(dāng)x,y和灰度值f是有限的離散數(shù)值時(shí),我們稱該圖像為數(shù)值圖像,數(shù)字圖像處理就是借助計(jì)算機(jī)來(lái)處理上述這些數(shù)字圖像。數(shù)字圖像是由有限數(shù)量的元素組成的,每個(gè)元素都有一個(gè)特殊的位置和數(shù)值,要將一副圖像轉(zhuǎn)化為數(shù)字形式,就要求數(shù)字化x,y和灰度值f。在此基礎(chǔ)上,利用上述數(shù)值,設(shè)計(jì)相應(yīng)的算法即可得到船舶水尺精確的刻度值。
3 船舶吃水線刻度檢測(cè)算法的設(shè)計(jì)
3.1 總體結(jié)構(gòu)設(shè)計(jì)
本文利用Matlab7.0作為仿真環(huán)境,通過(guò)采集到的視頻圖像序列,首先設(shè)計(jì)計(jì)算法檢測(cè)出吃水線邊緣,找到吃水線的位置,然后對(duì)船幫上刻度字進(jìn)行分割,并求出水平面距離所在刻度上邊緣的距離,利用BP神經(jīng)網(wǎng)絡(luò)對(duì)水尺刻度線進(jìn)行識(shí)別,得到吃水線的數(shù)值。吃水線檢測(cè)算法的總流程圖如(圖1)所示:
3.2 船舶吃水線刻度檢測(cè)算法關(guān)鍵步驟的處理
3.2.1 圖像的灰度化和二值化處理
相比彩色圖像,灰度圖像的邊緣檢測(cè)較為方便和快捷,計(jì)算量小,所以先將獲取到的彩色圖像轉(zhuǎn)為灰度圖像。而圖像的二值化處理就是將圖像上的像素點(diǎn)的灰度值設(shè)置為0至255,將采樣后所得到的各像素的灰度值用矩陣表示,即灰度圖的量化。所有灰度值大于或者等于閥值的像素被判定為特殊物體,灰度值小于閥值的則表示為背景或者其他物體區(qū)域。通過(guò)將灰度值投影到曲線上,則可以獲得灰度值的分布特征。
3.2.2 選擇合適的邊緣檢測(cè)算法找到吃水線的邊緣
數(shù)字圖像的邊緣檢測(cè)是圖像分割,目標(biāo)區(qū)域識(shí)別,區(qū)域形狀提取等圖像領(lǐng)域中十分重要的基礎(chǔ),邊緣是圖像的最基本特征之一,它是利用周圍像素灰度有階躍變化或屋頂變化的像素的集合。邊緣檢測(cè)算法大致分為兩類:基于查找和基于零穿越的邊緣檢測(cè)。常用的邊緣檢測(cè)算法有:Roberts、Prewitt、Sobel、LOG、Canny算法等。
3.2.3 選擇合適的閥值對(duì)刻度字的分割
圖像分割是一種重要的圖像分析技術(shù),在對(duì)圖像的研究和應(yīng)用中,人們往往僅對(duì)圖像中的特定部分感興趣。為了識(shí)別和分析圖像中得目標(biāo),需要將它們從圖像中分離提取出來(lái),在此基礎(chǔ)上才有可能進(jìn)一步對(duì)目標(biāo)進(jìn)行測(cè)量和對(duì)圖像進(jìn)行利用。而分割字符的思想就是利用刻度字區(qū)域黑色像素點(diǎn)比較多,比較集中,同時(shí)根據(jù)水尺標(biāo)志的特點(diǎn),每個(gè)字符之間有10cm的空隙間隔隔開(kāi),這樣得到的投影圖有幾個(gè)比較集中卻又有明顯分割的投影峰值群,通過(guò)設(shè)定特定的閥值來(lái)判定特定物體,通過(guò)這種方法將找出船幫上刻度字的左右邊界。
3.2.4 選擇BP神經(jīng)網(wǎng)絡(luò)對(duì)船幫處水尺字符進(jìn)行識(shí)別
字符識(shí)別的主流技術(shù)有:統(tǒng)計(jì)決策法、人工智能法、模板匹配法和人工神經(jīng)元網(wǎng)絡(luò)法等。同在字符識(shí)別領(lǐng)域相對(duì)比較成熟的光學(xué)字符(OCR)識(shí)別、車牌識(shí)別相比,船幫處水尺刻度字符由于表面凹凸、油漆掉色或攝像時(shí)水面反光等情況造成的字符畸變。為了提高系統(tǒng)的抗干擾性和自適應(yīng)性,本文計(jì)劃采用對(duì)噪聲干擾和形變有較好適應(yīng)性的BP神經(jīng)網(wǎng)絡(luò)模型方式來(lái)進(jìn)行識(shí)別。BP網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一個(gè)分支,又稱誤差信號(hào)反饋網(wǎng)絡(luò),是神經(jīng)網(wǎng)絡(luò)中使用最廣泛的一類。并嘗試通過(guò)改善收斂性,神經(jīng)元的個(gè)數(shù),提高系統(tǒng)的識(shí)別率。
3.3 Matlab軟件的使用
Matlab由美國(guó)的MathWorks公司出品,它的指令表達(dá)式與數(shù)學(xué),工程中常用的形式十分相似。其典型的應(yīng)用包括:(1)數(shù)學(xué)和計(jì)算;(2)算法開(kāi)發(fā);(3)數(shù)據(jù)獲取;(4)建模、模擬和原型設(shè)計(jì);(5)數(shù)據(jù)分析、研究和可視化;(6)科學(xué)和工程圖形;(7)應(yīng)用開(kāi)發(fā),包括圖像用戶界面的構(gòu)建。MATLAB中補(bǔ)充了許多針對(duì)特殊應(yīng)用的工具箱,圖像處理工具箱是一個(gè)MATLAB函數(shù)集合,能進(jìn)行圖像的和、差等線性運(yùn)算,以及卷積、相關(guān)、濾波等非線性運(yùn)算,幾乎包括了常用的圖像處理操作的各種函數(shù),只需了解這些函數(shù)的使用方法,正確調(diào)用函數(shù)就可以實(shí)現(xiàn)常用的各種圖像處理的操作。MATLAB能支持包括:TIFF、BMP、JPEG等的圖形文件的格式,用它來(lái)解決圖像問(wèn)題比用C,F(xiàn)ortran等語(yǔ)言完成相同的事情簡(jiǎn)捷的多。因此利用此工具,我們可以方便地從各個(gè)方面對(duì)圖像的性質(zhì)進(jìn)行深入的研究。
本文所研究的內(nèi)容是在靜態(tài)圖像上對(duì)吃水線進(jìn)行檢測(cè),其技術(shù)路線包括圖像的預(yù)處理,利用邊緣檢測(cè)算子對(duì)吃水線邊緣進(jìn)行擬合,去除干擾,得到吃水線的位置。利用船舶刻度字的特點(diǎn),對(duì)其進(jìn)行分割,對(duì)分割出來(lái)的字符進(jìn)行識(shí)別后,得到吃水線的數(shù)值。以上都可以通過(guò)Matlab調(diào)用不同的工具箱和函數(shù)來(lái)實(shí)現(xiàn)。
4 結(jié)語(yǔ)
由于經(jīng)濟(jì)利益,發(fā)貨人、收貨方和承運(yùn)人都對(duì)貨物的重量非常重視,而且越來(lái)越精細(xì)、嚴(yán)格,如何準(zhǔn)確計(jì)算船舶載重量成為亟待解決的問(wèn)題。作為近年來(lái)快速發(fā)展起來(lái)的一個(gè)計(jì)算機(jī)學(xué)科,通過(guò)使用圖像處理和分析的手段,獲得水平面在圖像中的準(zhǔn)確位置,既可以克服人工目測(cè)所引起的一系列問(wèn)題,完整的記錄整個(gè)觀測(cè)階段的吃水線位置,使后續(xù)的數(shù)據(jù)處理成為可能,既降低了系統(tǒng)復(fù)雜性,又提高了效率和準(zhǔn)確度。圖像處理的對(duì)象是一幅幅拍攝下的照片,其中的吃水線位置是固定的,這樣就為后續(xù)的處理和計(jì)算奠定了一個(gè)靜態(tài)的基礎(chǔ),不會(huì)發(fā)生象人眼目測(cè),由于景物晃動(dòng)而產(chǎn)生的錯(cuò)覺(jué)。同時(shí),拍攝下的照片作為測(cè)量的記錄保存,可以滿足今后復(fù)核或是查對(duì)的要求。再次,利用圖像處理技術(shù),可以大幅度降低對(duì)有經(jīng)驗(yàn)觀測(cè)人員的依賴。因此利用圖像識(shí)別技術(shù)對(duì)船舶水尺測(cè)量具有廣泛的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1]SN/T 0187-93 進(jìn)出口商品重量鑒定規(guī)程——水尺計(jì)重.
[2]陳德為,張培銘.轉(zhuǎn)動(dòng)式交流接觸器動(dòng)態(tài)過(guò)程分析與控制[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2008,36(1):95—99.
[3]陳德為,張培銘.采用高速攝像機(jī)的智能交流接觸器控制及其測(cè)試裝置的研制[M].電工電能新技術(shù):2009,28(3):58-61,72.
[4]周廣程.圖像處理技術(shù)在船舶吃水自動(dòng)檢測(cè)系統(tǒng)中的應(yīng)用[D].南京:南京理工大學(xué),2006.
篇4
關(guān)鍵詞: 動(dòng)態(tài)紋理分類; 慢特征分析; 深度學(xué)習(xí); 堆棧降噪自動(dòng)編碼網(wǎng)絡(luò)模型
中圖分類號(hào): TN919?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
動(dòng)態(tài)紋理是指具有空間重復(fù)性、并隨時(shí)間變化的視覺(jué)模式,這種模式形成了一系列在時(shí)間域上具有某種不變性的圖像序列[1]。不同的動(dòng)態(tài)紋理可能具有相似的外觀,但是卻具有不同的運(yùn)動(dòng)形式,所以表觀和運(yùn)動(dòng)是動(dòng)態(tài)紋理特征的兩大方面。在目前的動(dòng)態(tài)視頻分析系統(tǒng)中,最關(guān)鍵的步驟是如何提取有效的動(dòng)態(tài)紋理特征描述符。在過(guò)去幾十年里,對(duì)紋理的研究大部分都集中在靜態(tài)紋理特征的研究,動(dòng)態(tài)紋理的研究相對(duì)靜態(tài)紋理而言起步要晚的多。動(dòng)態(tài)紋理的研究最早始于20世紀(jì)90年代初,由Nelson和Polana采用建立線性系統(tǒng)模型的方法對(duì)其進(jìn)行研究[2],并且將視覺(jué)運(yùn)動(dòng)劃分為三類[3]:行為、運(yùn)動(dòng)事件以及動(dòng)態(tài)紋理。隨后,Szummer 和 Picard提出采用時(shí)空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對(duì)動(dòng)態(tài)紋理序列進(jìn)行建模。基于光流的識(shí)別法是目前比較流行的動(dòng)態(tài)紋理識(shí)別法,因?yàn)槠溆?jì)算效率高,并且以一種很直觀的方式來(lái)描述圖像的局部動(dòng)態(tài)紋理特征,F(xiàn)azekas和Chetverikov總結(jié)出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時(shí)包含動(dòng)態(tài)特性和形狀特性[5]。基于LBP的動(dòng)態(tài)紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時(shí)空域上的描述子:時(shí)空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結(jié)合“運(yùn)動(dòng)”和“外觀”特征。2007―2008年是動(dòng)態(tài)紋理研究最多的兩年,各大期刊雜志連續(xù)刊登有關(guān)動(dòng)態(tài)紋理的研究文章。
本文試圖解決動(dòng)態(tài)自然場(chǎng)景的分類問(wèn)題(例如:煙火、河流、風(fēng)暴、海洋、雪花等)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,過(guò)去采用較多的是手動(dòng)提取特征來(lái)表示物體運(yùn)動(dòng)信息(例如:HOF、基于STIP的HOG算法等),實(shí)驗(yàn)表明該類方法對(duì)人體行為識(shí)別非常有效。但是由于自然環(huán)境比較復(fù)雜,動(dòng)態(tài)紋理表現(xiàn)不穩(wěn)定,易受光照、遮擋等影響,而手動(dòng)選取特征非常費(fèi)力,需要大量的時(shí)間進(jìn)行調(diào)節(jié),所以該類方法并不適用于動(dòng)態(tài)場(chǎng)景分類。Theriault等人提出利用慢特征分析的方法來(lái)提取動(dòng)態(tài)視頻序列的特征[8]。該方法雖然能有效表示動(dòng)態(tài)紋理特征,但是其提取的特征維數(shù)較高。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),近幾年深度學(xué)習(xí)網(wǎng)絡(luò)模型在大尺度圖像分類問(wèn)題中成功應(yīng)用使得其得到越來(lái)越多人的重視。卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和堆棧自編碼網(wǎng)絡(luò)是三種典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型,而堆棧自編碼網(wǎng)絡(luò)模型不僅對(duì)高維數(shù)據(jù)有很好的表示,而且采用非監(jiān)督的學(xué)習(xí)模式對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,這對(duì)于傳統(tǒng)的手動(dòng)提取特征。利用堆棧自編碼網(wǎng)絡(luò)模型對(duì)慢特征進(jìn)行進(jìn)一步學(xué)習(xí),不僅能降低數(shù)據(jù)維度,而且還能提取出數(shù)據(jù)更有效的特征表示。
1 基于堆棧自編碼網(wǎng)絡(luò)模型的慢特征分析法
1.1 慢特征分析法
文獻(xiàn)[9?10]中提到,慢特征分析算法的目標(biāo)是從不斷變化的輸入信號(hào)中學(xué)習(xí)不變量,即除了無(wú)意義的常值信號(hào)外,最具不變性質(zhì)的信息,其實(shí)質(zhì)也就是從快速變化的信號(hào)中提取緩慢變化的信號(hào)特征,這種特征是從混合信號(hào)中提取出來(lái)的源信號(hào)的高級(jí)表示,表征信號(hào)源的某些固有屬性[11]。
實(shí)驗(yàn)證明,慢特征分析法在人體行為識(shí)別中有很好的描述作用,這為動(dòng)態(tài)紋理分類提供了一個(gè)很好的選擇。慢特征分析算法的核心思想是相關(guān)矩陣的特征值分解,其本質(zhì)是在經(jīng)過(guò)非線性擴(kuò)展特征空間對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,尋找最優(yōu)解的線性組合。
給定一個(gè)時(shí)域輸入信號(hào)序列:
[vt=v1t,v2t,…,vDtT]
目標(biāo)就是學(xué)習(xí)一組映射函數(shù):
[Sv=S1v,S2v,…,SMv]
使得輸出信號(hào)[yt=y1t,y2t,…,yMtT]的各個(gè)分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關(guān)的重要信息。選用時(shí)域信號(hào)一階導(dǎo)數(shù)的均方值來(lái)衡量輸出信號(hào)個(gè)分量的變化率:
[minSj<y?2j>t] (1)
且滿足以下條件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的時(shí)域平均值;[y?j]是[yj]的時(shí)域一階導(dǎo)數(shù)。這三個(gè)約束條件保證慢特征分析的輸出信號(hào)的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒(méi)有無(wú)意義的常信號(hào)值,條件3確保輸出各分量之間是非相關(guān)的,且不同慢特征承載著不同信息。值得注意的是,函數(shù)[Sv]是輸入信號(hào)的瞬時(shí)函數(shù),所以輸出結(jié)果不能看成是通過(guò)低通濾波器的結(jié)果,慢特征處理速度要比低通濾波器快很多。如圖1所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t1.tif>
圖1 時(shí)域輸入信號(hào)慢特征的提取
輸出信號(hào)各分量按照變化率從小到大排列,且互不相關(guān),其最優(yōu)解問(wèn)題可以看成以下公式的解特征值問(wèn)題:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號(hào)的慢特征和最小特征值息息相關(guān)。輸入信號(hào)[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。
這里采用的是v1特征[12?13],該特征對(duì)圖像有很好的表示,確保預(yù)先學(xué)習(xí)到的慢特征能達(dá)到最優(yōu)。
1.2 堆棧自動(dòng)編碼模型
自動(dòng)編碼器模型是深度學(xué)習(xí)網(wǎng)絡(luò)模型之一,其盡可能復(fù)現(xiàn)輸入信號(hào),捕捉代表輸入信號(hào)的主要成分。
如圖2所示,對(duì)于給定輸入信號(hào)[x],根據(jù)式(2)得到輸出[y],此過(guò)程為編碼過(guò)程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]維權(quán)重矩陣;[b]是偏移向量。
為了驗(yàn)證輸出[y]是否準(zhǔn)確表達(dá)原輸入信號(hào),利用式(2)對(duì)其進(jìn)行重構(gòu),得到重構(gòu)信號(hào)[z]。此過(guò)程為解碼/重構(gòu)過(guò)程:
[gθ′y=sW′y+b′] (4)
從輸入到輸出的權(quán)值記為[θ=W,b],從輸出到輸入的權(quán)值記為[θ′=W′,b′]。逐層進(jìn)行參數(shù)[θ]和[θ′]的優(yōu)化,式(5)為其目標(biāo)函數(shù):
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
調(diào)整參數(shù),使得重構(gòu)誤差達(dá)到最小,因此可以得到[x]的第一層表示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t2.tif>
圖2 普通DA和降噪DA
降噪自動(dòng)編碼器(Denoising Auto Encoder,Dae)是在自動(dòng)編碼器的基礎(chǔ)上給訓(xùn)練數(shù)據(jù)加入噪聲,編碼器需要學(xué)習(xí)去除噪聲而獲得沒(méi)有被噪聲污染的輸入信號(hào),因此獲得輸入信號(hào)更加魯棒的表達(dá)。堆棧自動(dòng)編碼模型(Sda)是將多個(gè)Dae堆疊起來(lái)形成的一種深度網(wǎng)絡(luò)模型。利用優(yōu)化后的參數(shù)[θ]得到當(dāng)前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數(shù)據(jù),逐層進(jìn)行降噪自動(dòng)編碼的過(guò)程,直到到達(dá)多層神經(jīng)網(wǎng)絡(luò)中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t3.tif>
圖3 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法預(yù)先學(xué)習(xí)動(dòng)態(tài)視頻序列的慢特征,將該特征作為模型輸入,進(jìn)行多層降噪自動(dòng)編碼網(wǎng)絡(luò)模型參數(shù)的學(xué)習(xí),最后使用SVM分類器對(duì)該模型的輸出特征進(jìn)行分類,具體步驟如圖4所示。
2 實(shí) 驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)估準(zhǔn)則
實(shí)驗(yàn)所用數(shù)據(jù)由10類動(dòng)態(tài)場(chǎng)景構(gòu)成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個(gè)類別由30個(gè)250×370 pixels大小的彩序列構(gòu)成。這些視頻序列全部來(lái)自于加拿大約克大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室于2012年的YUPENN動(dòng)態(tài)場(chǎng)景數(shù)據(jù)集[14],該數(shù)據(jù)庫(kù)主要強(qiáng)調(diào)的是對(duì)象和表層在短時(shí)間內(nèi)場(chǎng)景的實(shí)時(shí)信息。如圖5所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t4.tif>
圖4 基于Sda的慢特征分析步驟圖
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t5.tif>
圖5 YUPENN動(dòng)態(tài)數(shù)據(jù)庫(kù)
將所有彩序列進(jìn)行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個(gè)尺度上進(jìn)行旋轉(zhuǎn),旋轉(zhuǎn)角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數(shù)為(10×30)×(6×6)=10 800個(gè)。實(shí)驗(yàn)性能使用混淆矩陣(Confusion Matrix)進(jìn)行衡量。混淆矩陣是多分類問(wèn)題中常用的衡量準(zhǔn)則,它使得分類結(jié)果一目了然并能指出錯(cuò)誤預(yù)測(cè)的影響。分類矩陣通過(guò)確定預(yù)測(cè)值是否與實(shí)際值匹配,將模型中的所有事例分為不同的類別。然后會(huì)對(duì)每個(gè)類別中的所有事例進(jìn)行計(jì)數(shù),并在矩陣中顯示總計(jì)。實(shí)驗(yàn)中一共有14個(gè)類別的數(shù)據(jù)集,所以最后會(huì)產(chǎn)生一個(gè)大小為14×14的混淆矩陣。
2.2 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)選用線性SVM分類器,采用Leave?One?Out 分析法進(jìn)行分類。所有視頻序列全部轉(zhuǎn)換成灰度視頻進(jìn)行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網(wǎng)絡(luò)模型的輸入數(shù)據(jù)。
2.2.1 Sda網(wǎng)絡(luò)模型大小
堆棧降噪自動(dòng)編碼器網(wǎng)絡(luò)層數(shù)以及每一層的大小對(duì)輸出特征的魯棒性和SVM分類結(jié)果有重要的影響。當(dāng)網(wǎng)絡(luò)層數(shù)不一樣時(shí),模型學(xué)習(xí)到的特征也就不一樣,網(wǎng)絡(luò)層數(shù)過(guò)低,學(xué)習(xí)力度可能不夠,特征達(dá)不到最佳表示效果,網(wǎng)絡(luò)層數(shù)太高,可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,隱層的大小和最后的分類結(jié)果也息息相關(guān),所以選取不同網(wǎng)絡(luò)層數(shù)和隱層大小分別進(jìn)行實(shí)驗(yàn),如圖6所示,選取網(wǎng)絡(luò)層數(shù)分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當(dāng)隱層大小為500時(shí)的分類得分顯然比1 000和2 000時(shí)高很多;在隱層大小為500時(shí),隨著網(wǎng)絡(luò)層數(shù)不斷增加,實(shí)驗(yàn)結(jié)果不斷提升,當(dāng)網(wǎng)絡(luò)層數(shù)由2層上升到3層時(shí),實(shí)驗(yàn)結(jié)果已經(jīng)非常接近(網(wǎng)絡(luò)層數(shù)為2時(shí)score=95.9%,網(wǎng)絡(luò)層數(shù)為3時(shí)score=96.3%)。可以得知,隨著網(wǎng)絡(luò)層數(shù)不斷增加,分類的效果逐漸提高,當(dāng)網(wǎng)絡(luò)層數(shù)為3時(shí),分類結(jié)果已非常接近。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t6.tif>
圖6 不同網(wǎng)絡(luò)層數(shù)和隱層大小的分類結(jié)果
2.2.2 噪聲
Sdae對(duì)每一層的輸入加入噪聲,編碼器自動(dòng)學(xué)習(xí)如何去除噪聲而獲得更加魯棒的動(dòng)態(tài)紋理特征,因此每一層所加入的噪聲的大小對(duì)提取的特征有很大的影響。因此,選取不同大小的噪聲分別進(jìn)行實(shí)驗(yàn),如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網(wǎng)絡(luò)層大小為[500,500,500];由圖可知,加入噪聲對(duì)分類得分的影響呈類似拋物線形狀,對(duì)每一層輸入數(shù)據(jù)加入25%的噪聲時(shí)score=0.964為最大值。
2.2.3 混淆矩陣以及實(shí)驗(yàn)與現(xiàn)有方法的比較
圖8為實(shí)驗(yàn)最優(yōu)參數(shù)所計(jì)算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達(dá)到100%,噴泉(Fountain)的分類效果雖然最差,但也已經(jīng)達(dá)到83%左右,其容易被誤分成森林火災(zāi)(17%錯(cuò)誤分類)。由該混淆矩陣可以得知,實(shí)驗(yàn)所用方法能夠達(dá)到將近96.4%平均得分。表1是本文所用方法與現(xiàn)有幾個(gè)比較常用的動(dòng)態(tài)紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個(gè)方法中效果最好的,可以達(dá)到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個(gè)動(dòng)態(tài)場(chǎng)景中分類效果總是優(yōu)于其他幾種方法。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t7.tif>
圖7 加入不同噪聲的分類結(jié)果
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t8.tif>
圖8 混淆矩陣
表1 本實(shí)驗(yàn)與現(xiàn)有方法比較
3 結(jié) 語(yǔ)
本文提出一種基于多層降噪自動(dòng)編碼網(wǎng)絡(luò)模型的動(dòng)態(tài)紋理分類方法:預(yù)先學(xué)習(xí)動(dòng)態(tài)視頻序列的慢特征,以此作為多層降噪自編碼網(wǎng)絡(luò)模型的輸入數(shù)據(jù)進(jìn)行非監(jiān)督的深度學(xué)習(xí),網(wǎng)絡(luò)最頂層的輸出即為所提取的動(dòng)態(tài)紋理特征,采用SVM分類器對(duì)該特征進(jìn)行分類。本文對(duì)實(shí)驗(yàn)中的各種影響參數(shù)如網(wǎng)絡(luò)模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實(shí)驗(yàn)證明,該方法所提取的特征對(duì)動(dòng)態(tài)紋理有很好的表示作用,分類效果不錯(cuò),在動(dòng)態(tài)場(chǎng)景分類問(wèn)題中有很大的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識(shí)別與人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.
篇5
關(guān)鍵詞 Sobel算法;算子;邊緣檢測(cè);多方向模板;邊緣細(xì)化
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)27-0159-03
Abstract: Edge extraction is an essential part of image research. In this paper, a variety of edge extraction methods were compared. The traditional Sobel algorithm is described. In view of the traditional Sobel algorithm, the existence of the detection direction is not strong and edge extraction of the characteristics of the rough, an improved 5*5 template extraction method for multi direction algorithm is proposed.. After getting the picture again using the algorithm to deal with edge thinning. According to the experimental results, it can be concluded that compared with the traditional Sobel, the improved algorithm is more fine and the direction is stronger than the traditional one.
Key words:sobel arithmetic; operator; edge detection; multi direction template; edge thinning
1 引言
唐卡在藏族文化、歷史、政治等各個(gè)領(lǐng)域都有涉及,凝聚著藏族人民的智慧,記載了藏族歷史發(fā)展,具有很高的研究?jī)r(jià)值。 在日常生活中,人們主要采用語(yǔ)音和圖像這兩種方式來(lái)進(jìn)行信息的傳遞[1],隨著科學(xué)技術(shù)和數(shù)字媒體的不斷發(fā)展,圖像所包含的信息越來(lái)越豐富。在醫(yī)學(xué)、氣象監(jiān)控、藝術(shù)創(chuàng)作、傳真、微生物工程等都有很大應(yīng)用,因而圖像處理的技術(shù)變得越來(lái)越重要。而圖像邊緣是整個(gè)圖像的整體概貌,圖像的邊緣提取也就成了圖像處理技術(shù)過(guò)程中最基礎(chǔ)也最重要的一步,人們也希望找到一種方法可以抗噪強(qiáng)、定位準(zhǔn)、不漏檢、不誤檢[2]。目前,邊緣提取算法主要可以分為三大類:
第一是基于導(dǎo)數(shù)的方法,比如[3]:1)Sobel算法:一階微分算法,在圖像空間利用兩個(gè)方向模板與圖像進(jìn)行卷積;2)Roberts算法:一階微分的邊緣檢測(cè)算子,利用相鄰對(duì)角方向的兩個(gè)像素之差檢測(cè)邊緣;3)Prewitt算法:一階微分算法,利用水平和垂直兩個(gè)方向的卷與圖像的每個(gè)像素進(jìn)行卷積,兩者得出的最大值即為結(jié)果;4)Kirsch算法:利用8個(gè)方向算子與圖像的像素進(jìn)行卷積檢測(cè)邊緣;5)Canny算法:一種多級(jí)算法;
第二是基于能量準(zhǔn)則的算法,比如:1)松弛算法: 指對(duì)于每個(gè)頂點(diǎn)v∈V,都設(shè)置一個(gè)屬性d[v],用來(lái)描述從源點(diǎn)s到v的最短路徑上權(quán)值的上界,稱為最短路徑估計(jì);2)神經(jīng)網(wǎng)絡(luò)分析: 從神經(jīng)心理學(xué)和認(rèn)知科學(xué)研究成果出發(fā),應(yīng)用數(shù)學(xué)方法發(fā)展起來(lái)的一種具有高度并行計(jì)算能力、自學(xué)能力和容錯(cuò)能力的處理方法;3)Snake算法: 給出初始的輪廓,然后進(jìn)行迭代,使輪廓沿能量降低的方向靠近,最后得到一個(gè)優(yōu)化的邊界;
第三種是剛發(fā)展的一些新技術(shù),比如:小波變換: 一種新的變換分析方法,它繼承和發(fā)展了短時(shí)傅立葉變換局部化的思想,同時(shí)又克服了窗口大小不隨頻率變化等缺點(diǎn),能夠提供一個(gè)隨頻率改變的“時(shí)間-頻率”窗口,是進(jìn)行信號(hào)時(shí)頻分析和處理的理想工具。
2 常用邊緣提取算法的比較
傳統(tǒng)的邊緣算法主要有Sobel算法、Prewitt算法、Roberts算法、Kirsch算法、Canny算法。這些邊緣檢測(cè)算法操作簡(jiǎn)單,速度快,但是檢測(cè)的邊緣容易受到噪聲的干擾,所以都存在檢測(cè)出的邊緣不準(zhǔn)確,造成誤差的原因主要有:1)圖像本身所具有的真實(shí)灰度與我們想檢測(cè)的灰度值之間不完全吻合;2)算子模板方向固定,忽略了其他方向的邊緣;3)都比較容易受噪聲影響。[4]
表1對(duì)傳統(tǒng)邊緣提取的算法在邊緣輸出、漏檢、假檢、邊緣檢測(cè)精度、耗時(shí)、抗噪能力等方面進(jìn)行了比較。從表中可以看出,Sobel算法除了耗時(shí)比較長(zhǎng)以外,是幾種傳統(tǒng)算法中最實(shí)用的一種算法,本文通過(guò)比較,以傳統(tǒng)Sobel算法為基礎(chǔ),在此分析基礎(chǔ)上提出了一種改進(jìn)后的Sobel算法。
3 傳統(tǒng)的sobel算法
3.1 傳統(tǒng)Sobel算法基本理論
Sobel算法是基于梯度的一階導(dǎo)數(shù)的邊緣檢測(cè)方法,由于圖像的灰度邊緣處會(huì)有跳變的現(xiàn)象[6],從而根據(jù)此現(xiàn)象來(lái)進(jìn)行邊緣的檢測(cè)。傳統(tǒng)Sobel算子在圖像空間利用兩個(gè)方向模板與圖像進(jìn)行卷積,一個(gè)是水平梯度方向,來(lái)檢測(cè)垂直邊緣;一個(gè)是垂直梯度方向,來(lái)檢測(cè)水平邊緣。模板中的數(shù)字為模板系數(shù),中間的點(diǎn)表示中心元素,梯度方向與邊緣方向總是正交垂直。兩個(gè)方向的算子如圖1所示:
3.2 算法實(shí)現(xiàn)
首先分別將水平和垂直方向上的兩個(gè)模板的中心點(diǎn)與圖像中的每個(gè)像素對(duì)應(yīng);然后用模板與圖像進(jìn)行卷積;最后兩個(gè)模板與圖像進(jìn)行卷積后得出的兩個(gè)值,比較大小,選出最大值,則為某點(diǎn)的新的像素值。也可理解為是求最大值的方法,用公式定義如下:
g(i,j)=|f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-f(i-1,j-1)-2f(i,j-1)-f(i+1,j-1)|+|f(i-1,j-1)+2f(i-1,j+1)+f(i+1,j-1)-2f(i+1,j)-f(i+1,j+1)|
卷積模板如圖1,卷積的最大值為該點(diǎn)的輸出值。由于傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個(gè)方向,忽略了邊緣的多方向性;其次,檢測(cè)出的邊緣有很多的偽邊緣,并且檢測(cè)出的邊緣較粗,本文提出了8方向的5*5模板的改進(jìn)方法。
4 改進(jìn)后的sobel算法
4.1 8個(gè)方向模板
傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個(gè)方向,檢測(cè)出的邊緣較粗,并且具有偽邊緣,因此,有人提出了一些改進(jìn)的方法,例如:1)先用Sobel進(jìn)行邊緣檢測(cè),用ostu二值化,最后用多像素邊緣細(xì)化算法進(jìn)行細(xì)化;2)先用Sobel進(jìn)行邊緣檢測(cè),用Sobel進(jìn)行細(xì)化,最后用自適應(yīng)的動(dòng)態(tài)閾值計(jì)算方法進(jìn)行二值化;3)基于Sobel算法梯度相乘的熱紅外圖像邊緣提取;4)自適應(yīng)權(quán)值的改進(jìn)算法等等。而本文的改進(jìn)方法是將邊緣方向擴(kuò)展為0°、45°、90°、135°、180°、225°、270°、315° 8個(gè)方向,以此增加邊緣方向的準(zhǔn)確性。如圖2,圖3所示[6]:
4.2 改進(jìn)后算法的實(shí)現(xiàn)
設(shè)(i,j)為圖像上各點(diǎn)像素坐標(biāo),g(i,j)為圖像在該點(diǎn)的灰度值,[g(i,j)]矩陣為將要檢測(cè)的圖像,w(i,j)為最后檢測(cè)所得的結(jié)果,由于8個(gè)方向模板為5*5,s[g(i,j)]即為以點(diǎn)(i,j)為中心的5*5模板,f(k)為圖3中8個(gè)模板(其中k為0、1、2、3、4、5、6、7、),m為長(zhǎng)度為8的數(shù)組。
第一步:將f(k)與s[g(i,j)]進(jìn)行卷積,將計(jì)算所得的結(jié)果的絕對(duì)值存放在數(shù)組m中;
第二步:目的是:查找第一步算出的8個(gè)結(jié)果中的最大值,在一組數(shù)組中查找最大最小值,有二分法、冒泡排序法、選擇排序法等等,由于本文涉及的數(shù)組中數(shù)據(jù)較少,因此選擇順序查找法來(lái)找出數(shù)組中的最大值,順序查找法就是假定要從n個(gè)整數(shù)中查找最大值, 則從頭到尾逐個(gè)查找。具體步驟如下:
a、 令max=m[0],k=1;
b、 若m[k]>max,則max=m[k];否則,k=k+1;
c、 若k
第三步:將max賦給w(i,j),即為該點(diǎn)的輸出值[7]。
最后的輸出值即為該點(diǎn)新的像素值。
4.3 邊緣細(xì)化
我們采用改進(jìn)后的算法對(duì)圖像進(jìn)行邊緣提取,得到的圖像1與原始的圖像相比,圖像1的邊緣灰度有變化,在此基礎(chǔ)上,我們?cè)趯?duì)圖像1進(jìn)行同樣的處理,再用改進(jìn)后算法進(jìn)行提取,得到的圖像2在圖像1的基礎(chǔ)上,中間的圖像部分變成了背景,得到的邊緣更細(xì),兩次所到的圖像邊緣進(jìn)行相減,即:2-1得到圖像3,關(guān)于圖像3,我們將其邊緣像素的負(fù)值全部改為0,所得到的圖像即為細(xì)化后的結(jié)果圖。
5 實(shí)驗(yàn)結(jié)果
為檢測(cè)改進(jìn)后的算法與傳統(tǒng)算法的效果,在VC++環(huán)境下,以轉(zhuǎn)經(jīng)筒和唐卡為例對(duì)進(jìn)行邊緣提取后的效果圖進(jìn)行對(duì)比。圖4圖5為原圖;圖6圖7為傳統(tǒng)算法提取的結(jié)果;圖8圖9為改進(jìn)后的效果圖。有圖可以看出,;圖6檢測(cè)出的邊緣相對(duì)清晰完整,而圖5提取的邊緣比較模糊,并且數(shù)據(jù)比較亂,圖6相對(duì)圖5檢測(cè)的邊緣更加豐富,總的來(lái)說(shuō),本文的方法很好保護(hù)了各方向的邊緣,得到了更好的效果。
6 結(jié)論
針對(duì)傳統(tǒng)Sobel算法的一些弊端,本文擴(kuò)展成5*5的8方向模板,重新定義了模板中的權(quán)值,和傳統(tǒng)Sobel算法相比,在一定程度較好的保留并檢測(cè)出了各個(gè)方向的邊緣,且相對(duì)簡(jiǎn)單,對(duì)于傳統(tǒng)的其他算法,如Roberts算法、Prewitt算法等都可以依據(jù)此方法進(jìn)行改進(jìn),增加模板、擴(kuò)展邊緣方向?yàn)?個(gè)或者更多,以此得到更好的應(yīng)用。
參考文獻(xiàn):
[1]鄭英娟.基于八方向Sobel算子的邊緣檢測(cè)[J].數(shù)字信息處理,2013(S2).
[2]章毓晉.圖像工程[M].北京:清華大學(xué)出版社,1999.
[3]何春華.基于改進(jìn)Sobel算子的邊緣檢測(cè)算法的研究[J].信息光學(xué)與圖像處理,2012(3).
[4]李安安.幾種圖像邊緣檢測(cè)算法的比較和展望[J].信息 技術(shù)與通信,2009(12).
[5]高飛.Sobel邊緣檢測(cè)算子的改進(jìn)研究[J].算法分析,2016(1).
篇6
關(guān)鍵詞: Volterra級(jí)數(shù);非線性系統(tǒng)辨識(shí);廣義頻域響應(yīng)函數(shù)(GFRF);多音信號(hào);Vandermode法
中圖分類號(hào): TP206.3文獻(xiàn)標(biāo)志碼: A
現(xiàn)實(shí)世界中,存在著大量的非線性現(xiàn)象,幾乎所有的控制系統(tǒng)、電子系統(tǒng)都是非線性的,線性只是對(duì)非線性在一定程度和范圍內(nèi)的近似描述.隨著現(xiàn)代科學(xué)技術(shù)的飛速發(fā)展,關(guān)于非線性系統(tǒng)的控制、建模、分析、綜合和預(yù)測(cè)等問(wèn)題日益凸現(xiàn),非線性已成為目前研究的熱點(diǎn)問(wèn)題.
解決非線性問(wèn)題的基礎(chǔ)是建立描述非線性系統(tǒng)的數(shù)學(xué)模型,Volterra級(jí)數(shù)是非線性系統(tǒng)建模的常用模型之一,包括時(shí)域核及頻域核兩種形式[12].Volterra核函數(shù)是線性系統(tǒng)描述的直接擴(kuò)展,與線性系統(tǒng)的脈沖和頻率響應(yīng)函數(shù)一樣,能夠描述非線性系統(tǒng)的本質(zhì)特性,具有物理意義明確、適應(yīng)范圍廣等優(yōu)點(diǎn),在諸多領(lǐng)域取得了許多成功的應(yīng)用[36].Volterra時(shí)域核的傅里葉變換形式被稱作Volterra頻域核,或廣義頻域響應(yīng)函數(shù)(generalized frequencyresponse functions, GFRFs)[7].Volterra頻域核提供了從頻域分析非線性系統(tǒng)的方法,人們往往更加關(guān)心Volterra頻域核,這是由于相對(duì)于Volterra時(shí)域核,其頻域形式可使人們直觀、準(zhǔn)確地理解許多重要的非線性現(xiàn)象.Chua給出了多音激勵(lì)下Volterra核頻域輸出特性[8];Bedrosian分析了在諧波及高斯輸入激勵(lì)下Volterra系統(tǒng)的輸出特性[9].目前,Volterra頻域核的辨識(shí)方法分為參數(shù)辨識(shí)和非參數(shù)辨識(shí)兩種[1011].參數(shù)辨識(shí)的方法是基于非線性系統(tǒng)的微分方程來(lái)辨識(shí)Volterra頻域核[1215],該方法比較成熟;非參數(shù)辨識(shí)是基于系統(tǒng)的輸入輸出數(shù)據(jù)來(lái)辨識(shí)Volterra頻域核[1620].由于非線性系統(tǒng)的復(fù)雜性,通常很難獲得其理想的數(shù)學(xué)模型,因此參數(shù)辨識(shí)的方法有其局限性.由于非參西南交通大學(xué)學(xué)報(bào)第48卷第2期韓海濤等:基于多音激勵(lì)的Volterra頻域核非參數(shù)辨識(shí)方法數(shù)辨識(shí)是基于“黑箱”辨識(shí),不用了解系統(tǒng)的內(nèi)部機(jī)理及物理特性,只根據(jù)系統(tǒng)的輸入輸出數(shù)據(jù)進(jìn)行辨識(shí),因此更具有實(shí)用性.
文獻(xiàn)[16]提出了一種基于時(shí)域分析的非參數(shù)辨識(shí)方法,該方法僅能計(jì)算出Volterra核在諧波頻率成分處的值,且只適用于辨識(shí)前3階Volterra核;文獻(xiàn)[17]采用高斯白噪聲作為系統(tǒng)的輸入激勵(lì),根據(jù)時(shí)域自適應(yīng)辨識(shí)方法對(duì)Volterra核進(jìn)行辨識(shí),這種方法待辨識(shí)的參數(shù)與系統(tǒng)的記憶長(zhǎng)度和階次成指數(shù)增加,辨識(shí)過(guò)程復(fù)雜、計(jì)算量大;文獻(xiàn)[1819]基于頻率分離思想給出了基于多音激勵(lì)的Volterra頻域核的非參數(shù)辨識(shí)方法,該方法具有較高的辨識(shí)精度,然而沒(méi)有系統(tǒng)地推導(dǎo)出任一階Volterra頻率核的辨識(shí)公式;文獻(xiàn)[20]雖然給出了多音激勵(lì)下Volterra頻域核的估算公式,但估算誤差比較大,使非參數(shù)辨識(shí)方法的應(yīng)用受到很大的限制;文獻(xiàn)[21]提出了Volterra頻域核辨識(shí)的多音激勵(lì)信號(hào)設(shè)計(jì),為多音激勵(lì)下Volterra頻域核的非參數(shù)辨識(shí)奠定了基礎(chǔ).本文對(duì)多音激勵(lì)下Volterra頻域核的輸出特性進(jìn)行了深入研究,從理論上系統(tǒng)地推導(dǎo)出了Volterra頻域核的辨識(shí)公式,克服了以往Volterra頻率核非參數(shù)辨識(shí)方法的不足,通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證了本文結(jié)論的正確性.1Volterra頻域核的定義及重要性質(zhì)對(duì)任意連續(xù)的時(shí)不變?nèi)醴蔷€性動(dòng)態(tài)系統(tǒng),可以用廣義卷積分或Volterra級(jí)數(shù)完全描述:
5結(jié)束語(yǔ)Volterra頻域核的傳統(tǒng)辨識(shí)方法存在計(jì)算量大、步驟復(fù)雜、精度不高的問(wèn)題.本文針對(duì)這些問(wèn)題提出了一種新的基于多音激勵(lì)的非參數(shù)辨識(shí)方法.重點(diǎn)探討了多音信號(hào)激勵(lì)下Volterra頻域核輸出特性,基于此性質(zhì)推導(dǎo)出了Volterra頻域核的辨識(shí)公式,并總結(jié)出了基于多音激勵(lì)Volterra頻域核辨識(shí)的一般方法步驟.通過(guò)對(duì)一非線性系統(tǒng)的Volterra頻域核進(jìn)行辨識(shí),驗(yàn)證了該方法的有效性.該方法具有計(jì)算量小、精度高、易于工程實(shí)現(xiàn)的特點(diǎn),可廣泛應(yīng)用于非線性系統(tǒng)的建模及故障診斷,是一種實(shí)用的方法.
參考文獻(xiàn):
[1]RUGH W J. Nonlinear system theory[M]. The Jonhs Hopkins University Press, 1981: 320.
[2]PENG Zekai, LANG Zhiqiang, BILLING S A. Resonances and resonant frequencies for a class of nonlinear system[J]. Journal of Sound and Vibration, 2007, 300(3): 9931014.
[3]馬紅光,韓崇昭,王國(guó)華,等. 雷達(dá)引信視頻放大器的GFRF辨識(shí)模型及其誤差分析[J]. 探測(cè)與控制學(xué)報(bào),2004,26(3): 5054.
MA Hongguang, HAN Chongzhao, WANG Guohua, et al. The GFRF identification model of radar video frequency amplifier and its error analysis[J]. Journal of Detection and Control, 2004, 26(3): 5054.
[4]馬紅光,韓崇昭,孔祥玉,等. 基于電路仿真的接收機(jī)中頻放大器的GFRF模型[J]. 系統(tǒng)仿真學(xué)報(bào),2004,16(6): 11431146.
MA Hongguang, HAN Chongzhao, KONG Xiangyu, et al. The GFRF identification model of radar fuze receiver[J]. Journal of System Simulation, 2004, 16(6): 11431146.
[5]馬紅光,韓崇昭,王國(guó)華,等. 基于EDA仿真的中頻放大器GFRF模型[J]. 計(jì)算機(jī)仿真,2004,21(7): 2225.
MA Hongguang, HAN Chongzhao, WANG Guohua, et al. GFRF identification model of IF amplifier based on EDA simulation[J]. Computer Simulation, 2004, 21(7): 2225.
[6]LIU Haiying. Classification of stably dissipative 3D LotkaVolterra system and their necessary and sufficient condition for being stably dissipative[J]. Journal of Modern Transportaion, 2008, 16(3): 298302.
[7]LANG Zhiqiang, BILLING S A. Output frequency characteristics of nonlinear system[J]. International Journal of Control, 1996, 64(6): 10491067.
[8]CHUA L O, NG C Y. Frequency domain analysis of nonlinear systems: general theory[J]. Electronic Circuit and Systems, 1979, 3(4): 165185.
[9]BEDROSIAN E, RICE S O. The output properties of Volterra systems (nonlinear systems with memory) driven by harmonic and Gaussian inputs[J]. Proceedings of the IEEE, 1971, 59(12): 16881707.
[10]LI L M, BILLINGS S A. Analysis of nonlinear oscillators using Volterra series in the frequency domain[J]. Journal of Sound and Vibration, 2011, 330(2): 337355.
[11]CHATTERJEE A, VYAS N S. Nonlinear parameter estimation with Volterra series using the method of recursive iteration through harmonic probing[J]. Journal of Sound and Vibration, 2003, 268(4): 657678.
[12]BILLING S A, TSANG K M. Spectral analysis for nonlinear system, part I: parametric nonlinear spectral analysis[J]. Mechanical Systems and Signal Processing, 1989, 3(4): 319339.
[13]BILLING S A, JONES J C. Mapping nonlinear integrodifferential equations into the frequency domain[J]. International Journal of Control, 1990, 52(4): 863879.
[14]JONES J C, BILLING S A. A recursive algorithm for the computing the frequency response of a class of nonlinear difference equation models[J]. International Journal of Control, 1989, 50(5): 19251940.
[15]JONES J C. Simplified computation of Volterra frequency response functions of nonlinear system[J]. Mechanical Systems and Signal Processing, 2007, 21(3): 14521468.
[16]LI L M, BILLINGS S A. Estimation of generalized frequency response functions for quadratically and cubically nonlinear systems[J]. Journal of Sound and Vibration, 2011, 330(3): 461470.
[17]張家良,曹建福,高峰. 大型裝備傳動(dòng)系統(tǒng)非線性頻譜特征提取與故障診斷[J]. 控制與決策,2012,27(1): 135138.
ZHANG Jialiang, CAO Jianfu, GAO Feng. Feature extraction and fault diagnosis of largescale equipment transmission system based on nonlinear frequency spectrum[J]. Control and Decision, 2012, 27(1): 135138.
[18]BOYD S, TANG Y S, CHUA L O. Measuring Volterra kernel[J]. IEEE Transactions on Circuits and Systems, 1983, 30(8): 571577.
[19]CHUA L O, LIAO Youlin. Measuring Volterra kernel (Ⅱ)[J]. International Journal of Circuit Theory and Applications, 1989, 17(2): 151190.
[20]殷時(shí)蓉. 基于Volterra級(jí)數(shù)和神經(jīng)網(wǎng)絡(luò)的非線性電路故障診斷研究[D]. 成都:電子科技大學(xué),2007: 5354.
[21]韓海濤,馬紅光,韓琨,等. 關(guān)于Volterra頻域核辨識(shí)的多音激勵(lì)信號(hào)設(shè)計(jì)[J]. 工程設(shè)計(jì)學(xué)報(bào),2012,19(2): 123127.
篇7
關(guān)鍵詞:紅棗(Ziziphus zizyphus);邊緣檢測(cè);分級(jí)
中圖分類號(hào):S665.1;TP751.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0439-8114(2014)10-2427-04
Grading Red Dates Based on the Size from Image Edge Detection
YAO Na,WU Gang,CHEN Jie
(College of Information Engineering,Tarim University,Alar843300,Xinjiang,China)
Abstract:Starting from the application area of research in computer vision, a method of using image edge detection to calculate the size of red dates and to classify red dates in the case of absenting decayed red dates was developed. Simulation of edge detection demonstrated the validity and superiority of the wavelet method and the simulation of grading detection proved that the new method was effective and rapid,providing the basis for the key design of red dates classifier.
Key words:red dates(Ziziphus zizyphus); edge detection; grading
基金項(xiàng)目:新疆生產(chǎn)建設(shè)兵團(tuán)青年科技創(chuàng)新資金專項(xiàng)(2013CB020)
新疆地區(qū)紅棗品種較多,有的品種含糖量高達(dá)34%,其營(yíng)養(yǎng)豐富,受到人們的喜愛(ài)。目前,紅棗品種越來(lái)越多,其產(chǎn)量及銷售量也越來(lái)越高,紅棗采集后對(duì)其進(jìn)行分類是加工過(guò)程中很重要的工作環(huán)節(jié),最初的分揀都是由人工完成,一方面需要大量的人力資源;另一方面不能保證產(chǎn)品的安全。隨著科學(xué)技術(shù)的發(fā)展,農(nóng)業(yè)機(jī)械化的應(yīng)用越來(lái)越廣泛,研究者將重點(diǎn)關(guān)注紅棗自動(dòng)分級(jí),可以節(jié)省人力而實(shí)現(xiàn)農(nóng)業(yè)自動(dòng)化。李湘萍[1]介紹了紅棗分級(jí)機(jī)的工作原理;張保生等[2]將紅棗的形狀特征、顏色特征和紋理特征通過(guò)BP網(wǎng)絡(luò)算法進(jìn)行自動(dòng)分級(jí);趙文杰等[3]提出了以顏色作為特征利用支持向量機(jī)的方法進(jìn)行紅棗的缺陷識(shí)別,識(shí)別率可達(dá)96.2%;肖愛(ài)玲[4]對(duì)幾種典型的紅棗分級(jí)機(jī)的結(jié)構(gòu)進(jìn)行了介紹;肖愛(ài)玲等[5]對(duì)2011年前紅棗的分級(jí)技術(shù)及研究現(xiàn)狀進(jìn)行了總結(jié);沈從舉等[6]對(duì)紅棗分級(jí)機(jī)的研究狀態(tài)和應(yīng)用方法進(jìn)行了歸納。
目前,基于計(jì)算機(jī)視覺(jué)的方法具有智能化、精度高、損傷小等優(yōu)點(diǎn),該方法的核心部分在于選取什么特征以及利用何種算法對(duì)紅棗進(jìn)行判斷。研究者提出的方法具有一個(gè)共同特點(diǎn)是特征選取較多,比如同時(shí)提取顏色特征、形狀特征和紋理特征,因此計(jì)算量較大,分級(jí)機(jī)的設(shè)計(jì)組成對(duì)信息處理的硬件部分有較高的要求,在紅棗分級(jí)機(jī)的設(shè)計(jì)中存在兩方面的問(wèn)題:一方面成本較高;另一方面硬件達(dá)不到設(shè)計(jì)的要求。小波變換對(duì)噪聲不敏感,邊緣檢測(cè)清晰,所以有不少研究者將不同的小波變換方法[7-10]應(yīng)用在圖像邊緣檢測(cè)中,經(jīng)仿真試驗(yàn)證明也適合應(yīng)用在紅棗的邊緣檢測(cè)中。因此,本研究提出一種簡(jiǎn)單的分級(jí)方法來(lái)對(duì)紅棗進(jìn)行分級(jí),即以提取紅棗的邊緣特征,只有形狀特征,應(yīng)用小波變換的算法,減少了計(jì)算量。
1材料與方法
1.1材料
紅棗品種為新疆阿拉爾地區(qū)種植的駿棗,已經(jīng)過(guò)人為的挑揀,測(cè)試結(jié)果得分為優(yōu)等級(jí)的個(gè)數(shù)較多。
1.2檢測(cè)方法
在無(wú)腐爛的情況下,個(gè)體較大、飽滿的紅棗可分到較高的級(jí)別中,可用邊緣檢測(cè)方法對(duì)紅棗的邊緣進(jìn)行檢測(cè),然后根據(jù)檢測(cè)出的邊緣再計(jì)算紅棗的面積,面積大于某一設(shè)定閾值的紅棗為優(yōu)等級(jí),其余為低級(jí)。
1.3小波邊緣檢測(cè)
小波變換可以解決時(shí)域和頻域的矛盾,可以將信號(hào)進(jìn)行更精確地分析。圖像中的邊緣點(diǎn)為灰度變化較大的像素點(diǎn),即一階微分極大值點(diǎn)或者二階微分過(guò)零點(diǎn)。圖像邊緣檢測(cè)可以通過(guò)小波的奇異性來(lái)檢測(cè)。設(shè)θ(x,y)為一個(gè)平滑的二維函數(shù),在考慮尺度參數(shù)的情況下,θa(x,y)=■■,■,那么二維小波的定義[11]為:
ψx(x,y)=■
ψy(x,y)=■
用矢量形式表示二維小波變換:
a■+■
=af■(x,y)■+f■(x,y)■
=af(x,y)[ψx(x,y)■+ψy(x,y)■]
=a[(fψx)(x,y)■+(fψy)(x,y)■]
=Wxa f(x,y)■+Wya f(x,y)■
=aΔ(fθa)(x,y)
fθa(x,y)表示圖像f(x,y)與平滑函數(shù)θa(x,y)卷積后的平滑圖像。梯度矢量的模值為:
■ (3)
梯度矢量與水平方向的夾角為:
α=Arg[Wa(x,y)]
=arctan■(4)
確定梯度矢量的模值極值后,再經(jīng)過(guò)閾值的處理,可以得到圖像的邊緣,不同的a可以實(shí)現(xiàn)多個(gè)不同尺度的檢測(cè)。圖像中目標(biāo)的方向性是重要的特征之一,作為小波的改進(jìn)方向,小波的應(yīng)用成為了一個(gè)研究熱點(diǎn),它能有較好的方向性分析,體現(xiàn)了圖像的方向性。任意方向小波變換[12]的定義為:(假設(shè)γ=0,θ∈[0,π)]
Wθa f(x,y)=f(x,y)*g(x,y,θ,γ)
=Wθa f(x,y)cosθ+Wθa f(x,y)sinθ
=||Wa f(x,y)||■?
cosθ+■sinθ (5)
=||Wa f(x,y)||(cos(Arg[Wa f(x,y)]))?
cosθ+sin(Arg[Wa f(x,y)])sinθ
=||Wa f(x,y)||(cosαcosθ+sinαsinθ)
=||Wa f(x,y)||cos(α-θ)
運(yùn)用小波方法對(duì)紅棗進(jìn)行邊緣檢測(cè),為紅棗分級(jí)檢測(cè)解決基礎(chǔ)性的第一步難題,同時(shí)也用經(jīng)典的Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子對(duì)紅棗進(jìn)行邊緣檢測(cè)以便比較分析各自的特點(diǎn)。
1.4分級(jí)檢測(cè)的過(guò)程
檢測(cè)紅棗邊緣后需要對(duì)紅棗的面積進(jìn)行計(jì)算,通過(guò)對(duì)邊緣點(diǎn)的長(zhǎng)度進(jìn)行計(jì)算可以得出邊緣的長(zhǎng)度,將紅棗的形狀假設(shè)為圓形,可以用圓周長(zhǎng)將圓面積求出,即可以求出紅棗的面積。假設(shè)計(jì)算檢測(cè)出邊緣點(diǎn)的長(zhǎng)度,紅棗的面積近似為:
s=■ (6)
因?yàn)檎麄€(gè)過(guò)程屬于比較過(guò)程,所以進(jìn)行近似計(jì)算不影響相對(duì)的比較。
整個(gè)分級(jí)檢測(cè)的仿真試驗(yàn)步驟為:
1)讀入紅棗圖像,將彩色RGB圖像轉(zhuǎn)為灰度圖像;
2)對(duì)紅棗灰度圖像求出小波變換的模值和梯度矢量與水平方向的夾角;
3)在水平方向、垂直方向、-45°方向和+45°方向4個(gè)方向上進(jìn)行搜索判斷模值和梯度方向的條件得到邊緣值,將得到的邊緣值進(jìn)行歸一化,設(shè)定閾值為0.18來(lái)判斷紅棗圖像的邊緣;
4)計(jì)算紅棗的邊緣長(zhǎng)度,確定紅棗邊緣長(zhǎng)度的閾值;
5)根據(jù)公式(6)計(jì)算紅棗的面積;大于邊緣長(zhǎng)度閾值的對(duì)應(yīng)面積閾值的紅棗判定為優(yōu)良等級(jí)的紅棗,否則為較差等級(jí)的紅棗。
針對(duì)不同的分級(jí)機(jī)的機(jī)械設(shè)計(jì),紅棗面積的閾值的確定可以根據(jù)兩種方式:一種方式是針對(duì)分級(jí)機(jī)單個(gè)讀取紅棗圖像并直接進(jìn)行分級(jí)挑揀的情況,閾值根據(jù)經(jīng)驗(yàn)值來(lái)確定,比如某種品種的紅棗大小是在固定范圍內(nèi)波動(dòng),預(yù)先設(shè)定固定的閾值來(lái)進(jìn)行分級(jí)挑揀;另一種方式是針對(duì)分級(jí)機(jī)進(jìn)行大量紅棗圖像同時(shí)進(jìn)行讀取時(shí),遍歷全部紅棗圖像,找到最大面積的紅棗,然后閾值設(shè)定為最大值的80%,大于該閾值的紅棗判定為優(yōu)等級(jí),否則判定為較差等級(jí)。
2結(jié)果與分析
仿真試驗(yàn)中分別對(duì)單個(gè)紅棗和兩個(gè)紅棗為例進(jìn)行小波的邊緣檢測(cè),并且將小波檢測(cè)結(jié)果與Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子檢測(cè)結(jié)果進(jìn)行分析對(duì)比。
2.1 單個(gè)紅棗檢測(cè)結(jié)果
圖1為理想的情況,即一個(gè)紅棗全部被讀入沒(méi)有遮蓋的情況,也是正常情況下的邊緣檢測(cè)。由圖1可以看出,小波方法檢測(cè)出的曲線較少,輪廓清晰,輪廓線的連續(xù)性好,一方面有利于邊緣長(zhǎng)度的計(jì)算;另一方面減少了曲線個(gè)數(shù)的計(jì)算,減少了整個(gè)方法的計(jì)算量。Sobel算子檢測(cè)出的紅棗圖像與小波的方法相比較,噪點(diǎn)較多,定位精度不夠高,邊緣比較模糊;Canny算子檢測(cè)到的邊緣雖然比較連續(xù),但是出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計(jì)算紅棗大小時(shí)會(huì)增加計(jì)算量,并且容易出錯(cuò);Prewitt算子和Roberts算子的檢測(cè)結(jié)果類似于Sobel算子的檢測(cè)結(jié)果,并且Roberts算子的檢測(cè)結(jié)果中邊緣斷點(diǎn)較多,給計(jì)算紅棗的長(zhǎng)度帶來(lái)困難;Log算子的檢測(cè)結(jié)果邊緣較為連續(xù),有少量斷點(diǎn),與小波方法相比較紅棗內(nèi)部的噪點(diǎn)較多,復(fù)雜度僅次于Canny算子的方法檢測(cè)出的結(jié)果。根據(jù)邊緣檢測(cè)的效果和計(jì)算復(fù)雜度以及后期需要的算法的復(fù)雜度來(lái)比較這幾種方法的優(yōu)劣順序?yàn)樾〔ārewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子。
2.2兩個(gè)有遮蓋的紅棗檢測(cè)結(jié)果
圖2為遮蓋的情況,因此單個(gè)紅棗的邊緣不能完全檢測(cè)出,但是根據(jù)周長(zhǎng)閾值的比較結(jié)果,同樣可以算出單個(gè)紅棗的面積。由圖2可以看出,小波方法對(duì)于有遮蓋的紅棗檢測(cè)仍是輪廓清晰且連續(xù)性好,內(nèi)部曲線較少。Sobel算子檢測(cè)出的紅棗圖像與小波的方法相比較,噪點(diǎn)較多,邊緣斷點(diǎn)較多,邊緣比較模糊;Canny算子檢測(cè)到的邊緣過(guò)于模糊且斷點(diǎn)較多,還出現(xiàn)了由噪聲產(chǎn)生的偽邊緣,這樣在計(jì)算紅棗大小時(shí)對(duì)后期的算法要求較高,且容易出現(xiàn)錯(cuò)誤結(jié)果;Prewitt算子和Roberts算子的檢測(cè)結(jié)果類似于Sobel算子的檢測(cè)結(jié)果,Roberts算子的檢測(cè)結(jié)果中邊緣較為清楚;Log算子的檢測(cè)結(jié)果邊緣斷點(diǎn)較多,與小波方法相比較紅棗內(nèi)部的噪點(diǎn)較多,復(fù)雜度僅次于Canny算子的方法檢測(cè)出的結(jié)果。根據(jù)邊緣檢測(cè)的結(jié)果和計(jì)算復(fù)雜度以及后期算法的復(fù)雜度來(lái)比較這幾種方法的優(yōu)劣順序?yàn)樾〔āoberts算子、Prewitt算子、Sobel算子、Log算子、Canny算子。對(duì)于單個(gè)和兩個(gè)紅棗進(jìn)行檢測(cè)的仿真結(jié)果都說(shuō)明:較于其他5種算子,小波方法均是最優(yōu)的。
研究中采集的紅棗圖像大小為442×398像素,閾值采用經(jīng)驗(yàn)值,實(shí)際的周長(zhǎng)閾值映射到圖像中的周長(zhǎng)為1 084像素,仿真試驗(yàn)結(jié)果判定為準(zhǔn)確可行,試驗(yàn)結(jié)果見(jiàn)表1。
3小結(jié)與討論
隨著自動(dòng)化技術(shù)在農(nóng)業(yè)產(chǎn)品中應(yīng)用越來(lái)越廣泛,其理論研究的方法也越來(lái)越多,從計(jì)算機(jī)視覺(jué)領(lǐng)域結(jié)合農(nóng)業(yè)自動(dòng)化技術(shù)提出了對(duì)紅棗加工有促進(jìn)作用的紅棗自動(dòng)分級(jí)的核心方法,對(duì)于紅棗生產(chǎn)的地區(qū)有重要意義。研究提出了利用方向小波方法對(duì)紅棗圖像進(jìn)行邊緣檢測(cè)進(jìn)而計(jì)算紅棗大小來(lái)對(duì)紅棗分級(jí)的方法,經(jīng)仿真試驗(yàn)證明小波變換方法的優(yōu)越性及整個(gè)方法的有效性和快速性。此研究是在假設(shè)紅棗無(wú)腐爛的情況下進(jìn)行分級(jí)的,所以有一定的局限性,但在下一步研究中可以彌補(bǔ)此點(diǎn)的不足,設(shè)置多個(gè)閾值可以將紅棗進(jìn)行多個(gè)等級(jí)的分揀。
參考文獻(xiàn):
[1] 李湘萍.6ZF-0.5型紅棗分級(jí)機(jī)的試驗(yàn)研究[J].山西農(nóng)機(jī),2000(14):3-5.
[2] 張保生,姚瑞央.基于BP神經(jīng)網(wǎng)絡(luò)算法的紅棗分級(jí)技術(shù)應(yīng)用[J].廣東農(nóng)業(yè)科學(xué),2010(11):282-283.
[3] 趙杰文,劉少鵬,鄒小波.基于機(jī)器視覺(jué)和支持向量機(jī)的缺陷棗的識(shí)別研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2008,39(3):113-115.
[4] 肖愛(ài)玲.幾種典型的紅棗分級(jí)機(jī)[J].新疆農(nóng)機(jī)化,2010(4):10-11.
[5] 肖愛(ài)玲,李偉.我國(guó)紅棗分級(jí)技術(shù)及紅棗分級(jí)機(jī)研究現(xiàn)狀[J].農(nóng)機(jī)化研究,2011(11):241-244.
[6] 沈從舉,賈首星,鄭炫,等.紅棗分級(jí)機(jī)械的現(xiàn)狀與發(fā)展[J].中國(guó)農(nóng)機(jī)化學(xué)報(bào),2013,34(1):26-30.
[7] 宋文龍,閔昆龍,邢奕,等.基于小波變換的自適應(yīng)閾值植物根系圖像邊緣檢測(cè)[J].北京科技大學(xué)學(xué)報(bào),2012,34(8):966-970.
[8] 王敬東,徐亦斌,.圖像小波邊緣檢測(cè)中邊界處理的研究[J].計(jì)算機(jī)工程,2007,33(5):161-163.
[9] 鮑雄偉.小波變換在圖像邊緣檢測(cè)中的應(yīng)用[J].電子設(shè)計(jì)工程,2012,20(14):160-162.
[10] 薄勝坤,張麗英.一種基于小波變換和Canny算子相結(jié)合的邊緣檢測(cè)方法[J].長(zhǎng)春大學(xué)學(xué)報(bào),2012,22(10):1177-1180.
篇8
1影像組學(xué)的定義及方法概述
隨著醫(yī)學(xué)影像技術(shù)及成像手段的快速發(fā)展,所產(chǎn)生的醫(yī)學(xué)圖像數(shù)據(jù)量也越來(lái)越大,對(duì)圖像獲取和存儲(chǔ)方面的質(zhì)量控制,使得規(guī)范化、多模態(tài)的影像大數(shù)據(jù)集的建立成為可能。過(guò)去處理及使用小樣本量圖像數(shù)據(jù)的方法和模式,顯然不能對(duì)圖像的大數(shù)據(jù)信息進(jìn)行充分的挖掘和利用。荷蘭學(xué)者Lambin于2012年首次提出了影像組學(xué)(Radiomics)的概念[9],作為一種新興的利用醫(yī)學(xué)影像大數(shù)據(jù)對(duì)疾病進(jìn)行定量分析預(yù)測(cè)的方法,可以從醫(yī)學(xué)圖像中獲得更多客觀定量、肉眼難以鑒別的影像學(xué)特征,再將其轉(zhuǎn)換為可挖掘的高維數(shù)據(jù)信息,從而實(shí)現(xiàn)圖像到數(shù)據(jù)的轉(zhuǎn)換[10,11]。通過(guò)大量的自動(dòng)化數(shù)據(jù)特征化算法的使用,影像組學(xué)能有效實(shí)現(xiàn)圖像的采集與重組、病灶的分割及勾畫(huà),并通過(guò)對(duì)病灶影像組學(xué)特征的提取與篩選,最終完成影像組學(xué)模型的建立[11,12]。近些年來(lái),影像組學(xué)已廣泛應(yīng)用于不同疾病的研究之中,在疾病檢測(cè)、診斷、鑒別診斷及預(yù)后評(píng)估方面發(fā)揮著越來(lái)越重要的作用。此外,深度學(xué)習(xí)(Deeplearning)等人工智能技術(shù)的突破性發(fā)展,減少了傳統(tǒng)影像組學(xué)人工提取數(shù)據(jù)特征的步驟,極大地縮短了從病灶影像組學(xué)特征提取到最終影像組學(xué)模型建立的時(shí)間,進(jìn)一步促進(jìn)了影像組學(xué)技術(shù)在醫(yī)學(xué)圖像處理等諸多領(lǐng)域的應(yīng)用研究。
2影像組學(xué)在肝臟非腫瘤性病變中的研究進(jìn)展
2.1肝纖維化及肝硬化的診斷評(píng)估
肝纖維化是各種慢性肝病發(fā)展為肝硬化或肝癌的過(guò)渡階段,主要是由含大量膠原蛋白的細(xì)胞外基質(zhì)(extracellularmatrix,ECM)過(guò)度沉積于肝小葉周圍所引起,這些過(guò)度沉積的ECM阻礙正常肝細(xì)胞與血液間的物質(zhì)交換,并最終引起肝細(xì)胞的的壞死、變性,從而誘發(fā)了肝纖維化等一系列的慢性肝損傷的過(guò)程。組織學(xué)上肝纖維化及部分肝硬化經(jīng)治療后可逆[14],因此早期精準(zhǔn)地評(píng)估肝纖維化程度對(duì)于患者的治療及預(yù)后十分重要。作為診斷是否存在肝纖維化和評(píng)估肝纖維化分期的“金標(biāo)準(zhǔn)”的肝活組織穿刺檢查有創(chuàng)、可重復(fù)性差,并且肝纖維化的不均質(zhì)性、穿刺活檢樣本量較少等因素,均會(huì)影響肝纖維化分期的準(zhǔn)確性[13,14]。影像組學(xué)作為一種無(wú)創(chuàng)性的方法,可以對(duì)肝纖維化及肝硬化程度進(jìn)行更加準(zhǔn)確的評(píng)估。Park等[7]回顧性搜集436例不同肝纖維化患者的釓塞酸二鈉增強(qiáng)MRI圖像并構(gòu)建影像組學(xué)肝纖維化指數(shù)模型,通過(guò)與肝活檢結(jié)果對(duì)比并內(nèi)部驗(yàn)證剔除相關(guān)性較低的特征,最終建立與肝纖維化分期相關(guān)性較高的模型,進(jìn)行前瞻性驗(yàn)證后發(fā)現(xiàn)其診斷F2~F4、F3~F4級(jí)肝纖維化及F4級(jí)肝硬化的敏感度和特異度分別為71%、78%,79%、82%,92%、75%;表明基于釓塞酸二鈉增強(qiáng)掃描肝膽期圖像的影像組學(xué)分析能較為準(zhǔn)確地進(jìn)行肝纖維化的診斷及分期。Wang等[15]搜集12個(gè)臨床醫(yī)學(xué)中心,398例患者共1990幅超聲二維剪切波彈性成像圖像,采用深度學(xué)習(xí)算法之一的卷積神經(jīng)網(wǎng)絡(luò)(convolutionneuralnetwork,CNN)建立了超聲彈性成像深度學(xué)習(xí)影像組學(xué)模型,并以肝活檢作為金標(biāo)準(zhǔn)進(jìn)行模型診斷效能的評(píng)估,結(jié)果顯示該模型可顯著提高對(duì)肝纖維化分期的準(zhǔn)確性,其對(duì)肝硬化(F4)、晚期纖維化(≥F3)和顯著性纖維化(≥F2)診斷的曲線下面積(AUC)值分別高達(dá)0.97、0.98和0.85,表現(xiàn)出極佳的診斷效能。有研究[16]采用紋理分析的方法對(duì)212例不同病理分期肝纖維化患者和77名志愿者肝臟多層螺旋CT圖像進(jìn)行分析后發(fā)現(xiàn),隨著肝纖維程度的逐步加重,由紋理分析所獲得的峰度和偏斜度是逐步減低的,而平均灰度強(qiáng)度、熵則表現(xiàn)為依次增高,在區(qū)分不同分期肝纖維化和肝硬化時(shí)均顯示出較高的診斷效能,特別是在診斷肝硬化(≥F4)時(shí),峰度和偏斜度的診斷的AUC值分別為0.86、0.87,表明紋理分析不僅有助于檢測(cè)肝纖維化的存在,還可用于肝纖維化的分期。綜上所述,基于多種成像手段所構(gòu)建的影像組學(xué)模型對(duì)肝纖維化及肝硬化均表現(xiàn)出較高的評(píng)估診斷效能,故影像組學(xué)的發(fā)展,可能為臨床上早期發(fā)現(xiàn)、及時(shí)準(zhǔn)確評(píng)估肝纖維化及肝硬化程度提供幫助,但基于不同成像手段所建立的影像組學(xué)模型間性能差異的研究,有待進(jìn)一步的探索。
2.2門靜脈高壓及GOV破裂出血風(fēng)險(xiǎn)的評(píng)估
肝硬化失代償期常伴隨門靜脈高壓癥的出現(xiàn),其嚴(yán)重程度與肝硬化所導(dǎo)致的相關(guān)并發(fā)癥如GOV、肝性腦病、腹腔積液等密切相關(guān),因此,準(zhǔn)確地評(píng)估門靜脈高壓程度十分重要。但是,目前評(píng)估門靜脈壓力變化的金標(biāo)準(zhǔn)肝靜脈壓力梯度(hepaticvenouspressuregradient,HVPG)為有創(chuàng)檢查、且費(fèi)用較高,不利于臨床常規(guī)開(kāi)展[17,18]。GOV破裂出血是晚期肝硬化最常見(jiàn)、最嚴(yán)重的并發(fā)癥,也是患者死亡的主要原因,相關(guān)研究顯示近50%門靜脈高壓癥患者可出現(xiàn)GOV,在肝功能C級(jí)的患者中,GOV出現(xiàn)概率高達(dá)85%,食管胃十二指腸內(nèi)鏡是診斷GOV的“金標(biāo)準(zhǔn)”[19],主要通過(guò)觀察內(nèi)鏡下GOV的范圍、程度及“紅色征”等進(jìn)行出血風(fēng)險(xiǎn)的評(píng)估,但內(nèi)鏡檢查對(duì)于GOV程度嚴(yán)重的患者可重復(fù)性差。影像組學(xué)的出現(xiàn),為門靜脈高壓及GOV破裂出血風(fēng)險(xiǎn)的無(wú)創(chuàng)性評(píng)估提供了新的選擇。Liu等[20]基于222例不同程度門靜脈高壓患者的增強(qiáng)CT圖像構(gòu)建了臨床顯著性門靜脈高壓(clinical-lysignificantportalhypertension,CSPH)的非侵入性影像組學(xué)模型,并通過(guò)4個(gè)外部驗(yàn)證隊(duì)列中163例患者,對(duì)該模型的診斷性能進(jìn)行了前瞻性檢驗(yàn),結(jié)果顯示該模型不僅在內(nèi)部驗(yàn)證集中診斷CSPH的AUC值高達(dá)0.849,在4個(gè)外部前瞻性驗(yàn)證隊(duì)列中,該模型診斷CSPH的AUC值也分別高達(dá)0.889、0.800、0.917、0.827,提示該影像組學(xué)模型可作為無(wú)創(chuàng)檢測(cè)肝硬化CSPH的一種準(zhǔn)確方法。Yang等[21]通過(guò)分析兩個(gè)臨床醫(yī)學(xué)中心共295例乙肝肝硬化患者的肝臟三期增強(qiáng)CT圖像,從門靜脈期CT圖像提取出21個(gè)與GOV出血關(guān)系密切的影像組學(xué)特征,并結(jié)合了3個(gè)臨床特征(性別、門靜脈高壓、門靜脈栓子有無(wú)),建立了用于預(yù)測(cè)乙肝肝硬化患者繼發(fā)GOV出血的CT影像組學(xué)模型,結(jié)果表明該影像組學(xué)模型的預(yù)測(cè)效能明顯優(yōu)于臨床模型(AUC0.83vs0.64),對(duì)于GOV破裂出血的預(yù)測(cè),在訓(xùn)練隊(duì)列與驗(yàn)證隊(duì)列中,該模型預(yù)測(cè)的準(zhǔn)確率分別為76%、73%,是一種有效預(yù)測(cè)GOV破裂出血的無(wú)創(chuàng)性方法。此外,還有研究[22]基于169個(gè)門靜脈高壓患者的CT圖像,建立了一個(gè)肝、脾特征聯(lián)合的影像組學(xué)模型,并對(duì)62例接受GOV治療的患者進(jìn)行了驗(yàn)證隊(duì)列研究,結(jié)果表明該模型不僅可以用于門靜脈高壓的診斷,還可用于GOV出血復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測(cè),以29.102mmHg為最佳截?cái)嘀禃r(shí),相應(yīng)的AUC可高達(dá)0.866,提示該影像組學(xué)模型可作為無(wú)創(chuàng)、精準(zhǔn)預(yù)測(cè)繼發(fā)于門靜脈高壓癥的GOV治療效果的有效的參考指標(biāo)。影像組學(xué)無(wú)創(chuàng)、可重復(fù)性強(qiáng),在門靜脈壓力及GOV出血風(fēng)險(xiǎn)的評(píng)估中潛力巨大,但模型預(yù)測(cè)效能的穩(wěn)定性及泛化能力,仍需進(jìn)一步的臨床研究進(jìn)行證明。
2.3肝臟儲(chǔ)備功能的評(píng)估
肝臟儲(chǔ)備功能狀態(tài)的準(zhǔn)確評(píng)估,關(guān)乎肝病患者,尤其是肝癌患者治療方式的選擇及預(yù)后[23]。Child-Pugh分級(jí)評(píng)分系統(tǒng)是臨床應(yīng)用最廣泛的肝臟儲(chǔ)備功能評(píng)分標(biāo)準(zhǔn),但Child-Pugh分級(jí)具有高度的變異性,易受患者膽汁排泄、門靜脈栓子形成等因素的影響,從而影響臨床工作中對(duì)患者肝臟儲(chǔ)備功能評(píng)估的準(zhǔn)確性[24,25]。影像組學(xué)通過(guò)高通量的提取和處理圖像信息,可以對(duì)疾病進(jìn)行更準(zhǔn)確、更全面的評(píng)估。Simp-son等[26]對(duì)12例接受大范圍肝切除術(shù)后并發(fā)肝功能不全和24例未出現(xiàn)肝功能不全患者的術(shù)前CT圖像進(jìn)行紋理分析,發(fā)現(xiàn)術(shù)后并發(fā)肝功能不全患者術(shù)前CT上肝實(shí)質(zhì)的質(zhì)地明顯不同,術(shù)后并發(fā)肝功能不全者不僅對(duì)稱性較差,均勻性也較差,并且兩組患者紋理特征之一的熵值間也存在顯著的差異,故從術(shù)前CT圖像中提取的紋理特征,可用于預(yù)測(cè)患者術(shù)后肝功能衰竭發(fā)生概率,可作為提供術(shù)前風(fēng)險(xiǎn)分層的另一種手段。Zhu等[27]基于101例患者的術(shù)前釓塞酸二鈉增強(qiáng)MRI圖像,使用影像組學(xué)的方法從肝膽相圖像中提取了61個(gè)影像組學(xué)特征,并最終篩選出5個(gè)影像組學(xué)特征用于建立術(shù)前預(yù)測(cè)肝癌患者術(shù)后肝功能的影像組學(xué)模型,其結(jié)果表明該模型對(duì)于預(yù)測(cè)術(shù)后肝功能衰竭發(fā)生概率具有良好的預(yù)測(cè)效能,模型預(yù)測(cè)的AUC值高達(dá)0.894,可用于預(yù)測(cè)肝硬化患者肝大部切除術(shù)后的肝功能衰竭。Zhou等[25]通過(guò)100例不同肝臟儲(chǔ)備功能肝硬化患者釓塞酸二鈉增強(qiáng)MRI肝膽期圖像所建立的評(píng)估肝臟儲(chǔ)備功能的列線圖預(yù)測(cè)模型,在預(yù)測(cè)肝臟儲(chǔ)備功能方面,也顯示出良好的效能,在訓(xùn)練集及驗(yàn)證集中,其預(yù)測(cè)肝臟儲(chǔ)備功能Child-PughB+C級(jí)患者的AUC值分別為0.88和0.86。影像組學(xué)在肝臟儲(chǔ)備功能評(píng)估中具有一定的價(jià)值,但不同病因患者間肝臟儲(chǔ)備功能影像組學(xué)特征間是否存在差異,以及所建立評(píng)估肝臟儲(chǔ)備功能模型的泛化能力,還有待進(jìn)一步的研究。
2.4與肝臟腫瘤性病變的鑒別診斷
肝臟局灶性病變良惡性的準(zhǔn)確判斷,對(duì)于臨床治療方式的選擇及患者的預(yù)后來(lái)說(shuō)十分重要。但部分非腫瘤性病變和腫瘤性病變、良性腫瘤性病變和惡性腫瘤性病變之間影像學(xué)表現(xiàn)存在交叉,易出現(xiàn)誤診。影像組學(xué)能深度挖掘醫(yī)學(xué)影像圖像的影像特征信息,從而降低對(duì)肝臟局灶性病變的誤診率。Suo等[28]通過(guò)紋理分析的方法對(duì)20例肝膿腫患者及26例肝臟惡性腫瘤患者的增強(qiáng)CT圖像分析后發(fā)現(xiàn),紋理特征之一的熵值能較為準(zhǔn)確區(qū)分肝膿腫與肝臟惡性腫瘤,其診斷的靈敏度與特異度分別為81.8%、88.0%,AUC值高達(dá)0.888。Nie等[29]基于55例非肝硬化肝局灶性結(jié)節(jié)增生患者和101例肝癌患者的CT影像資料,從增強(qiáng)CT圖像中進(jìn)行病灶勾畫(huà)后提取了4227個(gè)影像組學(xué)特征,通過(guò)降維方法將其縮減為10個(gè)影像組學(xué)特征,并聯(lián)合性別、年齡,病灶大小、形狀、中央瘢痕征有無(wú)等主觀評(píng)價(jià)條件構(gòu)建了一個(gè)用于鑒別診斷肝臟局灶性結(jié)節(jié)增生與肝癌的影像組學(xué)模型,結(jié)果顯示該模型在訓(xùn)練集及驗(yàn)證集區(qū)分兩者的AUC分別高達(dá)0.979和0.917,具有良好的預(yù)測(cè)效能。而鐘熹等[30]對(duì)31例患者肝硬化結(jié)節(jié)常規(guī)T2WI序列進(jìn)行紋理分析的結(jié)果之中,紋理參數(shù)如對(duì)比度、逆差距,能量、相關(guān)性、熵值均具有統(tǒng)計(jì)學(xué)意義,能有效進(jìn)行小肝癌及局灶性增生的鑒別診斷。有研究[31]運(yùn)用機(jī)器學(xué)習(xí)算法之一的隨機(jī)森林算法,通過(guò)獲取動(dòng)脈期CT圖像紋理特征及性別、年齡等臨床特征,建立了肝臟富血供病變類別的預(yù)測(cè)模型,結(jié)果顯示其診斷肝腺瘤、局灶性結(jié)節(jié)增生及肝細(xì)胞癌的準(zhǔn)確率分別為91.2%、94.4%、98.6%。以上結(jié)果提示:影像組學(xué)對(duì)肝臟非腫瘤性病變及腫瘤性病變有較強(qiáng)的鑒別診斷效能,能顯著提高肝臟局灶性病灶的影像診斷準(zhǔn)確率。
3肝臟非腫瘤性病變影像組學(xué)的挑戰(zhàn)與展望