国产一区二区久久,欧美高清一区,日本在线观看一区

導語：如何才能寫好一篇卷積神經網絡的步驟，這就需要搜集整理更多的資料和文獻，歡迎閱讀由公務員之家整理的十篇范文，供你借鑒。

篇1

（江蘇科技大學電子信息學院，江蘇鎮江212003）

摘要：在實際交通環境中，由于運動模糊、背景干擾、天氣條件以及拍攝視角等因素，所采集的交通標志的圖像質量往往不高，這就對交通標志自動識別的準確性、魯棒性和實時性提出了很高的要求。針對這一情況，提出一種基于深層卷積神經網絡的交通標志識別方法。該方法采用深層卷積神經網絡的有監督學習模型，直接將采集的交通標志圖像經二值化后作為輸入，通過卷積和池采樣的多層處理，來模擬人腦感知視覺信號的層次結構，自動地提取交通標志圖像的特征，最后再利用一個全連接的網絡實現交通標志的識別。實驗結果表明，該方法利用卷積神經網絡的深度學習能力，自動地提取交通標志的特征，避免了傳統的人工特征提取，有效地提高了交通標志識別的效率，具有良好的泛化能力和適應范圍。

關鍵詞：交通標志；識別；卷積神經網絡；深度學習

中圖分類號：TN911.73?34；TP391.41 文獻標識碼：A 文章編號：1004?373X（2015）13?0101?06

收稿日期：2015?01?09

基金項目：國家自然科學基金面上項目（61371114）

0 引言

隨著智能汽車的發展，道路交通標志的自動識別[1?3]作為智能汽車的基本技術之一，受到人們的高度關注。道路交通標志識別主要包括兩個基本環節：首先是交通標志的檢測，包括交通標志的定位、提取及必要的預處理；其次是交通標志的識別，包括交通標志的特征提取和分類。

如今，交通標志的識別方法大多數都采用人工智能技術，主要有下述兩類形式[4]。一種是采用“人工特征+機器學習”的識別方法，如基于淺層神經網絡、支持向量機的特征識別等。在這種方法中，主要依靠先驗知識，人工設計特征，機器學習模型僅負責特征的分類或識別，因此特征設計的好壞直接影響到整個系統性能的性能，而要發現一個好的特征，則依賴于研究人員對待解決的問題的深入理解。另一種形式是近幾年發展起來的深度學習模型[5]，如基于限制波爾茲曼機和基于自編碼器的深度學習模型以及卷積神經網絡等。在這種方法中，無需構造任何的人工特征，而是直接將圖像的像素作為輸入，通過構建含有多個隱層的機器學習模型，模擬人腦認知的多層結構，逐層地進行信息特征抽取，最終形成更具推廣性和表達力的特征，從而提升識別的準確性。

卷積神經網絡作為深度學習模型之一，是一種多層的監督學習神經網絡，它利用一系列的卷積層、池化層以及一個全連接輸出層構建一個多層的網絡，來模仿人腦感知視覺信號的逐層處理機制，以實現視覺特征信號的自動提取與識別。本文將深層卷積神經網絡應用于道路交通標志的識別，通過構建一個由二維卷積和池化處理交替組成的6層網絡來逐層地提取交通標志圖像的特征，所形成的特征矢量由一個全連接輸出層來實現特征的分類和識別。實驗中將加入高斯噪聲、經過位移、縮放和旋轉處理的交通標志圖像以及實際道路采集交通標志圖像分別構成訓練集和測試集，實驗結果表明，本文所采用的方法具有良好的識別率和魯棒性。

1 卷積神經網絡的基本結構及原理

1.1 深度學習

神經科學研究表明，哺乳動物大腦皮層對信號的處理沒有一個顯示的過程[5]，而是通過信號在大腦皮層復雜的層次結構中的遞進傳播，逐層地對信號進行提取和表述，最終達到感知世界的目的。這些研究成果促進了深度學習這一新興研究領域的迅速發展。

深度學習[4，6?7]的目的就是試圖模仿人腦感知視覺信號的機制，通過構建含有多個隱層的多層網絡來逐層地對信號特征進行新的提取和空間變換，以自動學習到更加有效的特征表述，最終實現視覺功能。目前深度學習已成功地應用到語音識別、圖像識別和語言處理等領域。在不同學習框架下構建的深度學習結構是不同的，如卷積神經網絡就是一種深度的監督學習下的機器學習模型。

1.2 卷積神經網絡的基本結構及原理

卷積神經網絡受視覺系統的結構啟發而產生，第一個卷積神經網絡計算模型是在Fukushima 的神經認知機中提出的[8]，基于神經元之間的局部連接和分層組織圖像轉換，將有相同參數的神經元應用于前一層神經網絡的不同位置，得到一種平移不變神經網絡結構形式。后來，LeCun 等人在該思想的基礎上，用誤差梯度設計并訓練卷積神經網絡[9?10]，在一些模式識別任務上得到優越的性能。

卷積神經網絡本質上是一種有監督的深度學習算法，無需事先知道輸入與輸出之間精確的數學表達式，只要用已知的模式對卷積神經網絡加以訓練，就可以學習到輸入與輸出之間的一種多層的非線性關系，這是非深度學習算法不能做到的。卷積神經網絡的基本結構是由一系列的卷積和池化層以及一個全連接的輸出層組成，可以采用梯度下降法極小化誤差函數對網絡中的權值和閾值參數逐層反向調節，以得到網絡權值和閾值的最優解，并可以通過增加迭代次數來提高網絡訓練的精度。

1.2.1 前向傳播

在卷積神經網絡的前向傳播中，輸入的原始圖像經過逐層的卷積和池化處理后，提取出若干特征子圖并轉換成一維特征矢量，最后由全連接的輸出層進行分類識別。

在卷積層中，每個卷積層都可以表示為對前一層輸入圖像的二維卷積和非線性激勵函數，其表達式可用式（1）表示：

式中：Yj 表示輸出層中第j 個輸出；Y l + 1i 是前一層（l + 1層）

的輸出特征（全連接的特征向量）；n 是輸出特征向量的長度；Wij 表示輸出層的權值，連接輸入i 和輸出j ；bj表示輸出層第j 個輸出的閾值；f (?) 是輸出層的非線性

1.2.2 反向傳播

在反向傳播過程中，卷積神經網絡的訓練方法采用類似于BP神經網絡的梯度最速下降法，即按極小化誤差的方法反向傳播調整權值和閾值。網絡反向傳播回來的誤差是每個神經元的基的靈敏度[12]，也就是誤差對基的變化率，即導數。下面將分別求出輸出層、池采樣層和卷積層的神經元的靈敏度。

（1）輸出層的靈敏度

對于誤差函數式（6）來說，輸出層神經元的靈敏度可表示為：

在前向傳播過程中，得到網絡的實際輸出，進而求出實際輸出與目標輸出之間的誤差；在反向傳播過程中，利用誤差反向傳播，采用式（17）~式（20）來調整網絡的權值和閾值，極小化誤差；這樣，前向傳播和反向傳播兩個過程反復交替，直到達到收斂的要求為止。

2 深層卷積神經網絡的交通標志識別方法

2.1 應用原理

交通標志是一種人為設計的具有特殊顏色（如紅、黃、白、藍、黑等）和特殊形狀或圖形的公共標志。我國的交通標志主要有警告、禁令、指示和指路等類型，一般采用顏色來區分不同的類型，用形狀或圖形來標示具體的信息。從交通標志設計的角度來看，屬于不同類型（不同顏色）的交通標志在形狀或圖形上有較大的差異；屬于相同類型（相同顏色）的標志中同類的指示信息標志在形狀或圖形上比較接近，如警告標志中的平面交叉路口標志等。因此，從機器視覺的角度來分析，同類型中同類指示信息的標志之間會比不同類型的標志之間更易引起識別錯誤。換句話說，相比于顏色，形狀或圖形是正確識別交通標志的關鍵因素。

因此，在應用卷積神經網絡識別交通標志時，從提高算法效率和降低錯誤率綜合考慮，將交通標志轉換為灰度圖像并作二值化處理后作為卷積神經網絡的輸入圖像信息。圖2給出了應用卷積神經網絡識別交通標志的原理圖。該網絡采用了6層交替的卷積層和池采樣層來逐層提取交通標志的特征，形成的特征矢量由一個全連接的輸出層進行識別。圖中：W1i（i=1，2，…，m1），W1（j j=1，2，…，m2），…，W1k（k=1，2，…，m（n?1））分別表示卷積層L1,L3,…,Ln - 1 的卷積核；Input表示輸入的交通標志圖像；

Pool表示每個池采樣層的采樣池；map表示逐層提取的特征子圖；Y 是最終的全連接輸出。

交通標志識別的判別準則為：對于輸入交通標志圖像Input，網絡的輸出矢量Y = [y1,y2 ,…,yC ]，有yj = Max{y1，y2 ,…,yC}，則Input ∈ j，即判定輸入的交通標志圖像Input為第j 類交通標志。

2.2 交通標志識別的基本步驟

深層神經網絡識別交通標志主要包括交通標志的訓練與識別，所以將交通標志識別歸納為以下4個步驟：（1）圖像預處理：利用公式Gray= 0.299R +0.587G + 0.114B 將彩色交通標志圖像轉換為灰度圖像，再利用鄰近插值法將交通標志圖像規格化，最后利用最大類間方差將交通標志圖像二值化。

（2）網絡權值和閾值的初始化：利用隨機分布函數將權值W 初始化為-1~1之間的隨機數；而將閾值b 初始化為0。

（3）網絡的訓練：利用經過預處理的交通標志圖像構成訓練集，對卷積神經網絡進行訓練，通過網絡前向傳播和反向傳播的反復交替處理，直到滿足識別收斂條件或達到要求的訓練次數為止。

（4）交通標志的識別：將實際采集的交通標志圖像經過預處理后，送入訓練好的卷積神經網絡中進行交通標志特征的提取，然后通過一個全連接的網絡進行特征分類與識別，得到識別結果。

3 實驗結果與分析

實驗主要選取了我國道路交通標志的警告標志、指示標志和禁令標志三類中較常見的50幅圖像。考慮到在實際道路中采集到的交通標志圖像會含有噪聲和出現幾何失真以及背景干擾等現象，因此在構造網絡訓練集時，除了理想的交通標志以外，還增加了加入高斯噪聲、經過位移、旋轉和縮放處理和實際采集到的交通標志圖像，因此最終的訓練樣本為72個。其中，加入的高斯噪聲為均值為0，方差分別為0.1，0.2，0.3，圖像的位移、旋轉、縮放的參數分別隨機的分布在±10，±5°，0.9~1.1的范圍內。圖3給出了訓練集中的交通標志圖像的示例。圖4是在實際道路中采集的交通標志圖像構成的測試集的示例。

在實驗中構造了一個輸入為48×48個神經元、輸出為50 個神經元的9 層網絡。網絡的輸入是像素為48 × 48 的規格化的交通標志圖像，輸出對應于上述的50種交通標志的判別結果。網絡的激活函數采用S型函數，如式（2）所示，其輸出范圍限制在0~1之間。

圖6是交通標志的訓練總誤差EN 曲線。在訓練開始的1 500次，誤差能迅速地下降，在迭代2 000次以后是一個平穩的收斂過程，當迭代到10萬次時，總誤差EN可以達到0.188 2。

在交通標志的測試實驗中，為了全面檢驗卷積神經網絡的識別性能，分別針對理想的交通標志，加入高斯噪聲、經過位移、旋轉和比例縮放以及采集的交通標志圖像進行實驗，將以上測試樣本分別送入到網絡中識別，表2給出了測試實驗結果。

綜合分析上述實驗結果，可以得到以下結論：（1）在卷積神經網絡的訓練學習過程中，整個網絡的誤差曲線快速平穩的下降，體現出卷積神經網絡的訓練學習具有良好的收斂性。

（2）經逐層卷積和池采樣所提取的特征具有比例縮放和旋轉不變性，因此對于旋轉和比例縮放后的交通標志能達到100%的識別率。

（3）與傳統的BP網絡識別方法[11]相比較，卷積神經網絡能夠達到更深的學習深度，即在交通標志識別時能夠得到更高的所屬類別概率（更接近于1），識別效果更好。

（4）卷積神經網絡對實際采集的交通標志圖像的識別率尚不能達到令人滿意的結果，主要原因是實際道路中采集的交通標志圖像中存在著較嚴重的背景干擾，解決的辦法是增加實際采集的交通標志訓練樣本數，通過網絡的深度學習，提高網絡的識別率和魯棒性。

4 結論

本文將深層卷積神經網絡應用于道路交通標志的識別，利用卷積神經網絡的深層結構來模仿人腦感知視覺信號的機制，自動地提取交通標志圖像的視覺特征并進行分類識別。實驗表明，應用深層卷積神經網絡識別交通標志取得了良好的識別效果。

在具體實現中，從我國交通標志的設計特點考慮，本文將經過預處理二值化的圖像作為網絡的輸入，主要是利用了交通標志的形狀信息，而基本略去了顏色信息，其優點是在保證識別率的基礎上，可以簡化網絡的結構，降低網絡的計算量。在實際道路交通標志識別中，將形狀信息和顏色信息相結合，以進一步提高識別率和對道路環境的魯棒性，是值得進一步研究的內容。

此外，本文的研究沒有涉及到道路交通標志的動態檢測，這也是今后可以進一步研究的內容。

參考文獻

[1] 劉平華，李建民，胡曉林，等.動態場景下的交通標識檢測與識別研究進展[J].中國圖象圖形學報，2013，18（5）：493?503.

[2] SAHA S K，DULAL C M，BHUIYAN A A. Neural networkbased sign recognition [J]. International Journal of ComputerApplication，2012，50（10）：35?41.

[3] STALLKAMP J，SCHLIOSING M，SALMENA J，et al. Man vs.computer：benchmarking machine learning algorithms for traf?fic sign recognition [J]. Neural Network，2012，32（2）：323?332.

[4] 中國計算機學會.深度學習：推進人工智能夢想[EB/OL].[2013?06?10].http：//ccg.org.cn.

[5] 鄭胤，陳權崎，章毓晉.深度學習及其在目標和行為識別中的新進展[J].中國圖象圖形學報，2014，19（2）：175?184.

[6] FUKUSHIMA K. Neocognition：a self ? organizing neural net?work model for a mechanism of pattern recognition unaffectedby shift in position [J]. Biological Cybernetics，1980，36（4）：193?202.

[7] LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient ? basedlearning applied to document recognition [J]. IEEE Journal andMagazines，1989，86（11）：2278?2324.

[8] LECUN Y，BOTTOU L，BENGIO Y，et al. Backpropagationapplied to handwritten zip code recognition [J]. Neural Compu?tation，1989，1（4）：541?551.

[9] CIRESAN D，MEIER U，MAsci J，et al. Multi?column deepneural network for traffic sign classification [J]. Neural Net?works，2012，32（2）：333?338.

[10] NAGI J，DUCATELLE F，CARO D，et al. Max?pooling con?volution neural network for vision?based hand gesture recogni?tion [C]// 2011 IEEE International Conference on Signal andImage Processing Application. Kuala Lumpur：IEEE，2011，342?347.

[11] 楊斐，王坤明，馬欣，等.應用BP神經網絡分類器識別交通標志[J].計算機工程，2003，29（10）：120?121.

[12] BUVRIE J. Notes on convolutional neural networks [EB/OL].[2006?11?12]. http：//cogprints.org/5869/.

[13] 周開利，康耀紅.神經網絡模型及其Matlab 仿真設計[M].北京：清華大學出版社，2005.

[14] 孫志軍，薛磊，許陽明，等.深度學習研究綜述[J].計算機應用研究，2012，29（8）：2806?2810.

[15] 劉建偉，劉媛，羅雄麟.深度學習研究進展[J].計算機應用研究，2014（7）：1921?1930.

篇2

2. 應用領域安防

實時從視頻中檢測出行人和車輛。

自動找到視頻中異常的行為（比如，醉酒的行人或者逆行的車輛），并及時發出帶有具體地點方位信息的警報。

自動判斷人群的密度和人流的方向，提前發現過密人群帶來的潛在危險，幫助工作人員引導和管理人流。

醫療

對醫學影像進行自動分析的技術。這些技術可以自動找到醫學影像中的重點部位，并進行對比比分析。

通過多張醫療影像重建出人體內器官的三維模型，幫助醫生設計手術，確保手術

為我們每個人提供康建議和疾病風險預警，從而讓我們生活得更加健康。

智能客服

智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題，對問題的意義進行分析（比如客戶是詢問價格呢還是咨詢產品的功能呢），進行準確得體并且個性化的回應。

自動駕駛

現在的自動駕駛汽車通過多種傳感器，包括視頻攝像頭、激光雷達、衛星定位系統（北斗衛星導航系統BDS、全球定位系統GPS等）等，來對行駛環境進行實時感知。智能駕駛系統可以對多種感知信號進行綜合分析，通過結合地圖和指示標志（比如交通燈和路牌），實時規劃駕駛路線，并發出指令，控制車子的運行。

工業制造

幫助工廠自動檢測出形態各異的缺陷

3. 概念什么是人工智能？

人工智能是通過機器來模擬人類認知能力的技術。

人工智能的三種訓練方式分別是監督學習、非監督學習、強化學習。下文會一一介紹。

二、這是不是鸞尾花（分類器）1. 特征提取人類感官特征

花瓣數量、顏色

人工設計特征

先確定哪些特征，再通過測量轉化為具體數值

深度學習特征

這里先不提及，文章后面會說

2. 感知器

老師給了一道題：

要區分兩種鸞尾花，得畫出一條直線區分兩類花，你可以畫出無數條直線，但是哪條才是最好的呢？

怎么辦呢？我可是學渣啊，靠蒙！

隨便找三個數a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c，

每朵花的兩個特征也代入x[1]、x[2]，比如帶入(4， 1) 得出 y[預測] = 1，此時 y[實際] = 1 （樣本設定變色鸞尾花為 1，山鸞尾為 -1 ），所以y[實際] – y[預測] = 0.

重復以上兩步，得出所有的『實際值和預測值的差距的綜合，記為 Loss1

可怎么知道是不是最優的直線呢？繼續猜啊！繼續懵！像猜世界杯一樣猜就好了。

通過沿 y = ax[1] + bx[2] + c 梯度（梯度就是求導數，高中有學的！）下降的方向繼續猜數字，具體過程大概是這樣子的：

上述所屬的實際值和預測值的差距實際上是一種損失函數，還有其他的損失函數，比如兩點間直線距離公式，余弦相似度公式等等可以計算預測結果和實際結果之間的差距。

劃重點：損失函數就是現實和理想的差距（很殘酷）

3. 支持向量機

*判斷依據的區別也導致了損失函數的不同（但依舊是猜）

直觀的說，縫隙（上圖的分類間隔）越大越好

4. 多分類

如果有多種花怎么辦？

一趟植物課上，老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定，牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。

老師綜合了各位專家的意見后，告訴同學們，這是一盤梅花。

小明：這老師是不是傻，一朵花是啥都不知道，還要請三個專家

老師：你給我滾出去

實際計算過程就是通過用 2.2 和 2.3 等方法訓練的二分類器，分別輸出對應的分類值（比如三種花的分類器分別輸出-1，2，3），那怎么把這些分類值轉化成概率呢？這就要用到歸一化指數化函數 Softmax（如果是二分類就用 Sigmoid函數），這里就不拿公式來說，可以直觀的看看書中這個表格就懂了：

5. 非監督學習第 2.2 能從預測值和實際值的差別判斷”是否猜對了”，是因為生物老師告訴了學渣，哪些樣本是山鸞尾花，哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學渣（非監督式學習），學渣不知道樣本分別是什么花。

那該怎么辦呢？

機器學習的入門課程總是在講鸞尾花，也是夠煩的。

這里我們換個場景：

假如你是某直播老板，要找一堆小主播，這時候你有一堆應聘者，然而你只有她們的胸圍和臀圍數據。一堆8份簡歷擺在你面前，你是不知道哪些更加能干( capable啊 ! ) 的，更能吸引粉絲。你也沒空全部面試，那應該怎么挑選呢？

這時候你把她們的胸圍和臀圍都標準在一張二維坐標圖上：

這是你隨手一劃，把她們分成兩組，可以說“聚成兩類了”。

用某種計算方式（比如平均值）找到這個聚類的中心。點離聚類中心越近，代表越相似。

求出每個聚類中的點到藍色聚類中心點和黃色聚類中心的距離

如果一個點離黃色聚類中心更近卻被你隨手劃到了藍色分組（上圖用紅色邊框標出的小方塊），那么就把它劃入黃色分組。

這時因為分組范圍和分組內包含哪些小姐姐都發生了變化。這時候你需要以步驟3 的方法重新計算聚類的中心

重復步驟 4 （算點中心距離）-> 重復步驟 5 （調整黃色小姐姐們和藍色小姐姐們）-> 重復步驟 3 （算中心），一直循環這個過程直到藍色和黃色聚類下所包含的小姐姐不再發生變化。那么就停止這一循環。

至此，小姐姐們已經被分為兩大類。你可以得出兩類小姐姐：

計算機在沒有監督的情況下，成功把小姐姐們分成兩類，接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的，以后就以那個聚類的樣本特征擴充更多能干的主播。

小明：有什么了不起的，我一眼就能看出黃色小姐姐更能干

老師：你給我滾出去

上面聚類小姐姐的算法就叫做 K 鄰近算法，K 為要聚類的數量（這需要人工指定），上述例子 K=2.那么如果分成三類就是 K=3，訓練過程可以看下圖，有個直觀的了解：

三、這是什么物品（圖像識別）1. 特征提取人類感官特征

花瓣顏色、花瓣長度、有沒有翅膀（區分貓和小鳥）、有沒有嘴巴和眼睛（飛機和小鳥）

感官的特征通過量化得到顏色（RGB值）、邊緣（圓角、直角、三角）、紋理（波浪、直線、網格）數值特征

人工設計特征

深度學習特征

通過卷積提取圖像特征

劃重點：卷積的作用就是提取圖像有用信息，好比微信把你發出的圖片壓縮了，大小變小了，但是你依舊能分辨出圖像的主要內容。

1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10

2維卷積 1*2+3*0+2*4+4*2=28…

通過卷積就可以得到圖像的特征信息，比如邊緣

垂直邊緣檢測

水平邊緣檢測

方向梯度直方圖

2. 深度學習和傳統模式分類的區別既然有傳統模式分類，為什么還要神經網絡呢？

區別就在于傳統的模式分類需要人為設置特征，比如花瓣長度、顏色等等。而深度學習省略掉人工設計特征的步驟，交由卷積操作去自動提取，分類器的訓練也同時融入到神經網絡當中，實現了端對端的學習

劃重點：端對端學習（End to End）就是從輸入直接得出輸出，沒有中間商，自己賺差價。

3. 深(多)層神經網絡存在的問題一般來說，神經網絡層數增多，會提高準確率。但是，網絡層數加深導致：

過擬合學渣把高考預測試題的答案都背一遍而不理解，考試的時候，如果試題是考生背過的，那么考生就能答對；如果沒背過那么考生就不會回答了。我們就可以說，學渣『過擬合了預測試題。

與之對應的是：欠擬合渣得不能再渣的人，連預測試題都背不下來，即使考試試題和預測試題一模一樣，他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。

有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網上很火很勵志的一個公式，權重在多層網絡中相乘，比如每一層的權重都是0.01，傳遞100層就是 0.01 的100 次方，變得非常小，在梯度下降 Gradient Descent 的學習過程中，學習將變得非常慢。（好比從一個碗頂部放下一個小球，在底部徘徊的速度會越來越慢）

非凸優化學習過程可能在局部最小值（極小值）就停止了，因為梯度（斜率）為零。在局部最低停止而不是全局最低停止，學習到的模型就不夠準確了。

看圖感受一下

你說的底不是底，你說的頂是什么頂

解決的辦法

均勻初始化權重值（Uniform Initialization）、批歸一化（Batch Normalization）、跳遠鏈接（Shortcut）涉及到比較多數學邏輯，這里就不展開說明了。

4. 應用人臉識別

自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊，每個小方塊檢測物體是車還是行人還是狗，是紅燈還是綠燈，識別各種交通標識等等。再配合雷達等判斷物體距離。

四、這是什么歌（語音識別）1. 特征提取人類感官特征音量、音調、音色

通過采樣、量化、編碼。實現聲波數字化（聲波轉電信號）

人工設計特征梅爾頻率在低頻部分分辨率高，高頻部分分辨率低（這與人耳的聽覺感受是相似的，即在一定頻率范圍內人對低頻聲音比較敏感而對高頻聲音不敏感）。

關系為：

在每一個頻率區間對頻譜求均值，它代表了每個頻率范圍內聲音能量的大小。一共有26個頻率范圍，從而得到26維的特征。倒譜操作后，得到 13 維的梅爾頻率倒譜系數(Mel-FrequencyCepstralCoefficients，MFCCs)

深度學習特征通過 3.1 所介紹的 1維卷積進行特征提取

2. 應用音樂風格分類

輸入：音頻文件特征：聲音特征輸出：音樂種類

語音轉文字

輸入：音頻文件特征：聲音特征輸出：聲學模型（比如26個英文字母）

再把聲學模型送入另外的學習器

輸入：聲學模型特征：語義和詞匯輸出：通順的語句（可以查看第6點，如何讓計算機輸出通順的語句）

聽歌識曲通過窗口掃描（把音樂分割成一小段一小段的），然后通過4.1說的方法提取這一段的特征，就得到一個特征向量。對數據庫的歌和用戶錄音的歌做同樣的操作得到特征向量，然后兩兩之間計算相似度（兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算）

五、視頻里的人在做什么（視頻理解，動作識別）1. 介紹視頻，本質是由一幀幀圖片連續組成的，因為人視覺的暫留效應（Persistence of vision，人眼在觀察景物時，光信號傳入大腦神經，并不立即消失，讓人產生畫面連續的印象），看上去是連續的，也就是視頻。識別視頻里面有什么物體，可以用上文說過的圖像識別和分類方法去實時分析單幀圖像，比如：

但是視頻相對于圖像有一個更重要的屬性：動作（行為）。

怎么從一個連續的視頻分析動作呢？

舉個例子，像上圖那只二哈，腿部的像素點相對于黃色的方框（框和狗相對靜止）在左右”移動”，這里的”移動”我們引入一個概念——光流（一個像素點從一個位置移動到另一個位置），通過像素點移動形成的光流作為神經網絡的訓練特征（X），『奔跑作為訓練目標值（Y），經過多次的迭代訓練，機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體（Object）是否在奔跑。

2. 光流假設，1）相鄰兩幀中物體運動很小2）相鄰兩幀中物體顏色基本不變

至于神經網絡是怎么跟蹤某個像素點的，這里不展開說明。

第 t 時刻的點指向第 t+1 時刻該點的位置，就是該點的光流，是一個二維的向量。

整個畫面的光流就是這樣：

整個視頻的光流（軌跡）是這樣的

不同的虛線代表圖像上某個點移動的軌跡

假設視頻寬width、高 height、一共有 m 幀，那么該視頻可以用 width * height * m * 2 的張量（就是立體的矩陣）來表示，把向量喂到神經網絡即可進行分類訓練。

進一步優化，可以把光流簡化為8個方向上的，把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖，進一步得出 8 維的特征向量。

六、一段文字在表達什么（自然語言處理）1. 特征提取

這里有4個句子，首先進行分詞：

去掉停用詞（副詞、介詞、標點符合等等，一般在文本處理上都有一個停用詞表）

編碼詞表

句子向量化

這樣就得到一個句子19 維的特征向量，再把這19維的特征向量用普通卷積網絡或者 LSTM 循環神經網絡作為 X 讀入（喂它吃東西），文本的分類（比如積極、消極）作為訓練標簽值 Y，迭代訓練得到的模型可以用于情感分析或文本分類等任務。

2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟，我們可能認為厲害和牛逼是兩個完全不一樣的詞語，但其實他們是近似的意思，怎么才能 AI 學習知道這點呢？需要從多個維度去進一步給詞語更豐富的內涵，比如：

舉例來說，男性用1表示，女性用0表示，不帶性別傾向就是0.5。多個維度擴展之后，就得到“男人”這個詞的特征向量（1，0， 0.5，0，1）

逆向文檔頻率一個詞在一類文章出現的多，而在另外分類的文章出現的少，越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現的多（2次），而在工具類的文章出現的少（0次），相比其他詞語（1次）更能代表體育類的文章。

假設句子中有 N 個詞，某個詞出現次數為 T，一共有 X 個句子，該詞語在 W 個句子出現，則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)

3. 應用

七、讓計算機畫畫（生成對抗網絡）從前有個人，以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫：

第一次他畫成這樣子了：

鑒賞家一眼就看出來是假的，他不得不回去畫第二幅畫、第三幅畫…

經過了10萬次”畫畫-鑒別”的過程，這個臨摹者畫出來的畫，鑒賞家居然認為這是真的原作，以高價買入了這副畫。

這種生成（畫畫）- 鑒別（鑒偽）的模式正是生成對抗網絡（GAN）的核心。

通過生成器，把隨機像素點有序排列形成具有意義的畫面，再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距，并告訴生成器要往什么方向去優化。多輪的訓練之后，生成器就學會了畫『真畫了。

計算機是怎么把隨機像素點變成有意義的畫面的呢？我們通過一個簡化的例子來看看。

直線上一些均勻分布的點，經過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面，經過某個f(x) 變換后就會變成具有某種意義的畫面，而生成器就是不停地去近似f(x)，就像 2.2 感知器擬合一條直線那樣。

下圖為計算機生成手寫數字的過程

劃重點：函數可以變換數據分布（庫克說：可以把直的變成彎的）

八AlphaGo是怎么下棋的？（強化學習）1. 粗略認知監督/無監督訓練：盡可能讓每一次任務正確強化學習：多次任務是否達成最終目標

每一次任務都準確，不就是能達成最終目標嗎？我們來看一個例子：

一家批發商店的老板愛麗絲要求她的經理比爾增加銷售額，比爾指導他的銷售員多賣一些收音機，其中一個銷售員查爾斯弄到了一個可以獲利的大單，但是之后公司因為供應緊缺無法交付這些收音機。

應該責怪誰呢？

從愛麗絲的角度來看，查爾斯的行為讓公司蒙羞了（最終任務沒完成）。

但是從比爾的角度，查爾斯成功地完成了他的銷售任務，而比爾也增加了銷量（子任務達成）。——《心智社會》第7.7章

2. AlphaGo下圍棋，最古老的辦法是決策樹，從左上角的位置開始到右下角的位置遍歷，每一個空的位置就是一個分支，然后預測每種棋局贏的概率，找出最大概率的走法玩。這就是落子預測器。

但是由于圍棋19X19的超大棋盤，空間復雜度高達10的360次方，要窮盡所有的走法幾乎是不可能的，如大海撈針。

要降低復雜度，關鍵是要降低搜索的廣度和深度。

我們栽培一顆小盆栽的時候，如果不對枝葉進行修剪，那么養分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養分往正常（或者說我們希望它生長的方向）枝條上輸送。

同樣的道理，有限的計算機算力如果浪費在窮盡所有圍棋走法上，將導致棋局推演非常慢，而且耗費大量的時間也難以找到最優的方案。

是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹，加快較優落子方案的選擇呢？怎么判斷哪些是好的”枝條”，哪些是壞的”枝條”呢？這就需要棋局價值評估器（哪個棋盤的贏的概率更大），把沒有價值的棋局先去掉不再往下遍歷，這就同時減少了搜索的廣度和深度。

其中，落子預測器有個名稱，叫做政策網絡（policy network）價值評估器有個名稱，叫做價值網絡（value network）政策網絡（policy network）利用蒙特卡洛搜索樹從當前棋局推演（隨機下棋）到最終的棋局，最終勝則回報為正，反之回報為負。之后該算法會反向沿著該對弈過程的落子方案步步回溯，將路徑上勝者所選擇的落子方案分數提高，與此對應將敗者的落子方案分數降低，所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇，稱為快速走子網絡。

通過政策網絡 + 價值網絡 + 蒙特卡洛搜索樹實現最優落子方案的選擇，同時兩個機器人互相對弈，這樣就不停地訓練網絡，學習落子方案。

3. 定義接下來說一下枯燥的定義

什么是強化學習?

當我們關注的不是某個判斷是否準確，而是行動過程能否帶來最大的收益時使用強化學習(reinforeement learning)。比如在下棋、股票交易或商業決策等場景中。

強化學習的目標是要獲得一個策略(poliey)去指導行動。比如在圍棋博弈中，這個策略可以根據盤面形勢指導每一步應該在哪里落子；在股票交易中，這個策略會告訴我們在什么時候買入、什么時候賣出。

一個強化學習模型一般包含如下幾個部分：

一組可以動態變化的狀態(sute)

對于圍棋棋盤上黑白子的分布位置對于股票交易來說，就是股票的價格

一組可以選取的動作(metion)

對于圍棋來說，就是可以落子的位置；對于股票交易來說，就是每個時間點，買入或者賣出的股票以及數量。

一個可以和決策主體(agent)進行交互的環境(environment)這個環境會決定每個動作后狀態如何變化。

棋手（主體）的落子會影響棋局（環境），環境給主體獎勵（贏）或懲罰（輸）操盤手（主體）的買入或賣出會影響股票價格（環境，供求關系決定價格），環境給主體獎勵（賺錢）或懲罰（虧錢）

篇3

關鍵詞：水尺檢測圖像識別

中圖分類號：TP274 文獻標識碼：A 文章編號：1007-9416（2013）01-0114-02

1 引言

隨著航運技術的發展，船舶運輸越來越受到人們的關注。船舶的水尺計重作為一種科學的計重方法，具有一定的準確性，在國際上已廣泛應用，其計算結果可作為商品交接結算、理賠、計算運費和通關計稅的依據。其適用于價值較低，衡重困難的大宗散裝固體商品，例如煤炭、鐵礦石、水泥、糧食等商品的重量計算。水尺計重的優點是省時、省力、省費用，能迅速計算出整船貨物的重量，但是計算過程較為復雜，影響計重結果的客觀因素較多，特別船舶刻度觀測水平是影響水尺準確性最重要因素。船舶吃水線的檢測目前主要依靠經過長期訓練的觀察人員目測船舶的水尺標志而獲得船舶的實際吃水值，為了獲得較為精確的數值，需要觀察人員多次查看，以求得平均值。這種人眼目測船舶吃水線數值的方式，往往帶有主觀性，存在較大的局限性，例如：觀測不方便，受環境影響大，并且觀測存在一定危險。因此，本文提出采用Matlab7.0作為仿真環境，利用圖像處理技術，設計船舶吃水線自動檢測的算法來自動檢測船舶水尺刻度數值，可以克服人工目測所引起的一系列問題，完整的記錄整個觀測階段的吃水線位置，并使后續的數據處理成為可能。降低了系統復雜性，又提高了效率和準確度。

2 圖像識別技術的原理

近年來，拍攝設備性能的不斷完善，設備的分辨率能夠達到很精確的程度，圖片質量清晰度非常高，同時計算機體系結構和算法的快速發展，使得圖像處理的性能和運算速度得到了較大提高，這些都為吃水線的求取提供了可能。一幅圖像在計算機中可以定義為一個二維函數f（x，y），其中x和y是空間（平面）坐標，而在任何一對空間坐標（x，y）處的幅值f稱為該點處的灰度，當x，y和灰度值f是有限的離散數值時，我們稱該圖像為數值圖像，數字圖像處理就是借助計算機來處理上述這些數字圖像。數字圖像是由有限數量的元素組成的，每個元素都有一個特殊的位置和數值，要將一副圖像轉化為數字形式，就要求數字化x，y和灰度值f。在此基礎上，利用上述數值，設計相應的算法即可得到船舶水尺精確的刻度值。

3 船舶吃水線刻度檢測算法的設計

3.1 總體結構設計

本文利用Matlab7.0作為仿真環境，通過采集到的視頻圖像序列，首先設計計算法檢測出吃水線邊緣，找到吃水線的位置，然后對船幫上刻度字進行分割，并求出水平面距離所在刻度上邊緣的距離，利用BP神經網絡對水尺刻度線進行識別，得到吃水線的數值。吃水線檢測算法的總流程圖如（圖1）所示：

3.2 船舶吃水線刻度檢測算法關鍵步驟的處理

3.2.1 圖像的灰度化和二值化處理

相比彩色圖像，灰度圖像的邊緣檢測較為方便和快捷，計算量小，所以先將獲取到的彩色圖像轉為灰度圖像。而圖像的二值化處理就是將圖像上的像素點的灰度值設置為0至255，將采樣后所得到的各像素的灰度值用矩陣表示，即灰度圖的量化。所有灰度值大于或者等于閥值的像素被判定為特殊物體，灰度值小于閥值的則表示為背景或者其他物體區域。通過將灰度值投影到曲線上，則可以獲得灰度值的分布特征。

3.2.2 選擇合適的邊緣檢測算法找到吃水線的邊緣

數字圖像的邊緣檢測是圖像分割，目標區域識別，區域形狀提取等圖像領域中十分重要的基礎，邊緣是圖像的最基本特征之一，它是利用周圍像素灰度有階躍變化或屋頂變化的像素的集合。邊緣檢測算法大致分為兩類：基于查找和基于零穿越的邊緣檢測。常用的邊緣檢測算法有：Roberts、Prewitt、Sobel、LOG、Canny算法等。

3.2.3 選擇合適的閥值對刻度字的分割

圖像分割是一種重要的圖像分析技術，在對圖像的研究和應用中，人們往往僅對圖像中的特定部分感興趣。為了識別和分析圖像中得目標，需要將它們從圖像中分離提取出來，在此基礎上才有可能進一步對目標進行測量和對圖像進行利用。而分割字符的思想就是利用刻度字區域黑色像素點比較多，比較集中，同時根據水尺標志的特點，每個字符之間有10cm的空隙間隔隔開，這樣得到的投影圖有幾個比較集中卻又有明顯分割的投影峰值群，通過設定特定的閥值來判定特定物體，通過這種方法將找出船幫上刻度字的左右邊界。

3.2.4 選擇BP神經網絡對船幫處水尺字符進行識別

字符識別的主流技術有：統計決策法、人工智能法、模板匹配法和人工神經元網絡法等。同在字符識別領域相對比較成熟的光學字符（OCR）識別、車牌識別相比，船幫處水尺刻度字符由于表面凹凸、油漆掉色或攝像時水面反光等情況造成的字符畸變。為了提高系統的抗干擾性和自適應性，本文計劃采用對噪聲干擾和形變有較好適應性的BP神經網絡模型方式來進行識別。BP網絡是神經網絡的一個分支，又稱誤差信號反饋網絡，是神經網絡中使用最廣泛的一類。并嘗試通過改善收斂性，神經元的個數，提高系統的識別率。

3.3 Matlab軟件的使用

Matlab由美國的MathWorks公司出品，它的指令表達式與數學，工程中常用的形式十分相似。其典型的應用包括：（1）數學和計算；（2）算法開發；（3）數據獲取；（4）建模、模擬和原型設計；（5）數據分析、研究和可視化；（6）科學和工程圖形；（7）應用開發，包括圖像用戶界面的構建。MATLAB中補充了許多針對特殊應用的工具箱，圖像處理工具箱是一個MATLAB函數集合，能進行圖像的和、差等線性運算，以及卷積、相關、濾波等非線性運算，幾乎包括了常用的圖像處理操作的各種函數，只需了解這些函數的使用方法，正確調用函數就可以實現常用的各種圖像處理的操作。MATLAB能支持包括：TIFF、BMP、JPEG等的圖形文件的格式，用它來解決圖像問題比用C，Fortran等語言完成相同的事情簡捷的多。因此利用此工具，我們可以方便地從各個方面對圖像的性質進行深入的研究。

本文所研究的內容是在靜態圖像上對吃水線進行檢測，其技術路線包括圖像的預處理，利用邊緣檢測算子對吃水線邊緣進行擬合，去除干擾，得到吃水線的位置。利用船舶刻度字的特點，對其進行分割，對分割出來的字符進行識別后，得到吃水線的數值。以上都可以通過Matlab調用不同的工具箱和函數來實現。

4 結語

由于經濟利益，發貨人、收貨方和承運人都對貨物的重量非常重視，而且越來越精細、嚴格，如何準確計算船舶載重量成為亟待解決的問題。作為近年來快速發展起來的一個計算機學科，通過使用圖像處理和分析的手段，獲得水平面在圖像中的準確位置，既可以克服人工目測所引起的一系列問題，完整的記錄整個觀測階段的吃水線位置，使后續的數據處理成為可能，既降低了系統復雜性，又提高了效率和準確度。圖像處理的對象是一幅幅拍攝下的照片，其中的吃水線位置是固定的，這樣就為后續的處理和計算奠定了一個靜態的基礎，不會發生象人眼目測，由于景物晃動而產生的錯覺。同時，拍攝下的照片作為測量的記錄保存，可以滿足今后復核或是查對的要求。再次，利用圖像處理技術，可以大幅度降低對有經驗觀測人員的依賴。因此利用圖像識別技術對船舶水尺測量具有廣泛的應用價值。

參考文獻

[1]SN/T 0187-93 進出口商品重量鑒定規程——水尺計重.

[2]陳德為，張培銘.轉動式交流接觸器動態過程分析與控制[J].福州大學學報：自然科學版，2008，36（1）：95—99.

[3]陳德為，張培銘.采用高速攝像機的智能交流接觸器控制及其測試裝置的研制[M].電工電能新技術：2009，28（3）：58-61，72.

[4]周廣程.圖像處理技術在船舶吃水自動檢測系統中的應用[D].南京：南京理工大學，2006.

篇4

關鍵詞：動態紋理分類; 慢特征分析; 深度學習; 堆棧降噪自動編碼網絡模型

中圖分類號： TN919?34 文獻標識碼： A 文章編號： 1004?373X（2015）06?0020?05

Dynamic texture classification method based on stacked denoising autoencoding model

WANG Cai?xia， WEI Xue?yun， WANG Biao

（School of Electronics and Information Engineering， Jiangsu University of Science and Technology， Zhenjiang 212003 China）

Abstract： To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification， a deep learning network model is proposed to extract dynamic texture features. Firstly， the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand， and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.

Keywords： dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model

0 引言

動態紋理是指具有空間重復性、并隨時間變化的視覺模式，這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態紋理可能具有相似的外觀，但是卻具有不同的運動形式，所以表觀和運動是動態紋理特征的兩大方面。在目前的動態視頻分析系統中，最關鍵的步驟是如何提取有效的動態紋理特征描述符。在過去幾十年里，對紋理的研究大部分都集中在靜態紋理特征的研究，動態紋理的研究相對靜態紋理而言起步要晚的多。動態紋理的研究最早始于20世紀90年代初，由Nelson和Polana采用建立線性系統模型的方法對其進行研究[2]，并且將視覺運動劃分為三類[3]：行為、運動事件以及動態紋理。隨后，Szummer 和 Picard提出采用時空自回歸模型（Spatio?Temporal Auto Regressive，STAR）[4]對動態紋理序列進行建模。基于光流的識別法是目前比較流行的動態紋理識別法，因為其計算效率高，并且以一種很直觀的方式來描述圖像的局部動態紋理特征，Fazekas和Chetverikov總結出，正則性（Regulated）全局流與普通流（Normal Flow）相比，普通流可以同時包含動態特性和形狀特性[5]。基于LBP的動態紋理方法是最近幾年才提出的一種有效算法，典型的是Zhao等人提出的兩種時空域上的描述子：時空局部二值模式（Volume Local Binary Pattern，VLBP）[6]和三正交面局部二值模式（Local Binary Pattern from Three Orthogonal Planes，LBP?TOP）[7]，有效地結合“運動”和“外觀”特征。2007―2008年是動態紋理研究最多的兩年，各大期刊雜志連續刊登有關動態紋理的研究文章。

本文試圖解決動態自然場景的分類問題（例如：煙火、河流、風暴、海洋、雪花等）。在計算機視覺領域，過去采用較多的是手動提取特征來表示物體運動信息（例如：HOF、基于STIP的HOG算法等），實驗表明該類方法對人體行為識別非常有效。但是由于自然環境比較復雜，動態紋理表現不穩定，易受光照、遮擋等影響，而手動選取特征非常費力，需要大量的時間進行調節，所以該類方法并不適用于動態場景分類。Theriault等人提出利用慢特征分析的方法來提取動態視頻序列的特征[8]。該方法雖然能有效表示動態紋理特征，但是其提取的特征維數較高。深度學習是機器學習研究中一個新的領域，其動機在于建立、模擬人腦進行分析學習的神經網絡，近幾年深度學習網絡模型在大尺度圖像分類問題中成功應用使得其得到越來越多人的重視。卷積神經網絡、深度置信網絡和堆棧自編碼網絡是三種典型的深度學習網絡模型，而堆棧自編碼網絡模型不僅對高維數據有很好的表示，而且采用非監督的學習模式對輸入數據進行特征提取，這對于傳統的手動提取特征。利用堆棧自編碼網絡模型對慢特征進行進一步學習，不僅能降低數據維度，而且還能提取出數據更有效的特征表示。

1 基于堆棧自編碼網絡模型的慢特征分析法

1.1 慢特征分析法

文獻[9?10]中提到，慢特征分析算法的目標是從不斷變化的輸入信號中學習不變量，即除了無意義的常值信號外，最具不變性質的信息，其實質也就是從快速變化的信號中提取緩慢變化的信號特征，這種特征是從混合信號中提取出來的源信號的高級表示，表征信號源的某些固有屬性[11]。

實驗證明，慢特征分析法在人體行為識別中有很好的描述作用，這為動態紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關矩陣的特征值分解，其本質是在經過非線性擴展特征空間對目標函數進行優化，尋找最優解的線性組合。

給定一個時域輸入信號序列：

[vt=v1t，v2t，…，vDtT]

目標就是學習一組映射函數：

[Sv=S1v，S2v，…，SMv]

使得輸出信號[yt=y1t，y2t，…，yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢，而且仍然保留相關的重要信息。選用時域信號一階導數的均方值來衡量輸出信號個分量的變化率：

[minSj<y?2j>t] （1）

且滿足以下條件：

（1） [<yj>t=0];

（2） [<y2j>t=1];

（3） [?j<j'：<yj，yj'>t=0]。

其中：[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導數。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小，其中條件1和條件2確保輸出沒有無意義的常信號值，條件3確保輸出各分量之間是非相關的，且不同慢特征承載著不同信息。值得注意的是，函數[Sv]是輸入信號的瞬時函數，所以輸出結果不能看成是通過低通濾波器的結果，慢特征處理速度要比低通濾波器快很多。如圖1所示。

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t1.tif>

圖1 時域輸入信號慢特征的提取

輸出信號各分量按照變化率從小到大排列，且互不相關，其最優解問題可以看成以下公式的解特征值問題：

[Sj：<v?v?T>tSj=λjSj] （2）

求解得到的特征值按從小到大的順序排列，即[λ1≤λ2≤???≤λM]，輸出信號的慢特征和最小特征值息息相關。輸入信號[vt]可以是多種模式的圖像特征（例如色彩，梯度，SIFT特征，HOG特征）。

這里采用的是v1特征[12?13]，該特征對圖像有很好的表示，確保預先學習到的慢特征能達到最優。

1.2 堆棧自動編碼模型

自動編碼器模型是深度學習網絡模型之一，其盡可能復現輸入信號，捕捉代表輸入信號的主要成分。

如圖2所示，對于給定輸入信號[x]，根據式（2）得到輸出[y]，此過程為編碼過程：

[y=fθx=sWx+b] （3）

式中：[sx=11+θ-x];[W]是[d′×d]維權重矩陣;[b]是偏移向量。

為了驗證輸出[y]是否準確表達原輸入信號，利用式（2）對其進行重構，得到重構信號[z]。此過程為解碼/重構過程：

[gθ′y=sW′y+b′] （4）

從輸入到輸出的權值記為[θ=W，b]，從輸出到輸入的權值記為[θ′=W′，b′]。逐層進行參數[θ]和[θ′]的優化，式（5）為其目標函數：

[θ?，θ′*=argminθ，θ′Lx，zLx，z=12x-z2] （5）

調整參數，使得重構誤差達到最小，因此可以得到[x]的第一層表示。

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t2.tif>

圖2 普通DA和降噪DA

降噪自動編碼器（Denoising Auto Encoder，Dae）是在自動編碼器的基礎上給訓練數據加入噪聲，編碼器需要學習去除噪聲而獲得沒有被噪聲污染的輸入信號，因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型（Sda）是將多個Dae堆疊起來形成的一種深度網絡模型。利用優化后的參數[θ]得到當前層的輸出[y]（即下一層的輸入），將得到的[y]作為新一層的輸入數據，逐層進行降噪自動編碼的過程，直到到達多層神經網絡中間隱層的最后一層為止，算出該層輸出，即為輸出特征，如圖3所示。

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t3.tif>

圖3 多層神經網絡結構圖

1.3 基于Sda的慢特征分析法

基于Sda的慢特征分析方法利用慢特征分析法預先學習動態視頻序列的慢特征，將該特征作為模型輸入，進行多層降噪自動編碼網絡模型參數的學習，最后使用SVM分類器對該模型的輸出特征進行分類，具體步驟如圖4所示。

2 實驗

2.1 實驗數據集與評估準則

實驗所用數據由10類動態場景構成（包括海灘，電梯，森林煙火，高速公路，閃電，海洋，鐵路，河流，云，街道），且每一個類別由30個250×370 pixels大小的彩序列構成。這些視頻序列全部來自于加拿大約克大學計算機視覺實驗室于2012年的YUPENN動態場景數據集[14]，該數據庫主要強調的是對象和表層在短時間內場景的實時信息。如圖5所示。

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t4.tif>

圖4 基于Sda的慢特征分析步驟圖

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t5.tif>

圖5 YUPENN動態數據庫

將所有彩序列進行尺度縮放，分別放大和縮小1.2倍，1.4倍，1.6倍，并且在每一個尺度上進行旋轉，旋轉角度分別為[2°，4°，6°，-2°，-4°，-6°]。所以樣本總數為（10×30）×（6×6）=10 800個。實驗性能使用混淆矩陣（Confusion Matrix）進行衡量。混淆矩陣是多分類問題中常用的衡量準則，它使得分類結果一目了然并能指出錯誤預測的影響。分類矩陣通過確定預測值是否與實際值匹配，將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數，并在矩陣中顯示總計。實驗中一共有14個類別的數據集，所以最后會產生一個大小為14×14的混淆矩陣。

2.2 實驗結果與分析

實驗選用線性SVM分類器，采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉換成灰度視頻進行慢特征分析，輸出大小為4 032維的慢特征向量作為Sda網絡模型的輸入數據。

2.2.1 Sda網絡模型大小

堆棧降噪自動編碼器網絡層數以及每一層的大小對輸出特征的魯棒性和SVM分類結果有重要的影響。當網絡層數不一樣時，模型學習到的特征也就不一樣，網絡層數過低，學習力度可能不夠，特征達不到最佳表示效果，網絡層數太高，可能會出現過擬合現象，隱層的大小和最后的分類結果也息息相關，所以選取不同網絡層數和隱層大小分別進行實驗，如圖6所示，選取網絡層數分別為1，2，3，隱層大小分別為500，1 000，2 000。由圖6可知，當隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時，隨著網絡層數不斷增加，實驗結果不斷提升，當網絡層數由2層上升到3層時，實驗結果已經非常接近（網絡層數為2時score=95.9%，網絡層數為3時score=96.3%）。可以得知，隨著網絡層數不斷增加，分類的效果逐漸提高，當網絡層數為3時，分類結果已非常接近。

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t6.tif>

圖6 不同網絡層數和隱層大小的分類結果

2.2.2 噪聲

Sdae對每一層的輸入加入噪聲，編碼器自動學習如何去除噪聲而獲得更加魯棒的動態紋理特征，因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此，選取不同大小的噪聲分別進行實驗，如圖7所示，選取噪聲大小分別為10%，15%，20%，25%，30%，35%，40%，45%，50%，固定網絡層大小為[500，500，500];由圖可知，加入噪聲對分類得分的影響呈類似拋物線形狀，對每一層輸入數據加入25%的噪聲時score=0.964為最大值。

2.2.3 混淆矩陣以及實驗與現有方法的比較

圖8為實驗最優參數所計算出的混淆矩陣，由圖可知，海灘、電梯、高速公路以及海洋的分類效果達到100%，噴泉（Fountain）的分類效果雖然最差，但也已經達到83%左右，其容易被誤分成森林火災（17%錯誤分類）。由該混淆矩陣可以得知，實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現有幾個比較常用的動態紋理特征提取方法的比較，分別有HOF[15]，GIST[16]，Chaos[17]，SFA[8]。由表格可以得知，SFA是幾個方法中效果最好的，可以達到76.7%的分類效果，而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分，并且在每一個動態場景中分類效果總是優于其他幾種方法。

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t7.tif>

圖7 加入不同噪聲的分類結果

<E：＼王芳＼現代電子技術201506＼現代電子技術15年38卷第6期＼Image＼42t8.tif>

圖8 混淆矩陣

表1 本實驗與現有方法比較

3 結語

本文提出一種基于多層降噪自動編碼網絡模型的動態紋理分類方法：預先學習動態視頻序列的慢特征，以此作為多層降噪自編碼網絡模型的輸入數據進行非監督的深度學習，網絡最頂層的輸出即為所提取的動態紋理特征，采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數如網絡模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究，實驗證明，該方法所提取的特征對動態紋理有很好的表示作用，分類效果不錯，在動態場景分類問題中有很大的應用價值。

參考文獻

[1] DORETTO G， CHIUSO A， WU Y， et al. Dynamic textures [J]. International Journal on Computer Vision， 2003， 51（2）： 91?109.

[2] NELSON R C， POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP： Image Understanding， 1992， 56（1）： 78?89.

[3] POLANA R， NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition： Computational Imaging and Vision， 1997， 9： 87?124.

[4] SZUMMER M， PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]： [s.n.]， 1996： 11?16.

[5] FAZEKAS S， CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis （ICCV 2005）. [S.l.]： [s.n.]， 2005： 37?42.

[6] ZHAO G， PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]： [s.n.]， 2006： 165?177.

[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence， 2007， 29（6）： 915?928.

[8] THERIAULT Christian， THOME Nicolas， CORD Matthieu. Dynamic scene classification： learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http：//.

[9] FRANZIUS M， WILBERT N， WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin： Springer?Verlag， 2008： 961?970.

[10] WISKOTT L， SEJNOWSKI T. Slow feature analysis： Unsupervised learning of invariances [J]. Neural Comput.， 2002， 14： 715?770.

[11] 馬奎俊，韓彥軍，陶卿，等.基于核的慢特征分析算法[J].模式識別與人工智能，2011（2）：79?84.

[12] DE VALOIS R， YUND E， HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research， 1982， 22： 531?544.

[13] HUBEL D， WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol， 1959， 4： 574?591.

[14] DERPANIS Konstantinos， LECCE M， DANIILIDIS K， et al. Dynamic scene understanding： the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]： [s.n.]， 2012： 111?121.

[15] MARSZALEK M， LAPTEV I， SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]： IEEE， 2009： 2?6.

篇5

關鍵詞 Sobel算法；算子；邊緣檢測；多方向模板；邊緣細化

中圖分類號：TP391 文獻標識碼：A 文章編號：1009-3044（2016）27-0159-03

Abstract： Edge extraction is an essential part of image research. In this paper， a variety of edge extraction methods were compared. The traditional Sobel algorithm is described. In view of the traditional Sobel algorithm， the existence of the detection direction is not strong and edge extraction of the characteristics of the rough， an improved 5*5 template extraction method for multi direction algorithm is proposed.. After getting the picture again using the algorithm to deal with edge thinning. According to the experimental results， it can be concluded that compared with the traditional Sobel， the improved algorithm is more fine and the direction is stronger than the traditional one.

Key words：sobel arithmetic； operator； edge detection； multi direction template； edge thinning

1 引言

唐卡在藏族文化、歷史、政治等各個領域都有涉及，凝聚著藏族人民的智慧，記載了藏族歷史發展，具有很高的研究價值。在日常生活中，人們主要采用語音和圖像這兩種方式來進行信息的傳遞[1]，隨著科學技術和數字媒體的不斷發展，圖像所包含的信息越來越豐富。在醫學、氣象監控、藝術創作、傳真、微生物工程等都有很大應用，因而圖像處理的技術變得越來越重要。而圖像邊緣是整個圖像的整體概貌，圖像的邊緣提取也就成了圖像處理技術過程中最基礎也最重要的一步，人們也希望找到一種方法可以抗噪強、定位準、不漏檢、不誤檢[2]。目前，邊緣提取算法主要可以分為三大類：

第一是基于導數的方法，比如[3]：1）Sobel算法：一階微分算法，在圖像空間利用兩個方向模板與圖像進行卷積；2）Roberts算法：一階微分的邊緣檢測算子，利用相鄰對角方向的兩個像素之差檢測邊緣；3）Prewitt算法：一階微分算法，利用水平和垂直兩個方向的卷與圖像的每個像素進行卷積，兩者得出的最大值即為結果；4）Kirsch算法：利用8個方向算子與圖像的像素進行卷積檢測邊緣；5）Canny算法：一種多級算法；

第二是基于能量準則的算法，比如：1）松弛算法：指對于每個頂點v∈V，都設置一個屬性d[v]，用來描述從源點s到v的最短路徑上權值的上界，稱為最短路徑估計；2）神經網絡分析：從神經心理學和認知科學研究成果出發，應用數學方法發展起來的一種具有高度并行計算能力、自學能力和容錯能力的處理方法；3）Snake算法：給出初始的輪廓，然后進行迭代，使輪廓沿能量降低的方向靠近，最后得到一個優化的邊界；

第三種是剛發展的一些新技術，比如：小波變換：一種新的變換分析方法，它繼承和發展了短時傅立葉變換局部化的思想，同時又克服了窗口大小不隨頻率變化等缺點，能夠提供一個隨頻率改變的“時間-頻率”窗口，是進行信號時頻分析和處理的理想工具。

2 常用邊緣提取算法的比較

傳統的邊緣算法主要有Sobel算法、Prewitt算法、Roberts算法、Kirsch算法、Canny算法。這些邊緣檢測算法操作簡單，速度快，但是檢測的邊緣容易受到噪聲的干擾，所以都存在檢測出的邊緣不準確，造成誤差的原因主要有：1）圖像本身所具有的真實灰度與我們想檢測的灰度值之間不完全吻合；2）算子模板方向固定，忽略了其他方向的邊緣；3）都比較容易受噪聲影響。[4]

表1對傳統邊緣提取的算法在邊緣輸出、漏檢、假檢、邊緣檢測精度、耗時、抗噪能力等方面進行了比較。從表中可以看出，Sobel算法除了耗時比較長以外，是幾種傳統算法中最實用的一種算法，本文通過比較，以傳統Sobel算法為基礎，在此分析基礎上提出了一種改進后的Sobel算法。

3 傳統的sobel算法

3.1 傳統Sobel算法基本理論

Sobel算法是基于梯度的一階導數的邊緣檢測方法，由于圖像的灰度邊緣處會有跳變的現象[6]，從而根據此現象來進行邊緣的檢測。傳統Sobel算子在圖像空間利用兩個方向模板與圖像進行卷積，一個是水平梯度方向，來檢測垂直邊緣；一個是垂直梯度方向，來檢測水平邊緣。模板中的數字為模板系數，中間的點表示中心元素，梯度方向與邊緣方向總是正交垂直。兩個方向的算子如圖1所示：

3.2 算法實現

首先分別將水平和垂直方向上的兩個模板的中心點與圖像中的每個像素對應；然后用模板與圖像進行卷積；最后兩個模板與圖像進行卷積后得出的兩個值，比較大小，選出最大值，則為某點的新的像素值。也可理解為是求最大值的方法，用公式定義如下：

g（i，j）=|f（i-1，j+1）+2f（i，j+1）+f（i+1，j+1）-f（i-1，j-1）-2f（i，j-1）-f（i+1，j-1）|+|f（i-1，j-1）+2f（i-1，j+1）+f（i+1，j-1）-2f（i+1，j）-f（i+1，j+1）|

卷積模板如圖1，卷積的最大值為該點的輸出值。由于傳統的Sobel算法只考慮了水平和垂直兩個方向，忽略了邊緣的多方向性；其次，檢測出的邊緣有很多的偽邊緣，并且檢測出的邊緣較粗，本文提出了8方向的5*5模板的改進方法。

4 改進后的sobel算法

4.1 8個方向模板

傳統的Sobel算法只考慮了水平和垂直兩個方向，檢測出的邊緣較粗，并且具有偽邊緣，因此，有人提出了一些改進的方法，例如：1）先用Sobel進行邊緣檢測，用ostu二值化，最后用多像素邊緣細化算法進行細化；2）先用Sobel進行邊緣檢測，用Sobel進行細化，最后用自適應的動態閾值計算方法進行二值化；3）基于Sobel算法梯度相乘的熱紅外圖像邊緣提取；4）自適應權值的改進算法等等。而本文的改進方法是將邊緣方向擴展為0°、45°、90°、135°、180°、225°、270°、315° 8個方向，以此增加邊緣方向的準確性。如圖2，圖3所示[6]：

4.2 改進后算法的實現

設（i，j）為圖像上各點像素坐標，g（i，j）為圖像在該點的灰度值，[g（i，j）]矩陣為將要檢測的圖像，w（i，j）為最后檢測所得的結果，由于8個方向模板為5*5，s[g（i，j）]即為以點（i，j）為中心的5*5模板，f（k）為圖3中8個模板（其中k為0、1、2、3、4、5、6、7、），m為長度為8的數組。

第一步：將f（k）與s[g（i，j）]進行卷積，將計算所得的結果的絕對值存放在數組m中；

第二步：目的是：查找第一步算出的8個結果中的最大值，在一組數組中查找最大最小值，有二分法、冒泡排序法、選擇排序法等等，由于本文涉及的數組中數據較少，因此選擇順序查找法來找出數組中的最大值，順序查找法就是假定要從n個整數中查找最大值，則從頭到尾逐個查找。具體步驟如下：

a、令max=m[0]，k=1；

b、若m[k]>max，則max=m[k]；否則，k=k+1；

c、若k

第三步：將max賦給w（i，j），即為該點的輸出值[7]。

最后的輸出值即為該點新的像素值。

4.3 邊緣細化

我們采用改進后的算法對圖像進行邊緣提取，得到的圖像1與原始的圖像相比，圖像1的邊緣灰度有變化，在此基礎上，我們在對圖像1進行同樣的處理，再用改進后算法進行提取，得到的圖像2在圖像1的基礎上，中間的圖像部分變成了背景，得到的邊緣更細，兩次所到的圖像邊緣進行相減，即：2-1得到圖像3，關于圖像3，我們將其邊緣像素的負值全部改為0，所得到的圖像即為細化后的結果圖。

5 實驗結果

為檢測改進后的算法與傳統算法的效果，在VC++環境下，以轉經筒和唐卡為例對進行邊緣提取后的效果圖進行對比。圖4圖5為原圖；圖6圖7為傳統算法提取的結果；圖8圖9為改進后的效果圖。有圖可以看出，；圖6檢測出的邊緣相對清晰完整，而圖5提取的邊緣比較模糊，并且數據比較亂，圖6相對圖5檢測的邊緣更加豐富，總的來說，本文的方法很好保護了各方向的邊緣，得到了更好的效果。

6 結論

針對傳統Sobel算法的一些弊端，本文擴展成5*5的8方向模板，重新定義了模板中的權值，和傳統Sobel算法相比，在一定程度較好的保留并檢測出了各個方向的邊緣，且相對簡單，對于傳統的其他算法，如Roberts算法、Prewitt算法等都可以依據此方法進行改進，增加模板、擴展邊緣方向為8個或者更多，以此得到更好的應用。

參考文獻：

[1]鄭英娟.基于八方向Sobel算子的邊緣檢測[J].數字信息處理，2013（S2）.

[2]章毓晉.圖像工程[M].北京：清華大學出版社，1999.

[3]何春華.基于改進Sobel算子的邊緣檢測算法的研究[J].信息光學與圖像處理，2012（3）.

[4]李安安.幾種圖像邊緣檢測算法的比較和展望[J].信息技術與通信，2009（12）.

[5]高飛.Sobel邊緣檢測算子的改進研究[J].算法分析，2016（1）.

篇6

關鍵詞： Volterra級數；非線性系統辨識；廣義頻域響應函數（GFRF）；多音信號；Vandermode法

中圖分類號： TP206.3文獻標志碼： A

現實世界中，存在著大量的非線性現象，幾乎所有的控制系統、電子系統都是非線性的，線性只是對非線性在一定程度和范圍內的近似描述.隨著現代科學技術的飛速發展，關于非線性系統的控制、建模、分析、綜合和預測等問題日益凸現，非線性已成為目前研究的熱點問題.

解決非線性問題的基礎是建立描述非線性系統的數學模型，Volterra級數是非線性系統建模的常用模型之一，包括時域核及頻域核兩種形式[12].Volterra核函數是線性系統描述的直接擴展，與線性系統的脈沖和頻率響應函數一樣，能夠描述非線性系統的本質特性，具有物理意義明確、適應范圍廣等優點，在諸多領域取得了許多成功的應用[36].Volterra時域核的傅里葉變換形式被稱作Volterra頻域核，或廣義頻域響應函數（generalized frequencyresponse functions， GFRFs）[7].Volterra頻域核提供了從頻域分析非線性系統的方法，人們往往更加關心Volterra頻域核，這是由于相對于Volterra時域核，其頻域形式可使人們直觀、準確地理解許多重要的非線性現象.Chua給出了多音激勵下Volterra核頻域輸出特性[8]；Bedrosian分析了在諧波及高斯輸入激勵下Volterra系統的輸出特性[9].目前，Volterra頻域核的辨識方法分為參數辨識和非參數辨識兩種[1011].參數辨識的方法是基于非線性系統的微分方程來辨識Volterra頻域核[1215]，該方法比較成熟；非參數辨識是基于系統的輸入輸出數據來辨識Volterra頻域核[1620].由于非線性系統的復雜性，通常很難獲得其理想的數學模型，因此參數辨識的方法有其局限性.由于非參西南交通大學學報第48卷第2期韓海濤等：基于多音激勵的Volterra頻域核非參數辨識方法數辨識是基于“黑箱”辨識，不用了解系統的內部機理及物理特性，只根據系統的輸入輸出數據進行辨識，因此更具有實用性.

文獻[16]提出了一種基于時域分析的非參數辨識方法，該方法僅能計算出Volterra核在諧波頻率成分處的值，且只適用于辨識前3階Volterra核；文獻[17]采用高斯白噪聲作為系統的輸入激勵，根據時域自適應辨識方法對Volterra核進行辨識，這種方法待辨識的參數與系統的記憶長度和階次成指數增加，辨識過程復雜、計算量大；文獻[1819]基于頻率分離思想給出了基于多音激勵的Volterra頻域核的非參數辨識方法，該方法具有較高的辨識精度，然而沒有系統地推導出任一階Volterra頻率核的辨識公式；文獻[20]雖然給出了多音激勵下Volterra頻域核的估算公式，但估算誤差比較大，使非參數辨識方法的應用受到很大的限制；文獻[21]提出了Volterra頻域核辨識的多音激勵信號設計，為多音激勵下Volterra頻域核的非參數辨識奠定了基礎.本文對多音激勵下Volterra頻域核的輸出特性進行了深入研究，從理論上系統地推導出了Volterra頻域核的辨識公式，克服了以往Volterra頻率核非參數辨識方法的不足，通過實驗結果驗證了本文結論的正確性.1Volterra頻域核的定義及重要性質對任意連續的時不變弱非線性動態系統，可以用廣義卷積分或Volterra級數完全描述：

5結束語Volterra頻域核的傳統辨識方法存在計算量大、步驟復雜、精度不高的問題.本文針對這些問題提出了一種新的基于多音激勵的非參數辨識方法.重點探討了多音信號激勵下Volterra頻域核輸出特性，基于此性質推導出了Volterra頻域核的辨識公式，并總結出了基于多音激勵Volterra頻域核辨識的一般方法步驟.通過對一非線性系統的Volterra頻域核進行辨識，驗證了該方法的有效性.該方法具有計算量小、精度高、易于工程實現的特點，可廣泛應用于非線性系統的建模及故障診斷，是一種實用的方法.

參考文獻：

[1]RUGH W J. Nonlinear system theory[M]. The Jonhs Hopkins University Press， 1981： 320.

[2]PENG Zekai， LANG Zhiqiang， BILLING S A. Resonances and resonant frequencies for a class of nonlinear system[J]. Journal of Sound and Vibration， 2007， 300（3）： 9931014.

[3]馬紅光，韓崇昭，王國華，等. 雷達引信視頻放大器的GFRF辨識模型及其誤差分析[J]. 探測與控制學報，2004，26（3）： 5054.

MA Hongguang， HAN Chongzhao， WANG Guohua， et al. The GFRF identification model of radar video frequency amplifier and its error analysis[J]. Journal of Detection and Control， 2004， 26（3）： 5054.

[4]馬紅光，韓崇昭，孔祥玉，等. 基于電路仿真的接收機中頻放大器的GFRF模型[J]. 系統仿真學報，2004，16（6）： 11431146.

MA Hongguang， HAN Chongzhao， KONG Xiangyu， et al. The GFRF identification model of radar fuze receiver[J]. Journal of System Simulation， 2004， 16（6）： 11431146.

[5]馬紅光，韓崇昭，王國華，等. 基于EDA仿真的中頻放大器GFRF模型[J]. 計算機仿真，2004，21（7）： 2225.

MA Hongguang， HAN Chongzhao， WANG Guohua， et al. GFRF identification model of IF amplifier based on EDA simulation[J]. Computer Simulation， 2004， 21（7）： 2225.

[6]LIU Haiying. Classification of stably dissipative 3D LotkaVolterra system and their necessary and sufficient condition for being stably dissipative[J]. Journal of Modern Transportaion， 2008， 16（3）： 298302.

[7]LANG Zhiqiang， BILLING S A. Output frequency characteristics of nonlinear system[J]. International Journal of Control， 1996， 64（6）： 10491067.

[8]CHUA L O， NG C Y. Frequency domain analysis of nonlinear systems： general theory[J]. Electronic Circuit and Systems， 1979， 3（4）： 165185.

[9]BEDROSIAN E， RICE S O. The output properties of Volterra systems （nonlinear systems with memory） driven by harmonic and Gaussian inputs[J]. Proceedings of the IEEE， 1971， 59（12）： 16881707.

[10]LI L M， BILLINGS S A. Analysis of nonlinear oscillators using Volterra series in the frequency domain[J]. Journal of Sound and Vibration， 2011， 330（2）： 337355.

[11]CHATTERJEE A， VYAS N S. Nonlinear parameter estimation with Volterra series using the method of recursive iteration through harmonic probing[J]. Journal of Sound and Vibration， 2003， 268（4）： 657678.

[12]BILLING S A， TSANG K M. Spectral analysis for nonlinear system， part I： parametric nonlinear spectral analysis[J]. Mechanical Systems and Signal Processing， 1989， 3（4）： 319339.

[13]BILLING S A， JONES J C. Mapping nonlinear integrodifferential equations into the frequency domain[J]. International Journal of Control， 1990， 52（4）： 863879.

[14]JONES J C， BILLING S A. A recursive algorithm for the computing the frequency response of a class of nonlinear difference equation models[J]. International Journal of Control， 1989， 50（5）： 19251940.

[15]JONES J C. Simplified computation of Volterra frequency response functions of nonlinear system[J]. Mechanical Systems and Signal Processing， 2007， 21（3）： 14521468.

[16]LI L M， BILLINGS S A. Estimation of generalized frequency response functions for quadratically and cubically nonlinear systems[J]. Journal of Sound and Vibration， 2011， 330（3）： 461470.

[17]張家良，曹建福，高峰. 大型裝備傳動系統非線性頻譜特征提取與故障診斷[J]. 控制與決策，2012，27（1）： 135138.

ZHANG Jialiang， CAO Jianfu， GAO Feng. Feature extraction and fault diagnosis of largescale equipment transmission system based on nonlinear frequency spectrum[J]. Control and Decision， 2012， 27（1）： 135138.

[18]BOYD S， TANG Y S， CHUA L O. Measuring Volterra kernel[J]. IEEE Transactions on Circuits and Systems， 1983， 30（8）： 571577.

[19]CHUA L O， LIAO Youlin. Measuring Volterra kernel （Ⅱ）[J]. International Journal of Circuit Theory and Applications， 1989， 17（2）： 151190.

[20]殷時蓉. 基于Volterra級數和神經網絡的非線性電路故障診斷研究[D]. 成都：電子科技大學，2007： 5354.

[21]韓海濤，馬紅光，韓琨，等. 關于Volterra頻域核辨識的多音激勵信號設計[J]. 工程設計學報，2012，19（2）： 123127.

篇7

關鍵詞:紅棗(Ziziphus zizyphus);邊緣檢測;分級

中圖分類號:S665.1;TP751.1文獻標識碼:A文章編號:0439-8114(2014)10-2427-04

Grading Red Dates Based on the Size from Image Edge Detection

YAO Na,WU Gang,CHEN Jie

(College of Information Engineering,Tarim University,Alar843300,Xinjiang,China)

Abstract:Starting from the application area of research in computer vision, a method of using image edge detection to calculate the size of red dates and to classify red dates in the case of absenting decayed red dates was developed. Simulation of edge detection demonstrated the validity and superiority of the wavelet method and the simulation of grading detection proved that the new method was effective and rapid,providing the basis for the key design of red dates classifier.

Key words:red dates(Ziziphus zizyphus); edge detection; grading

基金項目:新疆生產建設兵團青年科技創新資金專項(2013CB020)

新疆地區紅棗品種較多,有的品種含糖量高達34%,其營養豐富,受到人們的喜愛。目前,紅棗品種越來越多,其產量及銷售量也越來越高,紅棗采集后對其進行分類是加工過程中很重要的工作環節,最初的分揀都是由人工完成,一方面需要大量的人力資源;另一方面不能保證產品的安全。隨著科學技術的發展,農業機械化的應用越來越廣泛,研究者將重點關注紅棗自動分級,可以節省人力而實現農業自動化。李湘萍[1]介紹了紅棗分級機的工作原理;張保生等[2]將紅棗的形狀特征、顏色特征和紋理特征通過BP網絡算法進行自動分級;趙文杰等[3]提出了以顏色作為特征利用支持向量機的方法進行紅棗的缺陷識別,識別率可達96.2%;肖愛玲[4]對幾種典型的紅棗分級機的結構進行了介紹;肖愛玲等[5]對2011年前紅棗的分級技術及研究現狀進行了總結;沈從舉等[6]對紅棗分級機的研究狀態和應用方法進行了歸納。

目前,基于計算機視覺的方法具有智能化、精度高、損傷小等優點,該方法的核心部分在于選取什么特征以及利用何種算法對紅棗進行判斷。研究者提出的方法具有一個共同特點是特征選取較多,比如同時提取顏色特征、形狀特征和紋理特征,因此計算量較大,分級機的設計組成對信息處理的硬件部分有較高的要求,在紅棗分級機的設計中存在兩方面的問題:一方面成本較高;另一方面硬件達不到設計的要求。小波變換對噪聲不敏感,邊緣檢測清晰,所以有不少研究者將不同的小波變換方法[7-10]應用在圖像邊緣檢測中,經仿真試驗證明也適合應用在紅棗的邊緣檢測中。因此,本研究提出一種簡單的分級方法來對紅棗進行分級,即以提取紅棗的邊緣特征,只有形狀特征,應用小波變換的算法,減少了計算量。

1材料與方法

1.1材料

紅棗品種為新疆阿拉爾地區種植的駿棗,已經過人為的挑揀,測試結果得分為優等級的個數較多。

1.2檢測方法

在無腐爛的情況下,個體較大、飽滿的紅棗可分到較高的級別中,可用邊緣檢測方法對紅棗的邊緣進行檢測,然后根據檢測出的邊緣再計算紅棗的面積,面積大于某一設定閾值的紅棗為優等級,其余為低級。

1.3小波邊緣檢測

小波變換可以解決時域和頻域的矛盾,可以將信號進行更精確地分析。圖像中的邊緣點為灰度變化較大的像素點,即一階微分極大值點或者二階微分過零點。圖像邊緣檢測可以通過小波的奇異性來檢測。設θ(x,y)為一個平滑的二維函數,在考慮尺度參數的情況下,θa(x,y)=■■，■,那么二維小波的定義[11]為:

ψx(x,y)=■

ψy(x,y)=■

用矢量形式表示二維小波變換:

a■+■

=af■（x，y）■+f■（x，y）■

=af(x,y)[ψx(x,y)■+ψy(x,y)■]

=a[(fψx)(x,y)■+(fψy)(x,y)■]

=Wxa f(x,y)■+Wya f(x,y)■

=aΔ(fθa)(x,y)

fθa(x,y)表示圖像f(x,y)與平滑函數θa(x,y)卷積后的平滑圖像。梯度矢量的模值為:

■ (3)

梯度矢量與水平方向的夾角為:

α=Arg[Wa(x,y)]

=arctan■(4)

確定梯度矢量的模值極值后,再經過閾值的處理,可以得到圖像的邊緣,不同的a可以實現多個不同尺度的檢測。圖像中目標的方向性是重要的特征之一,作為小波的改進方向,小波的應用成為了一個研究熱點,它能有較好的方向性分析,體現了圖像的方向性。任意方向小波變換[12]的定義為:(假設γ=0,θ∈[0,π)]

Wθa f(x,y)=f(x,y)*g(x,y,θ,γ)

=Wθa f(x,y)cosθ+Wθa f(x,y)sinθ

=||Wa f(x,y)||■?

cosθ+■sinθ (5)

=||Wa f(x,y)||(cos(Arg[Wa f(x,y)]))?

cosθ+sin(Arg[Wa f(x,y)])sinθ

=||Wa f(x,y)||(cosαcosθ+sinαsinθ)

=||Wa f(x,y)||cos(α-θ)

運用小波方法對紅棗進行邊緣檢測,為紅棗分級檢測解決基礎性的第一步難題,同時也用經典的Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子對紅棗進行邊緣檢測以便比較分析各自的特點。

1.4分級檢測的過程

檢測紅棗邊緣后需要對紅棗的面積進行計算,通過對邊緣點的長度進行計算可以得出邊緣的長度,將紅棗的形狀假設為圓形,可以用圓周長將圓面積求出,即可以求出紅棗的面積。假設計算檢測出邊緣點的長度,紅棗的面積近似為:

s=■ (6)

因為整個過程屬于比較過程,所以進行近似計算不影響相對的比較。

整個分級檢測的仿真試驗步驟為:

1)讀入紅棗圖像,將彩色RGB圖像轉為灰度圖像;

2)對紅棗灰度圖像求出小波變換的模值和梯度矢量與水平方向的夾角;

3)在水平方向、垂直方向、-45°方向和+45°方向4個方向上進行搜索判斷模值和梯度方向的條件得到邊緣值,將得到的邊緣值進行歸一化,設定閾值為0.18來判斷紅棗圖像的邊緣;

4)計算紅棗的邊緣長度,確定紅棗邊緣長度的閾值;

5)根據公式(6)計算紅棗的面積;大于邊緣長度閾值的對應面積閾值的紅棗判定為優良等級的紅棗,否則為較差等級的紅棗。

針對不同的分級機的機械設計,紅棗面積的閾值的確定可以根據兩種方式:一種方式是針對分級機單個讀取紅棗圖像并直接進行分級挑揀的情況,閾值根據經驗值來確定,比如某種品種的紅棗大小是在固定范圍內波動,預先設定固定的閾值來進行分級挑揀;另一種方式是針對分級機進行大量紅棗圖像同時進行讀取時,遍歷全部紅棗圖像,找到最大面積的紅棗,然后閾值設定為最大值的80%,大于該閾值的紅棗判定為優等級,否則判定為較差等級。

2結果與分析

仿真試驗中分別對單個紅棗和兩個紅棗為例進行小波的邊緣檢測,并且將小波檢測結果與Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子檢測結果進行分析對比。

2.1 單個紅棗檢測結果

圖1為理想的情況,即一個紅棗全部被讀入沒有遮蓋的情況,也是正常情況下的邊緣檢測。由圖1可以看出,小波方法檢測出的曲線較少,輪廓清晰,輪廓線的連續性好,一方面有利于邊緣長度的計算;另一方面減少了曲線個數的計算,減少了整個方法的計算量。Sobel算子檢測出的紅棗圖像與小波的方法相比較,噪點較多,定位精度不夠高,邊緣比較模糊;Canny算子檢測到的邊緣雖然比較連續,但是出現了由噪聲產生的偽邊緣,這樣在計算紅棗大小時會增加計算量,并且容易出錯;Prewitt算子和Roberts算子的檢測結果類似于Sobel算子的檢測結果,并且Roberts算子的檢測結果中邊緣斷點較多,給計算紅棗的長度帶來困難;Log算子的檢測結果邊緣較為連續,有少量斷點,與小波方法相比較紅棗內部的噪點較多,復雜度僅次于Canny算子的方法檢測出的結果。根據邊緣檢測的效果和計算復雜度以及后期需要的算法的復雜度來比較這幾種方法的優劣順序為小波、Prewitt算子、Roberts算子、Sobel算子、Log算子、Canny算子。

2.2兩個有遮蓋的紅棗檢測結果

圖2為遮蓋的情況,因此單個紅棗的邊緣不能完全檢測出,但是根據周長閾值的比較結果,同樣可以算出單個紅棗的面積。由圖2可以看出,小波方法對于有遮蓋的紅棗檢測仍是輪廓清晰且連續性好,內部曲線較少。Sobel算子檢測出的紅棗圖像與小波的方法相比較,噪點較多,邊緣斷點較多,邊緣比較模糊;Canny算子檢測到的邊緣過于模糊且斷點較多,還出現了由噪聲產生的偽邊緣,這樣在計算紅棗大小時對后期的算法要求較高,且容易出現錯誤結果;Prewitt算子和Roberts算子的檢測結果類似于Sobel算子的檢測結果,Roberts算子的檢測結果中邊緣較為清楚;Log算子的檢測結果邊緣斷點較多,與小波方法相比較紅棗內部的噪點較多,復雜度僅次于Canny算子的方法檢測出的結果。根據邊緣檢測的結果和計算復雜度以及后期算法的復雜度來比較這幾種方法的優劣順序為小波、Roberts算子、Prewitt算子、Sobel算子、Log算子、Canny算子。對于單個和兩個紅棗進行檢測的仿真結果都說明:較于其他5種算子,小波方法均是最優的。

研究中采集的紅棗圖像大小為442×398像素,閾值采用經驗值,實際的周長閾值映射到圖像中的周長為1 084像素,仿真試驗結果判定為準確可行,試驗結果見表1。

3小結與討論

隨著自動化技術在農業產品中應用越來越廣泛,其理論研究的方法也越來越多,從計算機視覺領域結合農業自動化技術提出了對紅棗加工有促進作用的紅棗自動分級的核心方法,對于紅棗生產的地區有重要意義。研究提出了利用方向小波方法對紅棗圖像進行邊緣檢測進而計算紅棗大小來對紅棗分級的方法,經仿真試驗證明小波變換方法的優越性及整個方法的有效性和快速性。此研究是在假設紅棗無腐爛的情況下進行分級的,所以有一定的局限性,但在下一步研究中可以彌補此點的不足,設置多個閾值可以將紅棗進行多個等級的分揀。

參考文獻:

[1] 李湘萍.6ZF-0.5型紅棗分級機的試驗研究[J].山西農機,2000(14):3-5.

[2] 張保生,姚瑞央.基于BP神經網絡算法的紅棗分級技術應用[J].廣東農業科學,2010(11):282-283.

[3] 趙杰文,劉少鵬,鄒小波.基于機器視覺和支持向量機的缺陷棗的識別研究[J].農業機械學報,2008,39(3):113-115.

[4] 肖愛玲.幾種典型的紅棗分級機[J].新疆農機化,2010(4):10-11.

[5] 肖愛玲,李偉.我國紅棗分級技術及紅棗分級機研究現狀[J].農機化研究,2011(11):241-244.

[6] 沈從舉,賈首星,鄭炫,等.紅棗分級機械的現狀與發展[J].中國農機化學報,2013,34(1):26-30.

[7] 宋文龍,閔昆龍,邢奕,等.基于小波變換的自適應閾值植物根系圖像邊緣檢測[J].北京科技大學學報,2012,34(8):966-970.

[8] 王敬東,徐亦斌,.圖像小波邊緣檢測中邊界處理的研究[J].計算機工程,2007,33(5):161-163.

[9] 鮑雄偉.小波變換在圖像邊緣檢測中的應用[J].電子設計工程,2012,20(14):160-162.

[10] 薄勝坤,張麗英.一種基于小波變換和Canny算子相結合的邊緣檢測方法[J].長春大學學報,2012,22(10):1177-1180.

篇8

1影像組學的定義及方法概述

隨著醫學影像技術及成像手段的快速發展，所產生的醫學圖像數據量也越來越大，對圖像獲取和存儲方面的質量控制，使得規范化、多模態的影像大數據集的建立成為可能。過去處理及使用小樣本量圖像數據的方法和模式，顯然不能對圖像的大數據信息進行充分的挖掘和利用。荷蘭學者Lambin于2012年首次提出了影像組學(Radiomics)的概念［9］，作為一種新興的利用醫學影像大數據對疾病進行定量分析預測的方法，可以從醫學圖像中獲得更多客觀定量、肉眼難以鑒別的影像學特征，再將其轉換為可挖掘的高維數據信息，從而實現圖像到數據的轉換［10，11］。通過大量的自動化數據特征化算法的使用，影像組學能有效實現圖像的采集與重組、病灶的分割及勾畫，并通過對病灶影像組學特征的提取與篩選，最終完成影像組學模型的建立［11，12］。近些年來，影像組學已廣泛應用于不同疾病的研究之中，在疾病檢測、診斷、鑒別診斷及預后評估方面發揮著越來越重要的作用。此外，深度學習(Deeplearning)等人工智能技術的突破性發展，減少了傳統影像組學人工提取數據特征的步驟，極大地縮短了從病灶影像組學特征提取到最終影像組學模型建立的時間，進一步促進了影像組學技術在醫學圖像處理等諸多領域的應用研究。

2影像組學在肝臟非腫瘤性病變中的研究進展

2．1肝纖維化及肝硬化的診斷評估

肝纖維化是各種慢性肝病發展為肝硬化或肝癌的過渡階段，主要是由含大量膠原蛋白的細胞外基質(extracellularmatrix，ECM)過度沉積于肝小葉周圍所引起，這些過度沉積的ECM阻礙正常肝細胞與血液間的物質交換，并最終引起肝細胞的的壞死、變性，從而誘發了肝纖維化等一系列的慢性肝損傷的過程。組織學上肝纖維化及部分肝硬化經治療后可逆［14］，因此早期精準地評估肝纖維化程度對于患者的治療及預后十分重要。作為診斷是否存在肝纖維化和評估肝纖維化分期的“金標準”的肝活組織穿刺檢查有創、可重復性差，并且肝纖維化的不均質性、穿刺活檢樣本量較少等因素，均會影響肝纖維化分期的準確性［13，14］。影像組學作為一種無創性的方法，可以對肝纖維化及肝硬化程度進行更加準確的評估。Park等［7］回顧性搜集436例不同肝纖維化患者的釓塞酸二鈉增強MRI圖像并構建影像組學肝纖維化指數模型，通過與肝活檢結果對比并內部驗證剔除相關性較低的特征，最終建立與肝纖維化分期相關性較高的模型，進行前瞻性驗證后發現其診斷F2～F4、F3～F4級肝纖維化及F4級肝硬化的敏感度和特異度分別為71%、78%，79%、82%，92%、75%;表明基于釓塞酸二鈉增強掃描肝膽期圖像的影像組學分析能較為準確地進行肝纖維化的診斷及分期。Wang等［15］搜集12個臨床醫學中心，398例患者共1990幅超聲二維剪切波彈性成像圖像，采用深度學習算法之一的卷積神經網絡(convolutionneuralnetwork，CNN)建立了超聲彈性成像深度學習影像組學模型，并以肝活檢作為金標準進行模型診斷效能的評估，結果顯示該模型可顯著提高對肝纖維化分期的準確性，其對肝硬化(F4)、晚期纖維化(≥F3)和顯著性纖維化(≥F2)診斷的曲線下面積(AUC)值分別高達0．97、0．98和0．85，表現出極佳的診斷效能。有研究［16］采用紋理分析的方法對212例不同病理分期肝纖維化患者和77名志愿者肝臟多層螺旋CT圖像進行分析后發現，隨著肝纖維程度的逐步加重，由紋理分析所獲得的峰度和偏斜度是逐步減低的，而平均灰度強度、熵則表現為依次增高，在區分不同分期肝纖維化和肝硬化時均顯示出較高的診斷效能，特別是在診斷肝硬化(≥F4)時，峰度和偏斜度的診斷的AUC值分別為0．86、0．87，表明紋理分析不僅有助于檢測肝纖維化的存在，還可用于肝纖維化的分期。綜上所述，基于多種成像手段所構建的影像組學模型對肝纖維化及肝硬化均表現出較高的評估診斷效能，故影像組學的發展，可能為臨床上早期發現、及時準確評估肝纖維化及肝硬化程度提供幫助，但基于不同成像手段所建立的影像組學模型間性能差異的研究，有待進一步的探索。

2．2門靜脈高壓及GOV破裂出血風險的評估

肝硬化失代償期常伴隨門靜脈高壓癥的出現，其嚴重程度與肝硬化所導致的相關并發癥如GOV、肝性腦病、腹腔積液等密切相關，因此，準確地評估門靜脈高壓程度十分重要。但是，目前評估門靜脈壓力變化的金標準肝靜脈壓力梯度(hepaticvenouspressuregradient，HVPG)為有創檢查、且費用較高，不利于臨床常規開展［17，18］。GOV破裂出血是晚期肝硬化最常見、最嚴重的并發癥，也是患者死亡的主要原因，相關研究顯示近50%門靜脈高壓癥患者可出現GOV，在肝功能C級的患者中，GOV出現概率高達85%，食管胃十二指腸內鏡是診斷GOV的“金標準”［19］，主要通過觀察內鏡下GOV的范圍、程度及“紅色征”等進行出血風險的評估，但內鏡檢查對于GOV程度嚴重的患者可重復性差。影像組學的出現，為門靜脈高壓及GOV破裂出血風險的無創性評估提供了新的選擇。Liu等［20］基于222例不同程度門靜脈高壓患者的增強CT圖像構建了臨床顯著性門靜脈高壓(clinical-lysignificantportalhypertension，CSPH)的非侵入性影像組學模型，并通過4個外部驗證隊列中163例患者，對該模型的診斷性能進行了前瞻性檢驗，結果顯示該模型不僅在內部驗證集中診斷CSPH的AUC值高達0．849，在4個外部前瞻性驗證隊列中，該模型診斷CSPH的AUC值也分別高達0．889、0．800、0．917、0．827，提示該影像組學模型可作為無創檢測肝硬化CSPH的一種準確方法。Yang等［21］通過分析兩個臨床醫學中心共295例乙肝肝硬化患者的肝臟三期增強CT圖像，從門靜脈期CT圖像提取出21個與GOV出血關系密切的影像組學特征，并結合了3個臨床特征(性別、門靜脈高壓、門靜脈栓子有無)，建立了用于預測乙肝肝硬化患者繼發GOV出血的CT影像組學模型，結果表明該影像組學模型的預測效能明顯優于臨床模型(AUC0．83vs0．64)，對于GOV破裂出血的預測，在訓練隊列與驗證隊列中，該模型預測的準確率分別為76%、73%，是一種有效預測GOV破裂出血的無創性方法。此外，還有研究［22］基于169個門靜脈高壓患者的CT圖像，建立了一個肝、脾特征聯合的影像組學模型，并對62例接受GOV治療的患者進行了驗證隊列研究，結果表明該模型不僅可以用于門靜脈高壓的診斷，還可用于GOV出血復發風險的預測，以29．102mmHg為最佳截斷值時，相應的AUC可高達0．866，提示該影像組學模型可作為無創、精準預測繼發于門靜脈高壓癥的GOV治療效果的有效的參考指標。影像組學無創、可重復性強，在門靜脈壓力及GOV出血風險的評估中潛力巨大，但模型預測效能的穩定性及泛化能力，仍需進一步的臨床研究進行證明。

2．3肝臟儲備功能的評估

肝臟儲備功能狀態的準確評估，關乎肝病患者，尤其是肝癌患者治療方式的選擇及預后［23］。Child-Pugh分級評分系統是臨床應用最廣泛的肝臟儲備功能評分標準，但Child-Pugh分級具有高度的變異性，易受患者膽汁排泄、門靜脈栓子形成等因素的影響，從而影響臨床工作中對患者肝臟儲備功能評估的準確性［24，25］。影像組學通過高通量的提取和處理圖像信息，可以對疾病進行更準確、更全面的評估。Simp-son等［26］對12例接受大范圍肝切除術后并發肝功能不全和24例未出現肝功能不全患者的術前CT圖像進行紋理分析，發現術后并發肝功能不全患者術前CT上肝實質的質地明顯不同，術后并發肝功能不全者不僅對稱性較差，均勻性也較差，并且兩組患者紋理特征之一的熵值間也存在顯著的差異，故從術前CT圖像中提取的紋理特征，可用于預測患者術后肝功能衰竭發生概率，可作為提供術前風險分層的另一種手段。Zhu等［27］基于101例患者的術前釓塞酸二鈉增強MRI圖像，使用影像組學的方法從肝膽相圖像中提取了61個影像組學特征，并最終篩選出5個影像組學特征用于建立術前預測肝癌患者術后肝功能的影像組學模型，其結果表明該模型對于預測術后肝功能衰竭發生概率具有良好的預測效能，模型預測的AUC值高達0．894，可用于預測肝硬化患者肝大部切除術后的肝功能衰竭。Zhou等［25］通過100例不同肝臟儲備功能肝硬化患者釓塞酸二鈉增強MRI肝膽期圖像所建立的評估肝臟儲備功能的列線圖預測模型，在預測肝臟儲備功能方面，也顯示出良好的效能，在訓練集及驗證集中，其預測肝臟儲備功能Child-PughB+C級患者的AUC值分別為0．88和0．86。影像組學在肝臟儲備功能評估中具有一定的價值，但不同病因患者間肝臟儲備功能影像組學特征間是否存在差異，以及所建立評估肝臟儲備功能模型的泛化能力，還有待進一步的研究。

2．4與肝臟腫瘤性病變的鑒別診斷

肝臟局灶性病變良惡性的準確判斷，對于臨床治療方式的選擇及患者的預后來說十分重要。但部分非腫瘤性病變和腫瘤性病變、良性腫瘤性病變和惡性腫瘤性病變之間影像學表現存在交叉，易出現誤診。影像組學能深度挖掘醫學影像圖像的影像特征信息，從而降低對肝臟局灶性病變的誤診率。Suo等［28］通過紋理分析的方法對20例肝膿腫患者及26例肝臟惡性腫瘤患者的增強CT圖像分析后發現，紋理特征之一的熵值能較為準確區分肝膿腫與肝臟惡性腫瘤，其診斷的靈敏度與特異度分別為81．8%、88．0%，AUC值高達0．888。Nie等［29］基于55例非肝硬化肝局灶性結節增生患者和101例肝癌患者的CT影像資料，從增強CT圖像中進行病灶勾畫后提取了4227個影像組學特征，通過降維方法將其縮減為10個影像組學特征，并聯合性別、年齡，病灶大小、形狀、中央瘢痕征有無等主觀評價條件構建了一個用于鑒別診斷肝臟局灶性結節增生與肝癌的影像組學模型，結果顯示該模型在訓練集及驗證集區分兩者的AUC分別高達0．979和0．917，具有良好的預測效能。而鐘熹等［30］對31例患者肝硬化結節常規T2WI序列進行紋理分析的結果之中，紋理參數如對比度、逆差距，能量、相關性、熵值均具有統計學意義，能有效進行小肝癌及局灶性增生的鑒別診斷。有研究［31］運用機器學習算法之一的隨機森林算法，通過獲取動脈期CT圖像紋理特征及性別、年齡等臨床特征，建立了肝臟富血供病變類別的預測模型，結果顯示其診斷肝腺瘤、局灶性結節增生及肝細胞癌的準確率分別為91．2%、94．4%、98．6%。以上結果提示:影像組學對肝臟非腫瘤性病變及腫瘤性病變有較強的鑒別診斷效能，能顯著提高肝臟局灶性病灶的影像診斷準確率。

3肝臟非腫瘤性病變影像組學的挑戰與展望

欧美五月婷婷_国产成人一区二区_久草在线视频网站_porn一区_亚洲一区国产二区_国产精品夜夜爽

卷積神經網絡的步驟范文

篇1

篇2

篇3

篇4

篇5

篇6

篇7

篇8

熱門標簽

相關文章

精品范文