卷積神經網絡的算法范文
時間:2024-04-02 18:03:30
導語:如何才能寫好一篇卷積神經網絡的算法,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
中圖分類號 TP18 文獻標識碼:A 文章編號:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
樹葉識別與分類在對于區分樹葉的種類,探索樹葉的起源,對于人類自身發展、科普具有特別重要的意義。目前的樹葉識別與分類主要由人完成,但,樹葉種類成千上萬種,面對如此龐大的樹葉世界,任何一個植物學家都不可能知道所有,樹葉的種類,這給進一步研究樹葉帶來了困難。為了解決這一問題,一些模式識別方法諸如支持向量機(Support Vector Machine,SVM)[1],K最近鄰(k-NearestNeighbor, KNN)[2]等被引入,然而,隨著大數據時代的到來,這些傳統分類算法暴露出越來越多的不足,如訓練時間過長、特征不易提取等不足。
上世紀60年代開始,學者們相繼提出了各種人工神經網絡[3]模型,其中卷積神經網絡由于其對幾何、形變、光照具有一定程度的不變形,因此被廣泛應用于圖像領域。其主要特點有:1)輸入圖像不需要預處理;2)特征提取和識別可以同時進行;3)權值共享,大大減少了需要訓練的參數數目,是訓練變得更快,適應性更強。
卷積神經網絡在國內研究才剛剛起步。LeNet-5[4]就是一種卷積神經網絡,最初用于手寫數字識別,本文研究將卷積神經網絡LeNet-5模型改進并應用于樹葉識別中。本文首先介紹一下卷積神經網絡和LeNet-5的結構,進而將其應用于樹葉識別,設計了實驗方案,用卷積神經網絡與傳統的模式識別算法支持向量機(SVM)進行比較,得出了相關結論,并對進一步研究工作進行了展望。
2人工神經網絡
人工神經網絡方面的研究很早就已開展,現在的人工神經網絡已經發展成了多領域、多學科交叉的獨立的研究領域。神經網絡中最基本的單元是神經元模型。類比生物神經元,當它“興奮”時,就會向相連的神經元發送化學物質,從而改變這些神經元的狀態。人工神經元模型如圖1所示:
上述就是一個簡單的神經元模型。在這個模型中,神經元接收來自n個其他神經元傳遞過來的輸入信號,這些信號通過帶權重的w進行傳遞,神經元接收到的總輸入值將與神經元的閾值進行比較,然后通過“激活函數”來產生輸出。
一般采用的激活函數是Sigmoid函數,如式1所示:
[σz=11+e-z] (1)
該函數圖像圖2所示:
2.1多層神經網絡
將上述的神經元按一定的層次結構連接起來,就得到了如圖3所示的多層神經網絡:
多層神經網絡具有輸入層,隱藏層和輸出層。由于每一層之間都是全連接,因此每一層的權重對整個網絡的影響都是特別重要的。在這個網絡中,采用的訓練算法是隨機梯度下降算法[5],由于每一層之間都是全連接,當訓練樣本特別大的時候,訓練需要的時間就會大大增加,由此提出了另一種神經網絡―卷積神經網絡。
2.2卷積神經網絡
卷積神經網絡(CNN)由于在圖像分類任務上取得了非常好的表現而備受人們關注。發展到今天,CNN在深度學習領域已經成為了一種非常重要的人工神經網絡。卷積神經網絡的核心在于通過建立很多的特征提取層一層一層地從圖片像素中找出關系并抽象出來,從而達到分類的目的,CNN方面比較成熟的是LeNet-5模型,如圖4所示:
在該LeNet-5模型中,一共有6層。如上圖所示,網絡輸入是一個28x28的圖像,輸出的是其識別的結果。卷積神經網絡通過多個“卷積層”和“采樣層”對輸入信號進行處理,然后在連接層中實現與輸出目標之間的映射,通過每一層卷積濾波器提取輸入的特征。例如,LeNet-5中第一個卷積層由4個特征映射構成,每個特征映射是一個24x24的神經元陣列。采樣層是基于對卷積后的“平面”進行采樣,如圖所示,在第一個采樣層中又4的12x12的特征映射,其中每個神經元與上一層中對應的特征映射的2x2鄰域相連接,并計算輸出。可見,這種局部相關性的特征提取,由于都是連接著相同的連接權,從而大幅度減少了需要訓練的參數數目[6]。
3實驗研究
為了將LeNet-5卷積網絡用于樹葉識別并檢驗其性能,本文收集了8類樹葉的圖片,每一類有40張照片,如圖5所示的一張樹葉樣本:
本文在此基礎上改進了模型,使用了如圖6卷積神經網絡模型:
在此模型中,第一個卷積層是由6個特征映射構成,每個特征映射是一個28*28的神經元陣列,其中每個神經元負責從5*5的區域通過卷積濾波器提取局部特征,在這里我們進行了可視化分析,如圖7所示:
從圖中可以明顯地看出,卷積網絡可以很好地提取樹葉的特征。為了驗證卷積神經網絡與傳統分類算法之間的性能,本文基于Python語言,CUDA并行計算平臺,訓練同樣大小8類,一共320張的一批訓練樣本,采用交叉驗證的方法,得到了如表1所示的結論。
可見,無論是識別率上,還是訓練時間上,卷積網絡較傳統的支持向量機算法體現出更好地分類性能。
4 總結
本文從人工神經網絡出發,重點介紹了卷積神經網絡模型LeNet-5在樹葉識別上的各種研究并提取了特征且進行了可視化,并與傳統分類算法SVM進行比較。研究表明,該模型應用在樹葉識別上較傳統分類算法取得了較好的結果,對收集的樹葉達到了92%的準確率,并大大減少了訓練所需要的時間。由于卷積神經網絡有如此的優點,因此在人臉識別、語音識別、醫療識別、犯罪識別方面具有很廣泛的應用前景。
本文的研究可以歸納為探討了卷積神經網絡在樹葉識別上的效果,并對比了傳統經典圖像分類算法,取得了較好的分類精度。
然而,本文進行實驗的樣本過少,當數據集過多的時候,這個卷積神經網絡算法的可行性有待我們進一步的研究;另外,最近這幾年,又有很多不同的卷積神經網絡模型出現,我們會繼續試驗其他的神經網絡模型,力求找到更好的分類算法來解決樹葉識別的問題。
參考文獻:
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
篇2
關鍵詞關鍵詞:人臉識別;卷積神經網絡;圖像識別;深度學習;模式識別
DOIDOI:10.11907/rjdk.171043
中圖分類號:TP317.4
文獻標識碼:A文章編號文章編號:16727800(2017)005018603
0引言
人臉識別是近年來模式識別、圖像處理、機器視覺、神經網絡及認知科學領域的研究熱點[12]。所謂人臉識別,是指給定一個靜態人臉圖像或動態視頻,利用存儲有若干已知身份的人臉數據庫驗證單個或多個人的身份[1]。作為生物特征識別的一個重要方面,人臉識別有著廣泛的應用場景,如:檔案管理系統、公安系統的犯罪身份識別、銀行和海關的監控、安全驗證系統、信用卡驗證等領域。在人臉識別巨大魅力的影響下,國內互聯網公司也開始了人臉識別應用的探索,如百度推出的人臉考勤系統、阿里支付寶的刷臉登錄等功能都是人臉識別的具體應用。目前,人臉識別的代表性方法主要有以下幾種:Turk和Pentland[3]提出的特征臉(Eigenface)方法;基于線性區別分析,Belhumeur 等[4]提出了Fisherface方法;基于統計理論,劍橋大學的 Samaria和Fallside[5]提出了隱馬爾科夫模型[5](HMM),Lawrence 等[6]提出的通過多級自組織映射神經網絡(SOM)[6]與卷積神經網絡相結合進行人臉識別。上述方法雖然獲得了良好的識別正確率,但需要人工參與特征提取,然后將提取的特征送入分類器進行識別,過程較為復雜。
卷積神經網絡[79]是近年發展起來,并引起廣泛重視的一種高效深度學習識別算法,其已成為當前語音分析和圖像處理領域的研究熱點。相比傳統的神經網絡而言,卷積神經網絡具有權值共享、局部感知的優點。局部感知的網絡結構使其更接近于生物神經網絡,權值共享大大減少了模型學習參數的個數,同時降低了神經網絡結構的復雜性。在圖像處理領域,卷積神經網絡的優點體現得更為突出,多維的圖像數據可以直接作為網絡的輸入,特征提取和分類均集成在網絡中,避免了傳統識別算法中復雜的特征提取和訓練分類器過程。除此之外,卷積神經網絡對圖像中的位移、比例縮放、旋轉、傾斜或其它形式的變形具有很好的魯棒性。為了解決傳統人臉識別算法特征提取和訓練分類器困難的問題,本文借鑒Lenet-5[10]的結構,設計一個適合ORL數據集人臉識別任務的卷積神經網絡結構。
1卷積神經網絡
1.1用于ORL人臉識別的CNN
本文提出的7層卷積神經網絡模型由輸入層、2個卷積層、2個降采樣層、一個全連接層和一個Sigmoid輸出層組成。卷積核的大小均為5×5,降采樣層Pooling區域的大小為2×2,采用Average Pooling(相鄰小區域之間無重疊),激活函數均采用Sigmoid函數。每一個卷積層或降采樣層由多個特征圖組成,每個特征圖有多個神經元,上層的輸出作為下一層的輸入。此外,本文實驗學習率的取值為常數1.5,該卷積神經網絡結構如圖1所示。
1.2卷積層
卷積神經網絡中的卷積層一般稱C層[11](特征提取層)。卷積層的輸入來源于輸入層或者采樣層。卷積層中的每一個特征圖都對應一個大小相同的卷積核,卷積層的每一個特征圖是不同的卷積核在前一層輸入的特征圖上作卷積,然后將對應元素累加后加一個偏置,最后通過激活函數得到。假設第l層榫砘層,則該層中第j個特征圖的計算表達式如式(1)。
xlj=f(∑i∈Mjxl-1iklij+blj)(1)
這里的Mj表示選擇的上一層輸出特征圖的集合。
1.3降采樣層
降采樣層是對上一層的特征圖進行下采樣處理,處理方式是在每一個特征圖內部的相鄰小區域進行聚合統計。常見的下采樣方式有兩種:Average Pooling和Max Pooling。其中,Average Pooling是取小區域內像素的平均值,而Max Pooling是取小區域內像素的最大值。降采樣層只是對輸入的特征圖進行降維處理,不改變特征圖的個數。假設down表示下采樣操作,βlj表示乘性偏置,blj表示加性偏置,則降采樣層中某個特征圖的計算表達式如下:
xlj=f(βljdown(xl-1j)+blj)(2)
1.4輸出層
卷積神經網絡的輸出層一般為分類器層,常用的有徑向基(RBF)函數輸出單元、Sigmoid輸出單元和Softmax回歸分類器。在ORL人臉識別任務中,采用Sigmoid函數輸出單元,輸出層的編碼采用非分布編碼“one-of-c”的方式。由于采用Sigmoid函數,每一個單元輸出值是0-1范圍內的一個正數,代表該樣本屬于該單元對應類別的概率。數值最大的那個單元即為樣本的預測類別。假設x為全連接層的輸出,則輸出層輸出結果的計算表達式如下:
y=f(wTx+b)(3)
其中,f表示激活函數,這里采用Sigmoid函數,Sigmoid函數表達式如下:
f(x)=11+e-x(4)
2實驗結果與分析
實驗在Windows7 64位下的Matlab 2014a中進行,采用Matlab深度學習工具箱DeepLearnToolbox。PC的內存8G,CPU主頻為3.2GHZ。
ORL人臉數據集是在1992年至1994年之間由AT &T Cambridge實驗室拍攝的人臉圖像所構成。數據集中包含40個不同人物的臉部圖像,每個人物包含10張圖像,總共400張。每個類別中的臉部圖像在不同的時間拍攝得到,存在如下差異:①光線;②面部表情,如眼睛的閉合和睜開狀態,面部是否帶有微笑的表情等;③一些面部細節上的差異,如是否佩戴眼鏡等。該數據集中所有人臉圖像均為灰度圖像,且圖像中人物面部朝向基本一致,都朝向正前方。
圖2為ORL數據集中部分人臉圖像。數據集中每個原始圖像大小為92*112像素,本文實驗中對這些圖像進行預處理,使每一幅圖像的尺寸調整為28*28,并對每一副圖像進行歸一化處理,這里采用簡單的除255的方式。隨機選取每一個類別的8張圖像作為訓練樣本,剩下的2張作為測試樣本。因此,訓練集有320個樣本,測試集有80個樣本。
2.1改變C3層卷積核個數對網絡的影響
卷積神經網絡性能的好壞與卷積層卷積核的個數密切相關,但每一個卷積層應該設置多少個卷積濾波器,目前并沒有數學理論指導。為了研究卷積核個數對網絡最終識別準確率的影響,本文保持C1層卷積核個數不變,通過改變C3層卷積核的個數,形成新的網絡結構,用訓練集訓練網絡,訓練迭代次數均為60次,然后用測試集對每一種網絡結構的性能進行測試。實驗結果如表1所示。
從表1可以看出,當C3層有10個卷積核時,網絡模型對測試集的識別正確率最高。卷積核的個數與識別準確率并不成正比關系,當卷積核個數過多時,網絡的識別準確率會下降,這是因為在卷積核個數增加的同時,需要學習的參數也隨之增加,而數據集中訓練樣本的規模較小,已不能滿足學習的要求。
2.2改變C1層卷積核個數對網絡的影響
由上述實驗結果可知,C3層卷積核個數為10時,網絡識別效果最好。因此,為了研究卷積層C1層卷積核個數對識別準確率的影響, C3層保留10個卷積核,改變C1層卷積核的個數構造新的網絡結構,用測試集針對不同網絡結構就測試集和訓練集的識別準確率進行測試。實驗結果如表2所示。
從表2的實驗結果可以得到相同結論:卷積層卷積核的個數并非越多越好,卷積核個數過多,網絡需要學習的參數也隨之增加,當訓練集中樣本個數無法滿足學習需要時,網絡識別準確率就會下降。
2.3與其它算法比較
為進一步說明本文所提卷積神經網絡結構的有效性和優越性,將該結構(C1層6個卷積核,C3層10個卷積核,學習率1.5)的實驗結果與其它識別方法在ORL數據集上的實驗結果進行對比,結果如表3所示。可以看出,本文所提方法比Eigface、ICA的識別效果好,與2DPCA方法的識別準確率一樣,比FisherFace方法的識別準確率只低了0.20%,這進一步證實了本文所提網絡結構的有效性。
3結語
本文在理解Lenet-5結構的基礎上,提出一種適用于ORL人臉數據集的卷積神經網絡結構。實驗結果表明,本文提出的卷積神經網絡結構,不僅避免了復雜的顯式特征提取過程,在ORL數據集上獲得98.30%的識別正確率,而且比大多數傳統人臉識別算法的效果都好。此外,本文還通過大量驗就每個卷積層卷積核個數對網絡識別準確率的影響進行了詳細研究與分析,這對設計CNN網絡結構具有一定的參考意義。
參考文獻參考文獻:
[1]李武軍,王崇駿,張煒,等.人臉識別研究綜述[J].模式識別與人工智能,2006,19(1):5866.
[2]張翠平,蘇光大.人臉識別技術綜述[J].中國圖象圖形學報,2000,5(11):885894.
[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.
[4]祝秀萍,吳學毅,劉文峰.人臉識別綜述與展望[J].計算機與信息技術,2008(4):5356.
[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.
[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.
[7]陳耀丹,王連明.基于卷積神經網絡的人臉識別方法[J].東北師范大學學報:自然科學版,2016,48(2):7076.
[8]盧官明,何嘉利,閆靜杰,等.一種用于人臉表情識別的卷積神經網絡[J].南京郵電大學學報:自然科學版,2016,36(1):1622.
[9]李彥冬,郝宗波,雷航.卷積神經網絡研究綜述[J].計算機應用,2016,36(9):25082515.
[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
篇3
【關鍵詞】壓縮緊鄰 字符識別 正確率
1 研究背景
樣本選擇是從原有的樣本集中某一種選擇方式來選出樣本子集,是一個能加快數據處理效率,可以節省存儲資源并且保證不降低分類性能的可靠方法。樣本選擇和特征選擇在某些方面上有相似之處,一般都是與具體分類預測方法相關聯。字符識別是模式識別中一類熱門的研究問題,本文將利用樣本選擇方法結合深度卷積神經網絡進行字符識別。
2 加權壓縮近鄰方法
基于壓縮近鄰的樣本選擇方法具有擁有降低存儲、縮短運算等特點。郝紅衛等人在此基礎上提出了加權壓縮近鄰規則,針對那些未被選中的邊緣樣本,可以重復數次對壓縮近鄰的過程,從而確保樣本數據均能夠被選上。對于中心樣本也能被保留的問題,通過對樣本加權評估、再次選擇的方式來解決。在選擇的過程中可以根據實驗需要進行樣本數量進行控制,稱之為加權壓縮近鄰規則(Weighted Condensed Nearest Neighbor)。
該算法是通過壓縮近鄰規則過程的循環保證子集P中有足夠多的邊界樣本,但是其中仍存在大量的冗余,我們依據投票的原則對子集P中樣本的代表性進行評估并且再次選擇。其具體過程是對于U中的每個樣本x找出P中距離最接近的樣本xi,如果x和xi的類別是相同的,那么投xi一票。樣本獲得的票數最高,說明它最具有代表性。根據投票的實際情況和樣本的數量來得到最終的子集A。用加權壓縮近鄰規則獲得的子集比壓縮近鄰規則得到的子集包含更少的冗余樣本和更多的具有代表性樣本,同時還可以根據實驗來控制子集中所含有的樣本數。
3 實驗結果與分析
本次實驗分別使用MNIST和USPS手寫體識別庫作為訓練和測試樣本集。
實驗平臺采用英特爾酷睿i5-4430CPU 3.00GHz,8GB內存,Windows10操作系統,Matlab R2010b。我們設定隨機選擇和壓縮近鄰選取MNIST中樣本數目為6600個,樣本壓縮比為10%,USPS庫中選取樣本數目為1767個,樣本壓縮比為20.34%。設置深度卷積神經網絡訓練次數設為100次。
算法給出了基于壓縮近鄰和BP神經網絡手寫體字符識別結果。通過融合壓縮近鄰規則選取樣本和BP神經網絡實驗,在訓練時間上雖然沒有融合隨機選取樣本和深度卷積網絡實驗短,但是在時間上并沒有很大幅度延長。在實驗的識別錯誤率上,MNIST庫中比隨機選擇實驗提升了1.52%,分類效果提升明顯。可見壓縮近鄰方法可以選擇到更好的代表性樣本。這兩組數據依然說明了壓縮近鄰對樣本選擇的可靠性。表1給出了基于壓縮近鄰和卷積神經網絡的手寫體字符識別結果。
4 總結
本文主要介紹了基于壓縮近鄰的樣本選擇方法。樣本選擇的提出是為了有效減少樣本數量,并且保證不降低訓練精確度。在實驗中進行驗證,通過壓縮近鄰規則選取樣本和深度卷積神經網絡實驗,證明其能夠減少訓練樣本,提升訓練速度,降低存儲空間還可以提高識別正確率。
參考文獻
[1]郝紅衛,蔣蓉蓉.基于最近鄰規則的神經網絡訓練樣本選擇方法[J].自動化學報,2007,33(12):1247-1251.
[2]姜文瀚.模式識別中的樣本選擇研究及其應用[D].南京理工大學,2008.
[3]余凱,賈磊,陳雨強.深度學習的昨天、今天和明天[J].計算機研究與發展,2013,50(09):1799-1804.
篇4
【關鍵詞】圖像識別;數學建模;分類算法;深度學習
引言
隨著微電子技術及計算機技術的蓬勃發展,圖像識別應運而生,圖像識別是研究用計算機代替人們自動地去處理大量的物理信息,從而代替人的腦力勞動。隨著計算機處理能力的不斷強大,圖像識別從最早的文字識別、數字識別逐漸發展到人臉識別、物體識別、場景識別、精細目標識別等,所采用的技術也從最早的模板匹配、線性分類到廣泛使用的深層神經網絡與支持向量機分類等方法。
1.圖像識別中的數學問題建模
1.1飛行器降落圖像智能識別建模
在復雜地形環境下,飛行器進行下降過程,需要采集圖像并且判斷是否符合降落要求。在對飛行器進行最終落地點的選擇時,如果降落點復雜程度較高,采集的圖像中將會產生大量的訓練樣本數目,圖像配準過程中,極大地增加了運算量,造成最佳降落點選擇的準確率降低。提出了利用圖像智能識別進行最佳降落點的建模。利用偽Zemike矩能夠對降落點的圖像形狀進行準確的描述,利用Procrustes形狀分析法提取最佳降落點的特征,利用Rank的融合決策法最終實現最佳降落點選擇的目的。
1.2人臉面部表情圖像識別的隱馬爾科夫建模
人有喜怒哀樂,目前有一種利用隱馬爾科夫模型的建模方法,可以實現對人臉表情中的情感進行識別。具體的是:首先,采用子窗口對人臉面部表情圖像進行采樣,然后利用離散余弦變換提取所需要的特征向量,通過對人臉面部圖像進行隱馬爾科夫建模,使用獲得的特征向量作為觀測向量對人臉面部圖像的隱馬爾科夫模型進行訓練,再使用訓練后的隱馬爾科夫模型對JAFFE人臉圖像測試集中地人臉表情圖像進行情感識別。
2.典型的圖像識別算法
2.1 基于Gabor變換和極限學習機的貝類圖像種類識別
對貝類圖像進行Gabor變換,提取其圖像特征,確定了圖像特征維數;采用2DPCA方法,對變換后的特征進行降維,并利用極限學習機(ELM)進行貝類圖像的分類識別。與BP神經網絡和支持向量機(SVM)實驗對比發現,極限學習機分類器用于貝類識別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點對高維圖像識別精確度高,但算法的復雜度和設計一個精確的分類器都顯得難以把握。因此該類圖像識別算法很難普遍推廣使用,識別對象必須是貝類圖像。
2.2 利用公開的全極化SAR數據,研究基于SAR圖像的檢測、極化分解和識別算法
首先根據四個線極化通道合成偽彩色圖像,從而對場景進行初步認知。利用一維距離像分析全極化各通道的信噪比強度,通過對目標進行Pauli分解得到目標的奇次散射分量和偶次散射分量,從而完成對海雜波、建筑物和艦船的相干分量的研究。其特點過程簡單易掌握,但識別對象有限。
2.3 基于SVM的離線圖像目標分類算法
基于SVM的離線圖像目標分類算法,先對訓練集預處理,然后將處理后的圖像進行梯度直方圖提取最后對圖像目標的分離器進行檢測,但是這種圖像識別算法只是有效,實用性不強。
3.深度學習在圖像識別的應用
3.1 Deep learning的原理
深度學習是一種模擬人腦的思考方式,通過建立類似人腦的神經網絡,實現對數據的分析,即按照人類的思維做出先關解釋,形成方便人們理解的圖像、文字或者聲音。深度學習的重點是對模型的運用,模型中需要的參數是通過對大量數據的學習和分析中得到的。
深度學習有兩種類型:有監督學習和無監督學習。學習模型根據學習框架的類型來確定。比如,卷積神經網絡就是一種深度的監督學習下的機器學習模型,而深度置信網就是一種無監督學習下的機器學習模型。
3.2 深度學習的典型應用
深度學習是如今計算機領域中的一個奪人眼球的技術。而在深度學習的模型中研究熱度最高的是卷積神經網絡,它是一種能夠實現大量圖像識別任務的技術。卷積神經網絡的核心思想是局部感受野、權值共享以及時間或空間亞采集。通常卷及神經網絡使用最后一層全連接隱層的值作為對輸入樣本所提出的特征,通過外部數據進行的有監督學習,從而可以保證所得的特征具有較好的對類內變化的不變性。
3.2.1基于深度學習特征的人臉識別方法。
卷積神經網絡在人臉識別領域取得了較大突破,為了更加有效的解決復雜類內變化條件下的小樣本人臉識別問題,使用深度學習的方法來提取特征,與基于稀疏表示的方法結合起來,實驗證明了深度學習所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對類內變化的不變性。
3.2.2基于深度學習的盲文識別方法。
目前盲文識別系統存在識別率不高、圖片預處理較為復雜等問題。針對這些問題,利用深度模型堆疊去噪編碼器自動、全面學習樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學習的特征作為神經網絡的輸入,更大程度地避免了傳統神經網絡由于隨機選取初值而導致結果陷入局部極值的問題。
3.2.3基于深度學習的手繪草圖識別。
目前的手繪草圖識別方法存在費時費力,較依賴于手工特征提取等問題。基于深度學習的手繪草圖識別方法根據手繪草圖時缺失顏色、紋理信息等特點,使用大尺寸的首層卷積核獲得更多的空間結構信息,利用訓練淺層模型獲得的模型參數來初始化深度模型對應層的模型參數,以加快收斂,減少訓練時長,加入不改變特征大小的卷基層來加深網絡深度等方法實現減小錯誤率。
4.結論
圖像識別是當代人工智能的熱門研究方向,其應用領域也是超乎人類想象的,相信通過技術的不斷創新,圖像識別技術會給人們的生活帶來智能化、個性化、全面化的服務。
參考文獻:
[1]穆靜,陳芳,王長元.人臉面部表情圖像的隱馬爾科夫建模及情感識別[J].西安:西安工業大學學報,2015(09).
[2]楊靖堯,里紅杰,陶學恒.基于Gabor變換和極限學習機的貝類圖像種類識別[J].大連工業大學學報,2013(04).
[3]馬曉,張番棟,封舉富.基于深度學習特征的稀疏表示的人臉識別方法[J].智能系統學報,2016(11).
篇5
關鍵詞:無人機;STM32;道路檢測;神經網絡;模型訓練
傳統的道路巡檢和保養主要由人工來完成,需要投入大量的人力物力來保證道路的相對安全,這種方式存在著低效率、高成本且難以保證道路的決定安全[1]。固定式交通檢測設備大量設置在道路的主干路上,也存在著一些缺陷:(1)監控攝像頭不能做到全覆蓋且具有一定的探測盲區。(2)監控系統采用多屏幕方式,工作人員進行道路故障判斷時受限。(3)不能靈活的通知有關部門對事故的快速應急處理。為了克服上述的缺點,本文設計了一種基于卷積神經網絡的無人機道路巡檢系統,對發生故障和需要保養的道路能快速響應,及時的通知有關部門,避免事故的發生。
1系統的總體設計
在無人機道路巡檢系統中,我們主要考慮了以下幾個要求[3]:(1)無人機系統能滿足正常的工作;(2)無人機系統能適應各種天氣和氣候變化等;(3)無人機系統應充分考慮控制的安全性;(4)視頻流的傳輸應避免較長的延時。無人機道路巡檢系統主要由無人機系統設計、遠程控制系統、PC端系統三大部分組成,系統的總體結構框圖如圖1所示。系統的具體工作原理為:無人機將道路環境檢測的結果,將處理后的視頻流通過遠程傳輸的方式,發送到PC端進行實時監控道路狀況。遠程控制系統以STM32作為主控芯片,主要包括在無人機端和遙控端兩個部分,遙控端將控制指令通過2.4G通信發送到無人機端,此時無人機的做出相應的位姿變化,完成遙控端對無人機位姿的控制。無人機系統的圖像采集模塊芯片為樹莓派,完成圖像的采集并采用TCP通信實現遠程視頻的傳輸,將獲取的視頻流傳輸到PC端。PC端上使用OpenCV對圖像進行處理[4],利用深度學習模塊對設計的神經網絡進行數據訓練,從而得到檢測模型,最后在PC上接收處理過的數據并實時監測道路狀況。上述工作原理可實現無人機道路巡檢系統,下文將對其包括的三大模塊進行說明介紹。
2無人機系統設計
本次使用的是RaspberryPi3(modelB+)作為無人機的主控制板[7],無人機的飛行控制算法和圖像采集模塊集成在樹莓派中。遠程控制系統通過2.4G無線通信模塊連接,通過控制器實現對無人機飛行和圖像采集的控制。無人機系統總體結構如圖2所示。
3PC端系統設計
在PC端系統設計主要分為圖像預處理、模型訓練和視頻監控三大部分,通過TCP通信協議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對前兩部分詳細介紹。
3.1圖像預處理
本系統對地面裂縫檢測的圖像預處理流程如圖3所示具體工作原理為:(1)采用加權平均灰度化對獲取的無人機影像進行灰度化處理;(2)對灰度化處理后的影像進行直方圖均衡化,使得影像具有高對比度和多元的灰度色調變化,為后續的濾波降噪奠定基礎;(3)對處理后的影像進行濾波降噪,消除孤立的噪聲點,采用方法的是中值濾波降噪;(4)使用迭代二值化處理將影像的灰度值設置合適的閾值,使得圖像更簡單,目標更突出,然后對圖像進行分割,計算迭代的閾值,判斷迭代的閾值是否收斂到某一值或者達到限定的迭代次數,如果是的話,將完成二值化處理和濾波,否則將初始二值化閾值;(5)最終完成道路故障的識別與標記。
3.2模型檢測
3.2.1卷積神經網絡原理使用卷積神經網絡進行模型訓練,首先使用卷積層實現特征的提取,原理如圖4所示。如圖5所示,卷積操作是模仿神經元的機制。不同的輸入在權重的影響下會有不同的輸出,根據損失函數的計算來不斷的更新權重,直到獲得合理的權重參數。初始傳遞的信號為x,中間通過權重w,再經過偏置b后連接在末端,最后輸出信號變成wx+b。fun(?)表示激活函數,最終f(z為輸出的結果,如式(1)所示。3.2.2卷積神經網絡訓練流程通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測道路安全的關鍵一步,(1)訓練標記數據:首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經網絡對標記框內的目標數據進行訓練;(2)提取特征數據:將道路故障的類型統計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優化訓練數據:根據實際應用場景增加圖像的種類和數量,不斷訓練模型。3.2.3故障的基本分類道路故障主要路面缺陷(例如裂縫、殘缺等)和路面增加(例如長時間靜止的車輛和路人),各自訓練集數量為1000張。如表1所示。3.2.4實驗測試為實現故障的檢測,測試數據集為100張,不同類型故障數據50張,均采集自新道路且與訓練樣本一致,實驗結果如表2所示。由表2可知,檢測路面增加(例如長時間靜止的車輛和路人)的準確率高達96%,但是地面缺陷的準確率相比較而言略低,可能造成的原因是:①硬件原因導致采集的圖像清晰度比較低;②地面缺陷太小,無人機難以識別;③訓練的數據集較少,特征學習誤差大;但是滿足了設計需求,還需進一步改進。
4總結與展望
篇6
在AlphaGo贏得第一局的比賽時,就激起了人們熱烈的討論,因為很多從事人工智能研究的“技術派”也對電腦圍棋程序戰勝人類棋手沒有足夠的信心。但第一局的結果仍然讓人震驚,因為在五個月前,AlphaGo的棋力水平也只是達到戰勝職業二段棋手的程度,人們吃驚的是它的棋藝水平提高的速度。
與20年前深藍在國際象棋人機大戰中戰勝世界冠軍卡斯帕羅夫不同,AlphaGo并非僅僅依賴強悍的計算能力和龐大的棋譜數據庫取勝,而是具有深度學習的能力,能在實戰和練習中不斷學習和積累經驗,這已經非常類似于人類棋手的成長過程了,不過它成長的速度非常之快。
普通大眾會認為,機器人獲勝是因為它內部存儲有極為豐富的棋譜,以及很多一流棋手的經驗,再配合它強大的邏輯判斷能力,是一群人對一個人的戰斗,是機器計算對人腦計算的碾軋,結果是必然的。這樣的歸納未免有些草率和簡單,完全無視機器學習在程序中的作用。
機器學習(Machine Learning,ML)是一種讓計算機在事先沒有明確的程序的情況下做出正確反應的能力,是計算機模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身性能的一種方法,是人工智能的核心,也是使計算機具有智能的根本途徑。但是它仍然主要是使用歸納、綜合而不是演繹的方式來進行學習。
早在1959年,塞繆爾的下棋程序就具有了學習能力,能在不斷對弈中改善自己的棋藝。這個程序已經涉及到了關于學習的令人頭疼的哲學問題,此后就有各種各樣的棋類程序誕生,演繹出一個又一個電腦程序戰勝人類棋手的傳說,不斷刷新博弈難度的記錄。
而圍棋,因為棋盤的復雜性(大約10的172次方種狀態,是計算機不可能窮盡的天文數字),則被看作是“人類智力的最后防線”,是僅存的人類能夠擊敗電腦的完全信息博弈游戲。AlphaGo的獲勝,宣告了機器學習的重大突破。
AlphaGo是一套為圍棋優化的深度學習引擎,它使用了神經網絡和蒙特卡羅算法,可以讓機器充分學習,并能在不斷自我對決中提升水平。
深度學習(Deep Learning)的概念在10年前就已提出,又叫深層神經網絡(Deep Neural Networks),是機器學習研究中的一個新領域,通過建立模擬人腦進行分析學習的神經網絡,模仿人腦機制來解釋數據。深度學習提出了一種讓計算機自動學習出模式特征的方法,有深度置信網絡、卷積神經網絡等不同的機器學習模型,但都需要大量的并行計算。非監督貪心逐層訓練算法可以解決深層結構相關的優化難題,卷積神經網絡可以利用空間相對關系減少參數數目以提高訓練性能,這些特點正適合用于復雜的博弈程序。
但是,在具有不確定性的對決中,即使深度學習也發揮不了作用,無法幫助程序來確定對手的狀態。
篇7
關鍵詞:人機大戰;人工智能;發展前景
中圖分類號:TP391 文獻標識碼:A
0.引言
2016年3月15日,備受矚目的“人機大戰”終于落下帷幕,最終Google公司開發的“AlphaGo”以4∶1戰勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認為,人工智能已經上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍”戰勝國際象棋世界冠軍卡斯帕羅不同。主要表現在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強悍的計算能力和龐大的棋譜數據庫取勝,而是AlphaGo已經擁有了深度學習的能力,能夠學習已經對弈過的棋盤,并在練習和實戰中不斷學習和積累經驗。
(2)圍棋比國際象棋更加復雜,圍棋棋盤有361個點,其分支因子無窮無盡,19×19格圍棋的合法棋局數的所有可能性是冪為171的指數,這樣的計算量相當巨大。英國圍棋聯盟裁判托比表示:“圍棋是世界上最為復雜的智力游戲,它簡單的規則加深了棋局的復雜性”。因此,進入圍棋領域一直被認為是目前人工智能的最大挑戰。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強大的“學習”能力。深度學習是源于人工神經網絡的研究,得益于大數據和互聯網技術。本文就從人工智能的發展歷程與現狀入手,在此基礎上分析了人工智能的未來發展前景。
1.人工智能的發展歷程
AlphaGo的勝利表明,人工智能發展到今天,已經取得了很多卓越的成果。但是,其發展不是一帆風順的,人工智能是一個不斷進步,并且至今仍在取得不斷突破的學科。回顧人工智能的發展歷程,可大致分為孕育、形成、暗淡、知識應用和集成發展五大時期。
孕育期:1956年以前,數學、邏輯、計算機等理論和技術方面的研究為人工智能的出現奠定了基礎。德國數學家和哲學家萊布尼茨把形式邏輯符號化,奠定了數理邏輯的基礎。英國數學家圖靈在1936年創立了自動機理論(亦稱圖靈機),1950年在其著作《計算機與智能》中首次提出“機器也能思維”,被譽為“人工智能之父”。總之,這些人為人工智能的孕育和產生做出了巨大的貢獻。
形成期:1956年夏季,在美國達特茅斯大學舉辦了長達2個多月的研討會,熱烈地討論用機器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術語。這是人類歷史上第一次人工智能研討會,標志著人工智能學科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學家的努力下,人工智能取得了矚目的突破,也在當時形成了廣泛的樂觀思潮。
暗淡期:20世紀70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復雜的問題。隨著AI遭遇批評,對AI提供資助的機構也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應用期:在80年代,“專家系統”(Expect System)成為了人工智能中一個非常主流的分支。“專家系統”是一種程序,為計算機提供特定領域的專門知識和經驗,計算機就能夠依據一組從專門知識中推演出的邏輯規則在某一特定領域回答或解決問題。不同領域的專家系統基本都是由知識庫、數據庫、推理機、解釋機制、知識獲取等部分組成。
集成發展期:得益于互聯網的蓬勃發展、計算機性能的突飛猛進、分布式系統的廣泛應用以及人工智能多分支的協同發展,人工智能在這一階段飛速發展。尤其是隨著深度學習和人工神經網絡研究的不斷深入,人工智能在近幾十年中取得了長足的進步,取得了令人矚目的成就。
人工智能發展到今天,出現了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當前人工智能的研究熱點主要集中在自然語言處理、機器學習、人工神經網絡等領域。
2.人工智能l展現狀與前景
人工智能當前有很多重要的研究領域和分支。目前,越來越多的AI項目依賴于分布式系統,而當前研究的普遍熱點則集中于自然語言處理、機器學習和人工神經網絡等領域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學與人工智能的交叉學科,其主要功能就是實現讓機器明白人類的語言,這需要將人類的自然語言轉化為計算機能夠處理的機器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結構、語法進行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態度。
當前自然語言的處理主要有兩大方向。一種是基于句法-語義規則的理性主義理論,該理論認為需要為計算機制定一系列的規則,計算機在規則下進行推理與判斷。因此其技術路線是一系列的人為的語料建設與規則制定。第二種是基于統計學習的經驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機自己通過學習并進行統計推斷的方式不停地從數據中“學習”語言,試圖刻畫真實世界的語言現象,從數據中統計語言的規律。
機器學習:機器學習(Machine Learning)是近20年來興起的人工智能一大重要領域。其主要是指通過讓計算機在數據中自動分析獲得規律,從而獲取“自我學習”的能力,并利用規律對未知數據進行判斷和預測的方法。
機器學致可以分為有監督的學習和無監督的學習。有監督的學習是從給定的訓練數據集中練出一個函數和目標,當有新的數據到來時,可以由訓練得到函數預測目標。有監督的學習要求訓練集同時有輸入和輸出,也就是所謂的特征和目標。而依據預測的結果是離散的還是連續的,將有監督的學習分為兩大問題,即統計分類問題和回歸分析問題。統計分類的預測結果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標是連續的,如天氣、股價等的預測。
無監督學習的訓練集則沒有人為標注的結果,這就需要計算機去發現數據間的聯系并用來分類等。一種常見的無監督學習是聚類分析(Cluster Analysis),它是將相似的對象通過靜態分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數據對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數據對象進行分類。
機器學習還包括如半監督學習和增強學習等類別。總而言之,機器學習是研究如何使用機器來模擬人類學習活動的一門學科,而其應用隨著人工智能研究領域的深入也變得越來越廣泛,如模式識別、計算機視覺、語音識別、推薦算法等領域越來越廣泛地應用到了機器學習中。
人工神經網絡:在腦神經科學領域,人們認為人類的意識及智能行為,都是通過巨大的神經網絡傳遞的,每個神經細胞通過突出與其他神經細胞連接,當通過突觸的信號強度超過某個閾值時,神經細胞便會進入激活狀態,向所連接的神經細胞一層層傳遞信號。于1943年提出的基于生物神經元的M-P模型的主要思想就是將神經元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數f對輸入x1,x2…,xn進行處理并模擬神經細胞的激活模式。主要的傳遞函數有階躍型、線性型和S型。
在此基礎上,對神經網絡算法的研究又有諸多進展。日本的福島教授于1983年基于視覺認知模型提出了卷積神經網絡計算模型。通過學習訓練獲取到卷積運算中所使用的卷積系數,并通過不同層次與自由度的變化,可以得到較為優化的計算結果。而AlphaGo也正是采用了這種深度卷積神經網絡(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強了其對全盤決策和把握的能力。
3.人工智能的發展前景
總體來看,人工智能的應用經歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領域中,既是縱向發展的過程,也是橫向不斷改進的過程。
人工智能在博弈階段,主要是實現邏輯推理等功能,隨著計算機處理能力的進步以及深度學習等算法的改進,機器擁有了越來越強的邏輯與對弈能力。在感知領域,隨著自然語言處理的進步,機器已經基本能對人類的語音與語言進行感知,并且能夠已經對現實世界進行視覺上的感知。基于大數據的處理和機器學習的發展,機器已經能夠對周圍的環境進行認知,例如微軟的Kinect就能夠準確的對人的肢體動作進行判斷。該領域的主要實現還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎上,機器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環境進行感知并處理人類的語言等指令,利用所收集的信息進行最后的決策,比如操作方向盤、剎車等。
人工智能已經滲透到生活中的各個領域。機器已經能識別語音、人臉以及視頻內容等,從而實現各種人際交互的場景。在醫學領域,人工智能可以實現自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領域,機器也承擔了越來越多的輔助教育,智能交互的功能。在交通領域,一方面無人車的發展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領域也有非常廣闊的發展前景。總之,人工智能在一些具有重復性的和具備簡單決策的領域已經是一種非常重要的工具,用來幫助人們解決問題,創造價值。
參考文獻
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經濟導刊,2016 (6):69-74.
篇8
人工智能、大數據、光纖網絡等技術的發展和改進,人類社會已經進入到了“互聯網+”時代,有力的促進了信息化系統的普及和使用,比如證券交易所開發了結算交易系統,政府機關開發了電子政務系統,旅游景區開發了旅游住宿管理系統等,提高了行業智能化、自動化和共享化水平。互聯網雖然為人們帶來了極大的方便,提高了各行業的信息化水平,但是其也面臨著海量的安全攻擊威脅,比如數以萬計的病毒或木馬,都給互聯網的應用帶來了極大的障礙。目前,網絡中流行的攻擊包括病毒木馬、DDOS攻擊等,這些病毒木馬常常發生各類型的變異,比如2018年初爆發的勒索病毒,攻擊了很多政企單位的服務器,導致終端操作系統無法登錄和訪問,傳統的防火墻、殺毒軟件等網絡安全防御軟件已經無法滿足需求,需要引入大數據技術,以便能夠將被動防御技術改進為主動防御技術,及時的查處網絡中的病毒或木馬,從而可以提高互聯網防御水平。
1.網絡安全防御現狀研究
網絡安全防御經過多年的研究,已經吸引了很多的學者和企業開發先進的防御技術,比如360安全衛士、訪問控制列表、防火墻等,同時還提出了一些更加先進的深度包過濾和自治網絡等防御技術,這些技術均由許多的網絡安全防御學者、專家和企業進行研究提出,已經在網絡中部署喝應用,一定程度上提高了網絡防御水平。(1)防火墻防火墻是一種部署于因特網和局域網之間防御工具,其類似一個過濾器,可以不熟一些過濾規則,從而可以讓正常的數據通過防火墻,也可以阻止攜帶病毒或木馬的數據通過防火墻,防火墻經過多年的部署,已經誕生了數據庫防火墻、網絡防火墻、服務器防火墻等,使用枚舉規則禁止查看每一個協議是否正常,能夠防御一定的病毒或木馬。(2)殺毒軟件殺毒軟件也是一個非常關鍵的程序代碼,可以在殺毒軟件系統的服務器中保存檢測出的病毒或木馬基因特征片段,將這些片段可以與網絡中的數據信息進行匹配,從而可以查找網絡中的病毒或木馬,及時的將其從網絡中清除。殺毒軟件為了能夠準確的識別病毒,目前引入了許多的先進技術,這些技術包括脫殼技術、自我保護技術等,同時目前也吸引了更多的網絡安全防御公司研究殺毒軟件,最為著名的軟件廠商包括360、瑞星、江民、卡巴斯基等,同時騰訊公司、搜狗公司也開發了自己的安全管理技術,大大的提高網絡防御能力。(3)訪問控制列表訪問控制列表是一個易于配置、安裝簡單和管理容易的網絡安全防御工具,設置了黑白兩個關鍵名單,白名單收錄了安全數據源IP地址,黑名單收錄了非法的數據源IP地址。訪問控制列表已經可以在四個層次配置防御策略,分別是目錄及控制級、入網訪問控制級、屬性控制級和權限控制級。訪問控制列表級別越高訪問性能越好,但是工作效率非常慢,不能夠實時升級訪問控制列表,因此應用的場所比較簡單,一般都是不重要的中小學實驗室等,許多大型政企單位都不用這個防御措施。(4)深度包過濾深度包過濾能夠嵌入到硬件中形成一個固件,這樣就可以快速的采集網絡中的數據,然后利用深度包過濾的枚舉檢查規則,不僅檢查數據包的頭部IP地址、目的IP地址,還檢查數據包中的內容,以便能夠深入到數據包內部檢查是否存在病毒或木馬,一旦發現就可以啟動防御軟件。深度包過濾可以實施穿透式檢查規則,分析每一個協議字段,深入到內部檢查的更加詳細和全面,從而避免病毒或木馬隱藏在數據包內部,因此深度包過濾已經在很多領域得到應用,比如阿里云、騰訊云、百度云等都采用了這些技術,許多的政企單位也采用了深度包過濾技術,進一步提高了數據防御水平。(5)自治網絡自治網絡作為一種先進的互聯網安全防御技術,其采用了自動愈合的建設理念,在網絡中構建了一個冗余策略,一旦網絡受到病毒或木馬的攻擊,此時自治網絡就可以將這些一部分網絡設備隔離,同時形成一個新傳輸通道為網絡設備提供連接,知道數據修復完畢之后才能夠將這些網絡拓撲結構納入到網絡中。自治網絡可以實現自我防御,也可以調動網絡信息安全的許多的資源,將網絡病毒導入備用服務器,此時就可以殺滅這些病毒。
2.基于大數據的網絡安全防御系統設計
網絡安全防御系統集成了很多先進的技術,尤其是快速的數據采集和大數據分析技術,能夠將傳統的被動網絡安全防御模式轉變為主動,提高網絡安全防御性能。本文結合傳統的網絡安全防御功能及引入的大數據技術,給出了網絡安全防御系統的主要功能,這些功能包括四個關鍵方面,分別是數據采集功能、大數據圖1基于大數據的網絡安全防御系統功能分析功能、網絡安全防御功能和防御效果評估功能。(1)網絡數據采集功能目前,人們已經進入到了“互聯網+”時代,網絡部署的軟硬件資源非常多,訪問的用戶頻次數以億計,因此網絡安全防御首先需要構建一個強大的數據采集功能,可以及時的采集網絡中的軟硬件數據資源,將這些網絡數據發送給大數據分析功能。網絡數據采集過程中可以引入深度包過濾功能,利用這個深度包過濾可以快速的采集網絡數據,提高網絡數據采集速度。(2)大數據分析和處理功能網絡數據采集完畢之后,系統將數據發送給大數據分析和處理模塊,該模塊中包含了很多的病毒基因片段或特征,可以針對網絡數據進行智能分析,將預處理后的網絡數據與學習到的特征進行對比,以便能夠發現這些數據信息中是否潛藏著木馬或病毒,發現之后及時的將其發送給安全防御模塊。(3)網絡安全防御功能網絡安全防御與傳統的防御技術一致,采用木馬或病毒查殺軟件,因此一旦發現網絡中存在病毒或木馬,此時就可以啟動網絡安全防御工具,及時的將網絡中的病毒或木馬殺滅,并且可以跟蹤病毒或木馬來源,從而可以鎖定源頭服務器,將源頭清除掉。如果源頭涉及到犯罪就可以獲取這些證據,同時將這些證據發送給公安機關進行偵破。(4)防御效果評估功能網絡安全防御功能完成之后,系統可以針對處理效果進行評估,從而可以獲取網絡系統中的殺毒信息,將這些網絡病毒消滅,避免網絡中的病毒或木馬復發。網絡安全防御效果評估之后,還可以跟蹤大數據分析的準確度,一旦準確度降低就可以及時進行學習,從而提高網絡安全防御性能。大數據是一種非常關鍵的數據處理和分析技術,可以利用多種算法,比如BP神經網絡算法、支持向量機、深度學習、K-means算法等挖掘數據中潛在的知識,這些知識對人們是有價值的,能夠幫助人們進行決策。本文為了能夠更好的展示互聯網應用性能,重點描述了深度學習算法分析互聯網安全數據過程。深度學習算法是一種多層次的卷積神經網絡,包括兩個非常關鍵的層次結構,一個是卷積層稱為病毒數據特征提取層,一個卷積層為病毒數據特征映射層,可以識別病毒數據中的特征數據,同時將池化層進行處理,壓縮和處理池化層數據信息,比如進行預處理、二值化等,刪除病毒數據中的一些明顯的噪聲特征。池化層可以將海量的病毒數據進行壓縮,減少卷積神經網絡分析時設置的參數,解決卷積神經網絡學習和訓練時容易產生的過度擬合問題,避免病毒識別模型陷入到一個過度擬合狀態,避免無法提高病毒識別能力,還會提升病毒識別處理開銷。全連接層就是一個關鍵分類器,可以將學習到的病毒知識標記到一個特征空間,這樣就可以提高病毒識別結果的可解釋性。卷積神經網絡通過學習和訓練之后,其可以形成一個動態優化的網絡結構,這個結構可以在一定時期內保持不變,能夠實現病毒特征的識別、分析,為病毒識別提供一個準確的結果。
篇9
關鍵詞:邊緣檢測;邊緣;梯度算子
中圖分類號:TP391
邊緣檢測是圖像處理中最基本最經典的技術問題之一,它對于圖像分析和圖像理解有著重要作用。因此,邊緣檢測在模式識別等高層次圖像處理領域有著重要的地位。然而由于圖像前期處理過程中的失誤易造成圖像的模糊和變形使得邊緣檢測很困難,這就要求研究性能更好的邊緣檢測算子。經過多年的發展,到現在算法已有成百上千種。
邊緣為圖像中灰度發生急劇變化的區域邊界,兩個具有不同灰度值的相鄰區域之間總存在著邊緣,可以利用微分運算方便地檢測到。人們提出了用圖像灰度分布的梯度來反映圖像灰度變化的微分邊緣算子,如1965年提出的Robert算子[1],在其基礎上改進得到的Sobel算子、Prewitt算子和Kirsch算子等。這些算子由于計算量小和操作簡單在當今使用較多,但易產生較寬的響應,故需作細化處理,影響了邊緣定位的精度。因而又產生了與邊緣方向無關的二階微分邊緣檢測算子,即Laplacian算子[2]。它利用圖像強度的二階導數零交叉點使邊緣的定位更準確。
近年來隨著應用的需要,傳統方法越來越難以滿足要求。針對這種情況,人們提出了許多新的邊緣檢測方法。這些新的方法利用各種新的理論工具對圖像進行邊緣檢測,例如基于數學形態學的檢測技術,借助統計學方法的檢測技術[4]、利用神經網絡的檢測技術[5]、利用模糊理論的檢測技術[6]、利用信息論的檢測技術[7]、利用遺傳算法的檢測技術等得到了興起與發展,表現異常活躍。
由于實際圖像中含有噪聲和物理和光照等原因,利用一種邊緣檢測算子不可能有效的檢測出這些邊緣,當需要提取多空間范圍內的變化特性時,要考慮多算子的綜合應用。因此,傳統的邊緣檢測算法檢測效果并不理想。
1 邊緣檢測的步驟
1.1 邊緣檢測的步驟
(1)濾波:邊緣和噪聲同屬于圖像中強度劇烈變化部位,因此噪聲對邊緣檢測有很大的影響,于是有必要使用濾波器來改善邊緣檢測算子的性能。
(2)增強:增強邊緣的原理是確定圖像各點鄰域強度的變化值。增強算法可以將鄰域灰度值有顯著變化的點突顯出來。
(3)檢測:在圖像中,有許多點的梯度幅值比較大,而這些點并不都是邊緣,所以需要確定哪些點是真正的邊緣點。最簡單的辦法是利用梯度幅值的閾值作為判據。
(4)定位:邊緣定位即精確的確定邊緣點的具置。
圖像邊緣檢測的基本步驟如圖1所示:
1.2 邊緣檢測要求
對于圖像的邊緣檢測來說,一般在檢測過程中出現各種各樣的情況,導致誤差的出現。因此,對邊緣檢測有如下的要求:
(1)漏檢率與誤檢率較少。
(2)邊緣定位較準確。
(3)對于每一個邊緣只有一個響應。
2 經典邊緣檢測算法
2.1 經典邊緣檢測的基本算法
一階微分算子是通過梯度算子或一階導數算子估計圖像灰度變化的梯度方向,增強圖像中的灰度變化區域,然后將梯度值與給定的閾值進行比較來確定具體的邊緣。
對于連續函數 ,它在點 處的x方向,y方向和 方向的一階方向導數為:
它在點 處的梯度是一個矢量,即
梯度幅值為:
梯度方向角為:
基于上述理論人們提出了許多經典算子的,如Sobel算子、Roberts算子、Prewitt算子等。但在實際應用中,常常以圖像的一階差分運算代替圖像的一階微分運算。所有這些基于梯度的邊緣檢測算法主要有兩點區別:1)邊緣檢測算子的方向。2)在同一方向上近似圖像一階導數合成梯度算子的方式。
2.1.1 Sobel算子
Sobel是一種將方向差分運算與局部平均相結合的邊緣檢測方法。它計算一個圖像強度的梯度近似值。該算子是在以(x,y)為中心的3 3鄰域上計算 的偏導數。為了抑制噪聲,給它的中心點加一個權重,則它的數字梯度近似等于下式:
梯度大小為:
它的卷積模板算子如下:
用以上模板與圖像進行卷積運算后,按照式9可以求出圖像的梯度幅度值g(x,y),然后選擇適當的閾值T,如果在(x,y)處g(x,y)>T,則此點為邊緣點;否則為非邊緣點。
在較小的鄰域范圍內,Sobel算子比較理想,受噪聲的影響比較小。當使用到大的鄰域時,抗噪聲特性會更好,但計算量會增加,得出的邊緣較粗。因為局部平均計算的原因,易產生誤檢,造成邊緣定位精度不夠高。因此,Sobel算子在精度要求不高的情況下,是一種不錯的邊緣檢測算法。Sobel算子對噪聲具有平滑作用,提供較為精確的邊緣方向信息。如果它與其他的算法相結合可能會達到更好的檢測效果。
2.1.2 Canny算子
Canny邊緣檢測方法是通過計算圖像像素點的梯度,根據局部極值來獲得邊緣信息的方法。1986年,Canny通過對過去一系列邊緣檢測算子的方法和應用,進行總結分析,用數學的形式推導出最優邊緣檢測算子。Canny認為一個良好的邊緣檢測算法應滿足以下幾點要求:
(1)定位能力好。檢測出的邊緣點盡可能落在實際圖像邊緣的中心。
(2)優良的檢測性能。誤檢和漏檢的概率小。
(3)單一響應。盡可能減少虛假邊緣的響應和多個響應的發生,最好是單一邊緣只產生一個響應。
Canny邊緣檢測算法主要步驟:
第一步:平滑。使用高斯函數對待檢測圖像進行平滑濾波處理,得到平滑圖像。
第二步:計算平滑圖像中每個像素點的局部梯度幅度值和邊緣方向。
第三步:對梯度進行非極大值抑制。在梯度幅度的集合圖像中,在邊緣強度的極大值附近會產生屋脊帶。為了細化邊緣,尋找梯度幅值圖像中極大值的點,并將所有非極大值的像素設為零。
第四步:得到圖像邊緣信息。給定兩個閾值T1和T2,T1
Canny邊緣檢測算子的缺點與改進:1)高斯濾波對于某些特定的噪聲效果不是很好,還有待改進,提供性能更好的自適應去噪方法。2)雙閥值的參數是人為設定,不能根據圖像的邊緣特征來確定的,有可能對噪聲的抑制不是很好,同時也可能丟失邊緣信息,導致邊緣檢測效果是很理想,即對于不同的圖像不具有自適應性。因此,有必要根據圖像的特征自適應確定圖像的閥值來達到理想的檢測效果。3)在多角度上計算梯度。
3 基于形態學邊緣檢測
設g(x,y)為輸入圖像,E(x,y)表示圖像的邊緣函數,f(x,y)為檢測算子。形態學中的膨脹會縮小圖像的背景區域,擴張圖像的目標區域;而腐蝕恰恰相反,它會擴張背景區域,縮小目標區域。根據這樣性質,可以構造圖像的邊緣檢測算子如下:
灰度膨脹運算表示: (11)
同理灰度腐蝕運算表示: (12)
那么膨脹腐蝕型邊緣檢測算子可如下表示:
由以上的操作運算,我們知道膨脹運算會使圖像邊緣變的模糊,腐蝕運算會使圖像邊緣信息損失一些細節信息。為了避免上述情況,對上述算子加以修改:
邊緣算子修正為:
邊緣算子改進以后,添加了一些原圖像邊緣信息,也可能添加了一些噪聲。
4 神經網絡邊緣檢測算法
為了檢測有256灰度值的灰度圖像的邊緣,可以考慮一個類似BP神經網絡[3][9]的模型,該模型由8個子BP神經網絡組成,每一個子網絡可以檢測2值圖像的邊緣。每一個子BP神經網絡對應灰度圖像的一個位平面。每個神經網絡的輸出會根據每個位平面的權重做調整。8個位平面的權重依次為1/256、2/256、4/256、8/256、16/256、32/256、64/256、128/256。通過類似的模型,可以很精確的檢測出灰度圖像的邊緣。結構如圖2所示:
5 總結
邊緣檢測是圖像處理領域中最基本的問題,也是圖像處理其他工作的基礎。如何準確、快速地進行邊緣檢測一直是圖像處理領域的熱點。一個邊緣檢測算法的好壞主要體現在能否做到以下兩點:一是正確地檢測出所有邊緣并不出現偽邊緣;二是盡可能地抑制噪聲對圖像的影響,即去噪能力。通過上面的分析可知,前人提出的很多經典算法,比如微分算子法,BP神經網絡算法,基于形態學的檢測算法,基于關聯規則的檢測算法[8]等,對于現在邊緣檢測的要求而言,其效果都不是特別理想。這就需要我們尋找更好的算法,其研究更多的向多尺度、多領域、多方法融合的方向發展。
參考文獻:
[1]岡薩雷斯.數字圖像處理[M].北京:電子工業出版社,2007:467-471.
[2]孫即祥.數字圖像處理[M].河北出版社,1993.
[3]Weiqing Li,Chengbiao Wang,Qun Wang,Guangshe Chen,An Edge Detection Method Based on Optimized BP Neural Network. ? 2008 IEEE DOI 10.1109/ISISE.2008,310.
[4]S.Konishi,A.Yuille and J.Coughlan.A statistical approach to multi-scale edge detection.Image and Vision Computing,2003,21:37-485.
[5]S.C.Douglas,T.H.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
[6]D.S.Kim,W.H.Lee and I.S.Kweon.Automatic edge detection using 3*3 ideal binary pixel patterns and fuzzy-based edge thresholding.Pattern Recognition Letters,2004,25:101-106.
[7]Q.Tian,X.Li and N.M.Bilgutay.Multiple Target Detection Using Split Spectrum Processing and Group Delay Moving Entropy.IEEE Trans.On UFFC,1995,42(6):1075-1886.
[8]洪俊田,陶劍鋒,李剛.基于灰色關聯的數字圖像去噪研究[J].武漢理工大學學報,2006,2:15-17.
[9[S.C.Douglas.TH.Meng.Design of Edge Detection Templates Using a Neural Network.Proc.International Joint Conference on Neural Networks,1990,2:331-334.
篇10
關鍵詞:視覺注意;自頂向下;顯著性;對象信息;卷積神經網
中圖分類號:TP391.41
文獻標志碼:A
文章編號:1001-9081(2016)11-3217-05
0 引言
視覺注意機制的研究是探索人眼視覺感知的重要一環。在過去幾十年中,如何用計算模型模擬人眼視覺注意過程一直是核心問題。盡管取得了很大的進步,但是快速準確地在自然場景中預測人眼視覺注意區域仍然具有很高的挑戰性。顯著性是視覺注意的一項重要研究內容,它反映了區域受關注的程度。本文的研究著眼于顯著性計算模型,更多模型對比和模型分類可以參考Borji等[1]的文章。視覺注意存在兩種機制:自底向上(Bottom-up)和自頂向下(Top-down)。過去的研究中,大多數的計算模型是基于自底向上的信息,即直接從圖像像素獲取特征。
自底向上顯著性計算模型開創性工作源自于文獻[2]的Itti模型,該模型是很多其他模型的基礎和對照基準,它通過整合多種低層次特征,如顏色、亮度、方向等,給出一個顯著度的概率分布圖。Harel等[3]在Itti模型的基礎上引入圖算法,通過計算節點間特征值相似性和空間位置距離進行差異性度量獲取顯著圖。近年來隨著深度學習技術在目標識別領域的成功應用[4],研究者們對特征學習產生了更多的興趣。Borji等[5]通過稀疏編碼方法獲取特征,使用圖像塊的稀疏表示結合局部和全局統計特性計算圖像塊的稀有性(rarity),稀有性反映了當前圖像塊中心位置的顯著性。Vig等[6]通過訓練多個神經網絡獲取層次特征,然后自動優化特征組合。特征提取的過程可以看作是一種隱式空間映射,在映射空間中使用簡單的線性模型進行顯著或非顯著的分類。以上學習方法獲得的特征都是一些低層次特征,對圖像中的邊緣和特定紋理結構敏感。此外,部分研究人員希望從數學統計和信號處理的角度來度量顯著性。Bruce等[7]根據最大化信息采樣的原則構建顯著性模型。Li等[8]總結了多種基于頻域的視覺注意研究工作,提出了一種基于超復數傅里葉變換(Hypercomplex Fourier Transform)的視覺注意模型,并展示了其他多種基于頻域的模型在某種程度上都是此模型的特例。
以上模型均為數據驅動的顯著性模型,模擬人眼視覺注意過程中自底向上的機制。由于人眼視覺注意過程中不可避免地受到知識、任務、經驗、情感等因素的影響,因而整合自底向上和自頂向下信息的視覺注意研究受到更多的關注。現有模型整合的自頂向下信息可以分為三類:任務需求、場景上下文和對象特征。
Borji等[9]提出了一種構建任務驅動的視覺注意模型的聯合貝葉斯方法。Zhang等[10]提出了一種使用貝葉斯框架整合自底向上和自頂向下顯著性信息的方法。Siagian等[11]利用多種低層次特征對場景主旨進行建模,使用場景主旨引導視覺注意的轉移。考慮到任務需求和場景上下文建模的復雜性,研究人員將對象特征視為一種高層次的知識表示形式引入視覺注意模型中。Judd等[12]和Zhao等[13]通過將低層次特征和對象特征整合在一個學習框架下來獲得特征整合過程中每張特征圖的疊加權重,但是模型使用的對象特征只有人臉、行人、車輛等有限的幾種。Borji等[14]遵循了同樣的方法,但是在整合過程中添加了更多特征并且結合了其他顯著性模型的結果,最后用回歸、支撐向量機(Support Vector Machine, SVM)、 AdaBoost等多種機器學習算法結合眼動跟蹤數據進行訓練。實驗結果表明對象特征引入較大地提高了模型性能。Xu等[15]將特征劃分為像素級、對象級和語義級三個層次,并重點探索對象信息和語義屬性對視覺注意的作用;然而,模型中的對象級和語義級特征是手工標定的,因而不是一種完全意義上的計算模型。
總的來看,雖然部分模型已經使用對象特征作為自頂向下的引導信息,但是在對象特征的獲取和整合上仍有很大的局限性。首先,對不包含特定對象的場景適應性較差;其次,對象特征描述困難,通常是通過特定目標檢測方法獲取對象特征,計算效率低下;此外,對象特征的簡單整合方式不符合人眼的視覺感知機制。本文提出了一種結合深度學習獲取對象特征的視覺注意計算模型,重點研究了對象級特征的獲取和整合方法。算法結構如1所示,其中像素級突出圖獲取采用現有視覺注意模型的方法,對象級突出圖獲取采用本文提出的基于卷積神經網(Convolutional Neural Network, CNN)的特征學習和基于線性回歸的特征整合方法。實驗結果表明,對象級特征的引入可以明顯提高顯著性預測精度,預測結果更符合人類視覺注意效果。
1 對象信息獲取
1.1 對象特征
大量實驗證據表明對象特征引導視覺注意的轉移。視覺注意中引入對象特征是為了獲得圖像中對象位置等信息,目的與計算機視覺中的目標檢測類似。因而,已有的視覺注意計算模型的對象特征通常是通過特定目標檢測方法獲得。其中,Viola&Jones人臉檢測和Felzenszwalb車輛行人檢測是最常用的方法。文獻[12-14]均使用此類方法引入對象特征。由于這一類特征針對特定對象樣本進行設計和訓練,因而推廣能力不強。
li=fixations(obji)area(obji)(3)
其中: fixations()表示落入當前對象區域的正樣本的數目;area()表示對象區域面積。li衡量當前對象單位面積受關注的程度,對象單位面積受關注程度越高,其在對象整合過程中的權重應越高,因而li與疊加權重成正比。
式(4)通過一個線性回歸模型對已有樣本數據進行訓練,獲得對象整合疊加權重W:
L=WF(4)
其中:F={F1,F2,…,FN}為訓練樣本數據集合;L={l1,l2,…,lN}為訓練樣本標簽集合。
測試時根據式(5)~(6)獲得對象級突出圖:
3 顯著圖生成
視覺注意是自底向上和自頂向下兩種機制作用的結果。完全使用自頂向下的對象特征進行顯著區域預測有一定缺陷,主要表現在以下幾個方面:首先,知識是對訓練樣本數據的抽象表示,由于神經網絡的規模和訓練樣本中對象種類的限制,場景中部分對象對應的特征沒有被抽象在網絡結構中;其次,部分不具有明確語義的區域被錯誤地認為是對象,對視覺注意形成錯誤的引導;另外,人眼視覺注意轉移的生理學機制并不清楚,興趣區可能落在不具有對象特征區域中。因此,使用像素級特征給出低層次顯著性信息是必要的。
視覺注意模型中常用的像素級特征有顏色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多種像素級特征獲取像素級突出圖Spixel。式(7)給出了整合的方法:
其中:S(i, j)為最終給出的視覺注意顯著圖;N()為歸一化操作;λ控制對象級突出圖與像素級突出圖的相對權重,通過實驗分析可知λ=0.4時效果較好。當圖像中不存在顯著物體或無法獲得高置信度的對象信息時,圖像任意位置Sobj(i, j)=0,此時完全由像素級特征驅動的視覺注意引導。
4 實驗結果及分析
本次實驗是以Visual Studio 2012為實驗平臺,選取OSIE和MIT數據集作為實驗數據。OSIE數據集包含700張含有一個或多個明顯語義對象的圖片以及15名受試者的眼動跟蹤數據,此外該數據集還提供了語義對象統計及人工標注的精確對象區域。MIT數據集包含1003張自然場景圖片以及15名受試者的眼動跟蹤數據。這兩個數據集是當前視覺注意研究領域中較大的數據集。為了驗證本文方法的準確率,將本文算法與GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等視覺注意方法進行對比。
對比實驗中使用的評價指標為ROC(Receiver Operating Characteristic)曲線,實現方法與文獻[12,15]相同。圖6~8為實驗對比結果,顯著區域百分比是通過對歸一化顯著圖作閾值處理獲得,真正率(True Positive Rate)反映當前落入顯著區域的樣本占所有樣本的比例。通過變化顯著區域百分比獲得ROC曲線。為了更直觀比較算法效果,實驗結果圖中標注了每種算法的AUC(Area Under Curve)值,AUC值通過計算ROC曲線下的面積獲得。AUC值越大表示該方法給出的顯著性預測結果越準確。
圖6為利用對象級突出圖作為顯著圖在OSIE數據集上的實驗結果。相對于RCNN算法, fasterRCNN算法使用了更深層次的網絡結構和更多對象類別的訓練樣本,具有較高的對象位置預測準確率和對象檢出率。實驗分析可以看出,使用fasterRCNN算法生成對象級突出圖可以更好進行顯著性預測。同時,人臉特征(FACE)的引入進一步提升了預測準確性,從一個側面說明了對象性信息對視覺注意的轉移具有引導作用。
圖7是多種視覺注意算法在OSIE數據集上的ROC曲線,可以看出本文方法實驗效果明顯好于其他算法。僅次于本文算法的是GBVS和Judd,Itti的準確率較差。圖中對象級特征曲線為使用fasterRCNN結合人臉特征生成對象級突出圖獲得,由于該方法完全使用自頂向下的對象特征,顯著性預測準確率明顯弱于其他方法,因而證明了引入像素級特征必要性。圖8為MIT數據集上的實驗結果,本文方法和Judd算法為最好的兩種方法,實驗結果相差不大。AIM和LG方法效果較差。本文方法和Judd方法均使用了對象特征,可以看出整合了對象特征的方法相對于完全自底向上模型有明顯優勢。
圖9中給出了多種算法顯著圖的直觀對比。與其他方法強調對象邊緣不同,本文結合了對象信息的方法可以有效突出圖像中的完整對象區域。
5 結語
本文提出一種結合對象信息的視覺注意方法。與傳統的視覺注意整合對象方法相比,該方法利用卷積神經網學到的對象特征,獲取圖像中對象位置等信息;然后通過一個線性回歸模型將同一幅圖像的多個對象加權整合,獲得對象級突出圖;最后,根據視覺注意的層次整合機制,將低層次特征和對象特征進行融合形成最終的顯著圖。本文方法在不同數據集上的準確率要高于現有模型。針對包含明顯對象的圖像,本文方法克服了部分現有模型由于邊緣強化效果導致的顯著區域預測不準的問題。本文方法仍然存在一定局限性,未來的工作將嘗試非線性對象整合以及增大訓練樣本數量和網絡規模以獲取更多種對象特征。
參考文獻: