卷積神經網絡存在的問題范文
時間:2024-03-29 16:55:31
導語:如何才能寫好一篇卷積神經網絡存在的問題,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞:機器學習;深度學習;推薦算法;遠程教育
深度學習(DeepLearning),也叫階層學習,是機器學習領域研究的分支,它是學習樣本數據的表示層次和內在規律,在學習的過程中獲取某些信息,對于數據的解釋有巨大幫助。比如對文字數據的學習,在網絡上獲取關鍵字,對圖像數據的學習,進行人臉識別等等。
一、深度學習發展概述
深度學習是機器學習領域里一種對數據進行表征學習的方法。一句話總結三者之間的關系就是:“機器學習,實現人工智能的方法;深度學習,實現機器學習的技術。深度學習目前是機器學習和人工智能領域研究的主要方向,為計算機圖形學、計算機視覺等領域帶來了革命性的進步。機器學習最早在1980年被提出,1984年分類與回歸樹出現,直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現的卷積神經網絡(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發展。在1990年至2012年,機器學習逐漸成熟并施以應用,GeoffreyHinton在2006年設計出了深度信念網絡,解決了反向傳播算法神經網絡中梯度消失的問題,正式提出了深度學習的概念,逐漸走向深度學習飛速發展的時期。隨后,各種具有獨特神經處理單元和復雜層次結構的神經網絡不斷涌現,深度學習技術不斷提高人工智能領域應用方面的極限。
二、深度學習主要模型
1、卷積神經網絡卷積神經網絡(ConvolutionalNeuralNetworks,CNN)是指有著深度結構又包含著卷積計算的前饋神經網絡。卷積物理上理解為系統某一時刻的輸出是有多個輸入共同疊加的結果,就是相當于對一個原圖像的二次轉化,提取特點的過程。卷積神經網絡實際上就是一個不斷提取特征,進行特征選擇,然后進行分類的過程,卷積在CNN里,首先對原始圖像進行特征提取。所以卷積神經網絡能夠得到數據的特征,在模式識別、圖像處理等方面應用廣泛。一個卷積神經網絡主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經網絡的核心部分,通過一系列對圖像像素值進行的卷積運算,得到圖像的特征信息,同時不斷地加深節點矩陣的深度,從而獲得圖像的深層特征;池化層的本質是對特征圖像進行采樣,除去冗雜信息,增加運算效率,不改變特征矩陣的深度;全連接將層間所有神經元兩兩連接在一起,對之前兩層的數據進行分類處理。CNN的訓練過程是有監督的,各種參數在訓練的過程中不斷優化,直到得到最好的結果。目前,卷積神經網絡的改進模型也被廣泛研究,如全卷積神經網絡(FullyConvolutionalNeuralNetworks,FCN)和深度卷積神經網絡(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環神經網絡區別于卷積神經網絡在圖片處理領域的應用,循環神經網絡(RecurrentNeuralNetwork,RNN)主要應用在自然語言處理領域。RNN最大的特點就是神經元的輸出可以繼續作為輸入,再次利用到神經元中循環使用。RNN是以序列的方式對數據進行讀取,這也是RNN最為獨特的特征。RNN的串聯式結構適用于時間序列的數據,可以完好保持數據中的依賴關系。循環神經網絡主要有三層結構,輸入層,隱藏層和輸出層。隱藏層的作用是對輸入層傳遞進來的數據進行一系列的運算,并將結果傳遞給輸出層進行輸出。RNN可用于許多不同的地方。下面是RNN應用最多的領域:1.語言建模和文本生成,給出一個詞語序列,試著預測下一個詞語的可能性。這在翻譯任務中是很有用的,因為最有可能的句子將是可能性最高的單詞組成的句子;2.語音識別;3.生成圖像描述,RNN一個非常廣泛的應用是理解圖像中發生了什么,從而做出合理的描述。這是CNN和RNN相結合的作用。CNN做圖像分割,RNN用分割后的數據重建描述。這種應用雖然基本,但可能性是無窮的;4.視頻標記,可以通過一幀一幀地標記視頻進行視頻搜索。3、深度神經網絡深度神經網絡(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經網絡。多層神經網絡和深度神經網絡DNN其實也是指的一個東西,DNN有時也叫做多層感知機(Mul-ti-Layerperceptron,MLP)。DNN內部的神經網絡層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數都是隱藏層。深度神經網絡(DNN)目前作為許多人工智能應用的基礎,并且在語音識別和圖像識別上有突破性應用。DNN的發展也非常迅猛,被應用到工業自動駕駛汽車、醫療癌癥檢測等領域。在這許多領域中,深度神經網絡技術能夠超越人類的準確率,但同時也存在著計算復雜度高的問題。因此,那些能夠解決深度神經網絡表現準確度或不會增加硬件成本高效處理的同時,又能提升效率和吞吐量的技術是現在人工智能領域能夠廣泛應用DNN技術的關鍵。
三、深度學習在教育領域的影響
1、學生學習方面通過網上學習的實時反饋數據對學生的學習模式進行研究,并修正現有教學模式存在的不足。分析網絡大數據,相對于傳統在線學習本質區別在于捕捉學生學習過程,有針對性,實現學生個性化學習。舉個例子,在學習過程中,可以通過學習平臺對學生學習課程所花費的時間,參與的程度,知識的偏好等等數據加以分析。也可以通過學生學習某門課程的次數,鼠標點擊次數、停留的時間等,來推斷學生學習情況。通過以上或類似數據匯總分析,可以正向引導學生學習,并給予積極的學習評價。這種利用計算機收集分析出來的客觀數據,很好展示了學生學習行為的結果,總結學習規律,而不需要教師多年的教學經驗來判斷。對于教育研究者而言,利用深度學習技術可以更客觀準確地了解學生,使教學工作良好發展更進一步。2、教學方面學習平臺的數據能夠對教學模式的適應度進行預測,通過學生的考試成績和對教師的線上評價等加以分析,能夠預測出某一階段的教學方式發發是否可行,影響如何。通過學生與教師的在線互動,學生測驗時完成的時間與完成的結果,都會產生大量的有效的數據,都可以為教師教學支持服務的更好開展提供幫助,從而避免低效率的教學模式造成教學資源的浪費。
四、成人遠程教育中深度學習技術的可應用性
深度學習方面的應用在眾多領域都取得了成功,比如電商商品推薦、圖像識別、自然語言處理、棋類博弈等等。在遠程教育方面,深度學習的技術還有很大的發揮空間,智能網絡教育的實現是人們的眾望所盼。若要將深度學習技術應用到遠程教育平臺,首先要清楚學生的需求和教學資源如何分配。1、針對學生的學習需求與學習特征進行分析美國斯坦福大學克里斯皮希研究團隊的研究成果顯示,通過對學生知識學習進行時間建模,可以精確預測出學生對知識點的掌握情況,以及學生在下一次學習中的表現。深度學習的應用可以幫助教師推測出學生的學習能力發展水平。通過學生與教學環境的交互行為,分析其學習風格,避免教師用經驗進行推斷而產生的誤差。2、教學資源的利用與分配深度學習技術能夠形成智能的分析結論。計算機實時采集數據集,對學生的學習情況加以分析,使教師對學生的學習狀態、情緒狀態等有更加清晰、準確的了解。有了上面良好的教學模式,教師對學生的學習狀態有了更準確的掌握,對學生的學習結果就有了更科學的教學評價。基于深度學習的人工智能技術,還可以輔助教師實現智能閱卷,通過智能閱卷自動總結出學習中出現的問題,幫助教師減少重復性勞動,減輕教師負擔。作為成人高校,遠程教育是我們的主要教學手段,也是核心教學方式,學校的教學必定是在學生方便學習的同時,以學生的學習效果為重。通過深度學習技術,可以科學地分析出學生的學習效果,對后續教與學給予科學、可靠的數據支撐。我們可以在平臺上為每位同學建立學習模型,根據學生的學習習慣為其定制個性化方案,按他們的興趣進行培養,發揮他們專業的潛能。同時,可以將學生正式在線參加學習和考試的學習行為和非學習時間瀏覽網站的行為結合到一起,更加科學地分析出學生在學習網站上感興趣的地方。采用深度學習算法,根據學生學習行為產生的海量數據推算出學生當前狀態與目標狀態之間的差距,做到精準及時的學習需求反饋。有助于幫助學生明確學習目標,教師確立教學目標,真正做好因材施教。基于深度學習各種智能識別技術,可以為教師的線上教學活動增光添彩,在反饋學生學習狀態的同時,采用多種形式的教學方法吸引學生的注意力,增強教學活動的互動性,達到良好的教學效果。
篇2
關鍵詞:圖像復原;盲復原;逆濾波;神經網絡復原
1 圖像退化及復原模型
1.1 圖像降質的數學模型
圖像復原處理的關鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經過某個退化系統后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應用情況一致,如圖像數字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數方式將其轉化為相加形式。原始圖像f(x,y) 經過一個退化算子或系統H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數學表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統計性質的信息下圖表示退化過程的輸入和輸出的關系,其中H(x,y)包含了退化系統的物理過程,即所要尋找的退化數學模型。
1.2 圖像的退化恢復模型
數字圖像的圖像恢復問題可以看作是:根據退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復原是數字圖像處理技術的一個重要研究方向,在現實生活中,有著非常廣闊的應用前景和市場。數字圖像處理研究很大部分是服務于數字圖像復原的,而運動模糊圖像的復原又是圖像復原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛星所拍攝的圖像進行復原,因為衛星相對地球是運動的,所拍出的圖像是模糊的(當然衛星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發回的月球照片進行了圖像恢復處理。傳統的圖像恢復方法可以很好地恢復出來原始圖像,但是需要事先知道系統的先驗知識(例如系統的點擴散函數)。在先驗知識不足的情況下,如何恢復出來原始圖像?這就需要模糊圖像盲恢復技術。根據不同的應用背景和先驗知識,大致可以兩種方法恢復兩種類型的模糊圖像,以滿足不同的應用要求。
第一種方法:如何快速恢復模糊圖像,進行適時性圖像處理?這個技術在實際生活中有著廣泛應用。
第二種方法:如何在事先不能確定模糊系統點擴散函數的情況下,恢復模糊圖像,改善圖像的質量,這就是圖像盲恢復的問題。
3 國際國內研究發展和現狀
從歷史上來看,數字圖像處理研究有很大部分是在圖像恢復方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應用于數字圖像恢復。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復原過來,從而增強人們的判讀能力。早期做圖像復原研究,主要強調盡可能使模糊圖像復原到原貌,增加它的判讀性,在此發展了很多的復原方法,諸如:差分復原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應用上均有一定的限制。
雖然經典的圖象復原方法不少,但歸納起來大致可分為逆濾波法,或稱相關變換法( inv ersefiltering or t ransfo rm related techniques) 和代數方法( alg ebraic techniques) 兩種。
3.1 傳統復原法
3.1.1 逆濾波方法
逆濾波法大致有經典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經典逆濾波的變換函數是引起圖象失真的變換函數的逆變換,其雖在沒有噪聲的情況下,可產生精確的復原圖象,但在有噪聲時,將對復原圖象產生嚴重的影響,雖然濾波函數經過修改,有噪聲的圖象也能復原,但它僅適用于極高信噪比條件下的圖象復原問題; 維納濾波法是通過選擇變換函數,同時使用圖象和噪聲的統計信息來極小化均方復原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩過程的假設,還需要知道非退化圖象的相關函數或功率譜特性等等,而在實際應用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復原問題時,提出了一種解決空間和時間相關性的多幀維納濾波法,是近年來維納濾波法的新發展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩圖象的復原,但是因計算量過大,而限制了其實際應用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復原方法,該方法可以較好地復原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數估計濾波法,它實質上是維納濾波法的變種. 20 世紀90 年代初,又提出了基于遞歸圖象濾波的自適應圖象復原方法及合成濾波方法,它代表了濾波方法新的發展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數中增加了空間自適應正則化項,從而很好地抑制了噪聲,并減少了振鈴現象,較好實現了在低SNR 條件下的盲圖象復原. 2001 年,Eng 等人結合模糊集的概念,提出了自適應的軟開關中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細節,是一種值得重視的新的圖象復原方法。
3.1 2 代數方法
Andrews 和Hunt 提出了一種基于線性代數的圖象復原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數,而相對于分析連續函數,又更喜歡離散數學的人的口味。它為復原濾波器的數字計算提供了一個統一的設計思路。代數方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復原方法等。 其中,偽逆法,實質上是根據圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經常會出現不穩定的現象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協方差的情況。前面的方法僅把圖象看成是數字的陣列,然而一個好的復原圖象應該在空間上是平滑的,其在幅度值上是正的,而約束圖象復原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術而提出的圖象復原方法就是一種約束圖象復原方法,而且通過選取不同的約束參數和回歸方法可以得到不同的圖象復原算法。傳統的圖象復原算法或面臨著高維方程的計算問題,或要求恢復過程滿足廣義平穩過程的假設,這就是,使得具有廣泛應用價值的圖象復原問題沒有得到圓滿的解決的根本原因。
3.2 神經網絡圖象復原的方法
神經網絡圖象復原方法的發展方向自從神經網絡圖象復原首次提出十多年來,其研究在不斷地深入和發展,描述它的現狀已屬不易,展望它的未來更是困難,況且科學研究具有不確定性. 據筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經網絡用于圖象復原將是研究的重點
自1992 年Zhang 提出小波神經網絡以來,如今已提出了各種類型的小波網絡,且小波與神經網絡的結合成了一個十分活躍的研究領域。通過學者們的理論分析和模擬實驗表明: 由于小波神經網絡具有逼近能力強、可顯著降低神經元的數目、網絡學習收斂的速度快、參數( 隱層結點數和權重) 的選取有理論指導、能有效避免局部最小值問題等優點,因此將其用于圖象復原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質,與神經網絡的大規模并行性、自學習特性等優點結合起來,不僅將使用于圖象復原的小波神經網絡具有自適應分辨性,也將使正則化參數的選取更具有自適應能力. 最終使復原圖象既能保持圖象的細節,又能很好地抑制圖象中的各種噪聲。
3.2.2細胞神經網絡、BP 網絡、自組神經網絡
值得進一步研究細胞神經網絡( CNN ) 由于其具有易于硬件實現的特點,因而具有很強的商業價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細胞神經網絡理論基礎的進一步完善及在此基礎上建立細胞神經網絡中鄰域系統的概念; 與圖象數據局部相關性等概念結合起來研究,以建立新的圖象復原理論,形成新的圖象復原技術。BP 網絡對受污染或帶噪聲的訓練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網絡的泛化能力強,使它在解決圖象復原問題時,可能比其他神經網絡具有更好的潛在性能。 將BP 網絡用于圖象復原是很值得進一步研究的.大家知道,人腦的學習方式是“自主的”,即有自組織和自適應的能力的,即人腦能在復雜、非平穩和有“干擾”的環境及其變化的情況下,來調整自己的思維和觀念,還能根據對外界事物的觀察和學習,找到其內在的規律和本質屬性,并能在一定的環境下,估計到可能出現的情況以及預期會遇到和感覺到的各種內容及情況。 自組織神經網絡(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數據中,揭示出它們之間內在關系的能力,因此將其用于“盲圖象”的復原將是非常有利的。
3.2.3 需要提出更適合圖象復原的新神經網絡模型
小波神經網絡是為逼近任意非線性函數而提出來的,但為了圖象復原的需要,可考慮針對圖象復原的特殊情況,提出新的神經網絡模型。 如,因為大多數圖象是由平滑區域和輪廓細節組成的,其圖象數據在平滑區域雖具有較強的相關性,但與輪廓細節相鄰的數據應極不相關,所以,提出一種專用于圖象復原的“相關性神經網絡模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應提出的“多項式神經網絡”,將它們用于圖象復原也是值得研究的。
3.2.4 神經網絡與其他理論的結合
研究是尋求新模型、新方法的重要途徑目前神經網絡的研究正由單純的神經計算轉向計算智能,并結合腦科學的研究向生物智能方向發展。 為此,神經網絡圖象復原的研究也應考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學科的研究成果。 與模糊系統的結合將是一個重要的研究方向,因為,神經網絡與模糊系統有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數學模型,而只需要根據輸入的采樣數據去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現出了很強的容錯能力; ( 3) 它們都可以用硬件來實現. 由此可見,將神經網絡與模糊系統結合,用于圖象復原將是有意義的研究工作。
4 未來展望
圖像恢復發展到現在,已經有了許多成熟的算法,但是還是存在許多問題,等待著我們去解決。目前圖像恢復的最新發展有:
1. 非穩圖像復原,即空間可變圖像復原。
2. 退化視頻信號的復原問題,以及攝像機拍照圖像復原,這是一個需要進一步研究的領域。
3. 運動補償時空復原濾波,同時將時間相關應用到運動補償中。
4. “Telemedicine“的出現,遠程診斷極大的依賴于遠程接受的圖像質量,圖像恢復在醫學領域中有相當重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復圖像恢復,這是一個具有發展潛力的研究方向。
參考文獻
1 馮久超,黃海東. 基于神經網絡的盲圖象恢復[ J ] . 計算機科學,2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
篇3
關鍵詞:視覺注視;移動端;數據集;行為推測
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)01-0254-03
Abstract: With the development of computer vision application technology, the behavior prediction of eye gaze has been widely concerned by many scholars at home and abroad, and also has important research significance in the field of biological information recognition. In the era of smart phone tablet popularity to improve human-computer interaction and accurate prediction of the mobile side of the user gaze behavior becomes particularly important. Based on the existing research on visual technology, this paper proposes a scheme to solve the gaze behavior of mobile users by using large data combined with machine learning and convolution neural network knowledge, and analyzes the importance of large-scale data sets in visual application.
Key words: visual gaze; mobile end; data set; behavior conjecture
1 概述
伴S著計算機軟硬件性能和互聯網技術的迅猛發展,大規模的并行計算技術突飛猛進,不斷地發展使各種現有技術變得越來越成熟,同時機器學習和計算機視覺領域也都得到了飛速發展。視覺技術的發展變得越來越重要,并且可以應用到實際生活中的很多方面。人類大量的視覺信息現在可以利用計算機來輔助處理,并完成相關的一些工作。相對于生物信息識別技術這一計算機視覺領域的熱點技術來說,也已廣泛應用于日常生活中[1]。比如指紋識別器,人臉考勤器等平時在許多地方可以經常見到,還有居民家用的攝像頭智能報警系統以及近期炒得火熱的運用支付寶進行刷臉而完成的支付技術等,這些都是運用了生物信息識別技術。現實中的種種跡象已經表明運用生物信息識別的計算機技術已漸漸的滲透到人們的日常生活中并成為不可或缺的組成部分。時下發展較快也比較常見的生物特征有視網膜、指紋、人臉和人眼等。這些生物信息比如人臉具有個體差異性和自身穩定性特點,從用戶的角度來看該特征具有便攜和低侵入等一些優點。而人眼作為人臉中最顯著的特征,又是人們獲取外界信息最直接最方便的途徑。都說眼是心靈的窗戶,因為眼睛中蘊含著表情、意圖等多種信息。因此,眼睛注視的行為預測受到了國內外眾多學者的廣泛關注,同時在生物信息識別領域中也具有重要的研究意義[2]。
2 注視預測問題
2.1 問題的背景
在心理、認知和用戶交互研究中的注視跟蹤最近已朝向移動解決方案發展,因為它們使得可以直接評估用戶在自然環境中的視覺注意。 除了注意,注視還可以提供關于用戶的動作和意圖的信息:用戶正在做什么以及接下來將做什么。然而,在自然狀態下非結構化的任務中注視行為是相當復雜的,并且不能使用在受控的實驗室環境中創建的模型來得到令人滿意的解釋。自然條件下和實驗室環境有著很大的不同。為了演化在自然環境中對注視行為的推斷,需要一種更加整體的方法,將從認知科學到機器學習的許多學科結合在一起[3]。
從人機交互技術到醫學診斷到心理學研究再到計算機視覺,眼睛注視跟蹤在許多領域都有應用。注視是外部可觀察的人類視覺注意的指標,許多人試圖記錄它。對于眼睛視線方面的研究可以追溯到十八世紀后期。而現如今已經存在各種解決方案(其中許多是商業化的),但是所有的解決方案都具有以下一個或多個方面的問題:高成本(例如,Tobii X2-60),定制或侵入性硬件(例如,Eye Tribe,Tobii EyeX)。然而在現實中的自然條件下,這些因素對實際的應用會造成一些障礙影響,使得眼睛注視跟蹤不能成為任何具有合理的相機(例如,智能手機或網絡攝像頭)的人應該可以使用的普及技術。如何才能使得這種技術普及并且得到應用,提出了一種解決方案。
2.2問題的提出
研究中首先要解決的就是用戶的約束問題,也就是自然條件下使用過程中所受到的各種限制問題。到目前為止,基于注視數據推斷用戶動作的研究受到許多的限制,特別是在自然環境中。限制因素可能包括可用的商業解決方案的昂貴性,其專有性和封閉性以及缺乏實時交互能力等方面。目前的注視跟蹤系統,只是盡量在移動設置中設置各種條件進行補救。商業化定制化的解決方案都有其獨自的閉合性質,因此阻礙了注視跟蹤算法的發展,并且使得不同方法之間的客觀比較變得不可能[4]。此外,注視是一種復雜的現象,涉及認知過程的相互作用。這些過程在設置計算上的建模是非常困難的,尤其是涉及一些未知因素,使得構建實驗設置成為一個很大的挑戰。此外,來自跟蹤實驗的數據因為其商業化的原因很少共享,即使共享數據很大部分也是有其獨立的實驗條件。這些方面的問題都阻礙了跨學科方法在分析和利用注視數據和實驗的相關研究與發展。
2.3 解決問題的研究方向
對基于注視的推斷的個體貢獻通常保持孤立,不能形成更大的整體以促進對注視動作行為的研究。隨著這方面的技術發展和應用,最近出現了一些開源的解決方案。雖然在不同的應用和用戶界面中使用注視已經相當有限,但是移動注視跟蹤的新穎應用開始出現并得到了很快的發展。然而使用移動注視跟蹤來推斷用戶動作的問題是高度多學科的,需要深入理解各個研究領域,包括人眼的功能,數學建模,計算機視覺,機器學習,信息技術,認知過程,用戶交互以及心理學。任何一個研究員或甚至任何研究小組都不可能擁有所有研究領域的專家,因此需要相互的協作共同推進技術的發展[5]。
目前的研究主要是從以下幾個方面進行:
1)研究移動注視跟蹤的認知方面,例如增強對任務中的注視行為的理解或識別不同任務的特征和階段;
2)開發用于從注視數據推斷用戶動作的計算方法,諸如應用機器學習用于行為推斷,優選地實時地;
3)增強用于改善移動注視跟蹤方法和性能的技術軟件/硬件解決方案,并使得設備更容易訪問;
4)發現注視數據在自然環境和虛擬和增強現實應用中的潛在用途,以及定義任務,其中注視可以是用戶動作的有用的預測器。
3 解決方案
首先選擇移動端進行研究,因為目前比較普遍的移動設備比如智能手機、平板電腦都有自己可靠的工作系統,且不需要外部附件。移動設備相對于其他平臺具有以下優勢:
1)使用的廣泛性。據估計,到2019年,世界上超過三分之一的人口擁有智能手機,遠遠超過臺式機/筆記本電腦用戶;
2)軟硬件技術升級的采用率較高。大部分的移動設備具有允許使用擁有計算復雜數據方法的實時的最新軟硬件;
3)移動設備上相機的大量使用已經導致相機技術的快速開發和部署;
4)相機相對于屏幕的固定位置減少了未知參數的數量,潛在地允許開發高精度的校準跟蹤應用。
3.1 注視類型分析
注視估計方法可以分為基于模型或基于外觀[6]。基于模型的方法使用眼睛的幾何模型,并且可以被細分為基于角膜反射和基于形狀的方法。另一方面,基于形狀的方法從觀察到的眼睛形狀觀察注視方向。這些方法傾向于具有低的圖像質量和可變的照明條件。基于外觀的方法直接使用眼睛作為輸入,并可能在低分辨率圖像上工作。相比基于模型的方法,基于外觀的方法被認為需要更大量的用戶特定的訓練數據。通過使用深度學習和大規模數據不必依賴于視覺,以實現準確的無校準注視估計。這種方案提出建立一個基于外觀的數據模型,而不使用任何手工設計的功能,例如頭部姿勢或眼球中心位置。
3.2 技術方案
深度學習的最近成功在計算機視覺的各種領域中是顯而易見的,但是它對改善眼睛跟蹤性能的影響還是相當有限。因為深度學習是需要大量的數據作為支持,而視線追蹤這方面的數據集還比較少,普通的研究所得到的稻菁比較有限,最大的數據集通常只是具有50個受試者左右,由于缺乏大規模數據的可用性,因此發展比較緩慢。因而提出了使用深度學習進行研究的一套方案,就是構造大規模的數據集。利用網絡資源構造一個大規模的基于移動的眼動跟蹤數據集,它包含來自各種背景的大量的受試者,在可變照明條件和不受限制的頭部運動下記錄[7]。運用現有的智能算法得到一個可以進行卷積神經網絡學習端到端的注視預測的后臺決策網絡。不依賴任何預先存在的系統,不需要頭部姿態估計或其他手動設計的特征用于預測。使用只有雙眼和臉部的特征訓練網絡,在這個領域的性能優于現有的眼睛跟蹤方法。雖然現在的決策網絡在精度方面實現了很先進的性能,但是數據輸入的大小和參數的數量使得難以在移動設備上實時使用。 為了解決這個問題,需要培養學習得到一個更小更快的網絡,在移動設備上實現實時性能,使得精度損失進一步降低。
3.3 大規模數據集
為了達到這一方案的預測效果,首先要進行的是數據集的建立。網絡上相關的研究中有許多公開的注視數據集[8]。總結對比這些相關的數據集,分析出有些早期的數據集不包含顯著性的頭部姿勢變化或具有粗略的注視點采樣密度。需要對這些數據進行篩選,使得到的數據具有隨機分布特點。雖然一些現代數據集遵循類似的方法,但它們的規模(尤其是參與者的數量)相當有限。大多數現有的眼動追蹤數據集已經由邀請實驗室參與者的研究人員收集,這一過程導致數據缺乏變化,并且成本高且效率不高。因此需要大量的進行數據收集和篩選分析。大規模數據可以通過卷積神經網絡有效地識別人臉(他們的眼睛)上的細粒度差異,從而做出準確的預測。
收集眼動跟蹤數據應該注意的方面:
1)可擴展性。數據應該是自然條件下的使得用戶具有靈活性;
2)可靠性。運用現有的智能移動設備真實的應用圖像而非設計處理過的圖像;
3)變異性。盡量使數據具有較大的變異性,使得模型更加穩健,適應各種環境下的操作。
4 結束語
文章介紹了一種針對移動設備的用戶注視行為推測解決方案。首先建立一個大規模眼動跟蹤數據集,收集大量的注視數據。大型數據集的重要性,以及具有大量各種數據以能夠訓練用于眼睛跟蹤的魯棒模型。然后,訓練得到一個深層卷積神經網絡,用于預測注視。通過仔細的評估,利用深度學習可以魯棒地預測注視,達到一個較好的水平。此外,雖然眼睛跟蹤已經存在了幾個世紀,相信這種新方案的策略可以作為下一代眼動跟蹤解決方案的關鍵基準。希望能通過這方面的研究,使人機交互得到更好的發展。
參考文獻:
[1] 崔耀 視控人機交互系統技術研究與實現[D].西安,西安電子科技大學,2013.
[2] 遲健男, 王志良, 張闖.視線追蹤[M].北京: 機械工業出版社, 2011.
[3] Alireza Fathi, Yin Li, and James M Rehg 2012 Learning to recognize daily actions using gaze In Computer VisionCECCV 2012. Springer, 314-327.
[4] Makeroni Labs 2016 Eye of Horus. https://hackaday.io/project/
6638-eye-of-horus-open-source-eye-tracking-assistance (2016) Accessed: 2016-02-26.
[5] Francisco J Parada, Dean Wyatte, Chen Yu, Brandi Emerick, and Thomas Busey,2015.Expert Eyes: Open-source, high-definition eyetracking Behavior research methods ,2015.
[6] 楊彩霞.基于近紅外光源的非接觸式視線跟蹤技術研究 [D].山東:山東大學,2012.
篇4
關鍵詞: 機器人視覺; 定位跟蹤系統; 系統設計; 控制模塊
中圖分類號: TN802.4?34; TP242 文獻標識碼: A 文章編號: 1004?373X(2016)14?0080?04
Design and implementation of robot vision locating and tracking system
CAO Qingmei1, WANG Xuelian2, MA Zhanfei3
(1. Vocational and Technical College of Inner Mongolia Agricultural University, Baotou 014100, China;
2. College of Public Administration, Inner Mongolia Normal University, Hohhot 010000, China;
3. School of Information Science and Technology, Normal College of Inner Mongolia University of Science and Technology, Baotou 014030, China)
Abstract: In view of the problems existing the design of the traditional robot locating and tracking system, such as incomplete tracking region acquired by image preprocessing module and incomplete noise elimination, a tracking system location according to robot vision was designed and implemented. In the system, the tracking region is acquired with the image preprocessing module, various modules of the whole system are coordinated and controlled with the control module to acquire the image of the target in the region, and then the acquired information is sent to the image processing module to complete the information exchange among the system modules. In the process of software design, the system locating program code is given while image processing to realize the robot visual positioning and tracking. The experimental results show that the designed system has the high feasibility and practicability.
Keywords: robot vision; locating and tracking system; system design; control module
0 引 言
近年來,機器人視覺被廣泛應用在工業、圖像處理等眾多領域,而在定位跟蹤領域的使用是最好的,也是最突出的[1?2]。隨著科學技術的發展,設計并實現了很多定位跟蹤系統,如基于人臉特征設計的定位跟蹤系統,通過體型特征設計的定位跟蹤系統,通過DNA檢測設計的定位跟蹤系統以及通過機器人視覺設計的定位跟蹤系統。其中,最常用、效果最好的就是通過機器人視覺設計的定位跟蹤系統[3?5],相比其他的定位跟蹤系統,該系統應用前景廣泛,跟蹤效果好,已經成為很多學者研究的重點課題,受到越來越廣泛的關注,是相關領域的前沿方向[6?9]。
本文設計并實現了一種通過機器人視覺進行定位的跟蹤系統,通過機器人視覺進行區域目標信息的采集及分析,為視覺監控等領域提供有效依據。
1 機器人視覺定位跟蹤系統總體設計
設計的機器人視覺定位跟蹤系統主要由控制模塊、圖像預處理模塊、信號采集模塊、通信模塊和視覺定位模塊構成。首先通過圖像預處理模塊將需要的區域圖像中的噪聲進行干擾去除,經過控制模塊對整個系統各個模塊進行協調和控制,將區域圖像信息進行采集及存儲,并通過通信模塊進行信息的傳輸,最后通過機器人視覺進行定位,最終根據定位完成跟蹤。其中,圖像預處理的好壞,直接影響后面機器人視覺定位的準確度,定位出現誤差,跟蹤效率就會降低,因此圖像預處理模塊是整個機器人視覺定位跟蹤系統的基礎。詳細的機器人視覺定位跟蹤系統結構如圖1所示。
2 機器人視覺定位跟蹤系統硬件設計
2.1 控制模塊
控制模塊是本文設計系統的核心,主要用來協調和控制整個機器人視覺定位跟蹤系統各個模塊,其主要由C8051F206單片機、UART和SPI串行接口、片內FLASH存儲器等構成。選擇C8051F206單片機為系統的核心芯片,它是集成的MCU芯片,具有12位多通道ADC,依據系統整體設計的需求,選用UART和SPI的串行接口,該串行接口共有32個通用I/O引腳,部分引腳用于數字外設接口。所有端口引腳均能夠被配置ADC模擬輸入,片內還集成有VDD監視器、硬件看門狗定時器以及時鐘振蕩器。片內FLASH存儲器還可用于部分數據存儲。通過設計的這個控制模板可以及時有效地對其余各個模塊進行調控并獲取區域圖像,為定位跟蹤提供了先決條件。
2.2 圖像預處理模塊
獲取區域圖像之后,需要進一步對圖像進行預處理,圖像預處理模塊主要負責獲取相對比較完整的、最大程度的不含陰影與噪聲的區域圖像。其中,圖像信息主要通過LT1959CS8、視頻解碼芯片、SRAM進行預處理。SRAM需采用精度和穩定性較高的雙電源供電,以消除機器人視覺定位跟蹤系統各模塊存在的電磁噪聲,因此,本文選用兩片Linear公司生產的LT1959CS8進行供電。視頻解碼芯片選用Trident Microsystem公司生產的SAA7113H芯片。圖像存儲選擇兩片IDT71V424異步SRAM芯片實現,其芯片容量是512 KB。這樣通過圖像預處理模板,可以去除噪聲對定位跟蹤產生的干擾,為信息采集模塊提供最“純凈”的信息。
2.3 信息采集模塊
信息采集模塊主要用于對經過處理后的目標圖像信息進行采集,同時將采集的信息發送至通信模塊進行處理。信息采集模塊主要包括MMA7260QT芯片、信息調理、單極低通濾波器以及溫度補償單元等。設計該模塊時,將MMA7260QT芯片作為核心,對處理后的圖像信息進行采集。該模塊不但需達到信息采集的功能要求,同時體積需盡可能的小,以節省資源。MMA7260QT是美國Freescale公司生產的一款低成本的單芯片,該芯片融合了信息調理、單極低通濾波器以及溫度補償技術,同時可提供四種采集范圍,具有噪音低、靈敏度高的優點。因此,該模塊使用MMA7260QT芯片可達到更好、更全面的圖像信息。
2.4 通信模塊
通信模塊主要用于整個系統模塊之間的信息交換,是整個系統設計成敗的關鍵樞紐,因此,本文選擇CAN總線進行通信。和其他總線相比,CAN總線具有節點間不分主次,通信速率高的特點。除此之外,該模塊還采用Microchip公司的MCP2515控制器和TJA1040驅動器輔助實現,不僅能夠達到系統所需的要求,還能節約成本。
2.5 機器人視覺定位模塊
機器人視覺定位模塊是整個系統的關鍵模塊,采集到的信息通過預處理去除噪聲干擾,再經過通信模塊傳輸到視覺定位模塊,在此模塊經過圖像智能化定位處理,使得要跟蹤的信息更加清楚、明了,增加了跟蹤的精度。
3 機器人視覺定位跟蹤軟件算法的設計
3.1 算法的設計思路
在上述機器人視覺定位跟蹤系統各個模塊的設計的基礎上,設計軟件算法,具體步驟如下:
(1) 獲取定位圖像特征,為動態估計提供依據。假如,區域圖像信息集為[φkζ],[k=1,2,…,M],則第[k]個圖像的特征可通過下式求出:
式中:[Fkx;pk]用于描述圖像信息的動態變化;[vkx;pk]用于描述圖像不確定項;[pk]用于描述各參數向量。
(2) 動態估計值的計算,為獲取定位誤差值提供有利條件。通過利用RBF神經網絡對一般動態信息圖像特征[φkx;pk=Fkx;pk+vkx;pk]進行局部分類,同時將獲取的信息用常值神經網絡[WkTSx]權值的形式進行保存,并獲取[M]階的動態估計值:
式中:[k=1,2,…,M]用于描述第[k]個參數;[χk=χ1k,χ2k,…,χnkT]用于描述圖像信息個數;[B=diagb1,b2,…,bn]用于描述對角矩陣。
(3) 定位誤差值的計算及誤差范數的獲取。在測試過程中,通過式(2)獲取的動態估計值,即可獲取定位誤差值,計算公式如下:
式中,[χki=χki-xi]用于描述狀態估計誤差。
通過式(4)求出誤差[χkit]的[L1]范數:
式中,[TC]用于描述圖像信息獲取周期。
(4) 完成機器人視覺定位,其基本思想為:若信息動態模式為[s]([s∈1,2,…,k]),則動態模式[s]中常值RBF的神經網絡[WkTiSix]值,可通過定位誤差值獲取。所以,相應的誤差[χsit1]在全部誤差[χsit1]中最小。依據最小誤差原則,實現快速定位。
依據上述定位過程給出系統用于定位的主流程圖,如圖2所示。
(5) 在定位的基礎上完成跟蹤,則具體的跟蹤結果如下:
式中:[Ii,j]代表目標圖像邊緣上的像素點;[S]代表圖像邊緣梯度向量;[t]代表目標濾波值。
3.2 源代碼設計
本文設計的機器人視覺定位跟蹤系統軟件,是在Windows XP環境下,通過Visual C++ 6.0實現的,其關鍵跟蹤部分的源代碼如下:
4 仿真實驗分析
為了驗證本文設計的機器人視覺定位跟蹤系統的有效性,需要進行相關的實驗分析。實驗將基于確定學習的跟蹤系統作為對比進行分析,本文實驗在Windows XP環境下,LabVIEW構建系統平臺上完成。分別采用本文系統和基于確定學習的跟蹤系統對測試區域目標進行跟蹤,測試區域目標圖像如圖3所示,兩種系統測試得到的結果分別如圖4、圖5所示。
由圖4、圖5可知,改進算法進行多人視覺定位中的防丟失效果要優于傳統算法,這主要是因為本文設計的跟蹤系統,通過控制模塊對整個系統的各個模塊進行協調和控制,再經過圖像預處理模塊對目標區域圖像進行處理,并對區域目標圖像信息進行采集,將采集的信息發送至圖像預處理模塊進行處理,完成整個系統模塊之間的信息交換,最終達到跟蹤的目的。采用本文系統對區域目標圖像進行跟蹤,從側面視角的角度,對本文系統和基于確定學習的跟蹤系統的跟蹤準確率進行比較,得到的結果如表1所示。分析表1可以看出,本文系統的準確率一直高于基于確定學習的跟蹤系統,且準確率一直在90%以上,說明本文系統具有很高的跟蹤性能。
5 結 論
本文設計并實現了一種機器人視覺定位跟蹤系統。控制模塊作為系統的核心,主要負責整個系統各個模塊的協調和控制,通過圖像預處理模塊進行處理,再用信息采集模塊對目標圖像信息進行采集;并通過通信模塊在整個系統模塊之間進行信息的交換。在軟件設計過程中,在圖像處理的同時給出定位跟蹤程序代碼,實現目標的定位跟蹤。仿真實驗結果表明,本文設計的系統具有很高的可行性和實用性。
參考文獻
[1] 梁棟,高瑋瑋,張艷,等.基于足底壓力圖像的靜態觸覺步態識別[J].華中科技大學學報(自然科學版),2013,41(10):25?29.
[2] 王欣,唐俊,王年.基于雙層卷積神經網絡的步態識別算法[J].安徽大學學報(自然科學版),2015(1):32?36.
[3] 賁燁,張鵬,潘婷婷,等.線性插值框架下矩陣步態識別的性能分析[J].智能系統學報,2013(5):415?425.
[4] 范玉紅,梁棟,鮑文霞.改進的譜特征和足底邊緣距離的步態識別[J].安徽大學學報(自然科學版),2014(6):37?43.
[5] 李一波,李昆.雙視角下多特征信息融合的步態識別[J].智能系統學報,2013,8(1):74?79.
[6] 王蒙,孫運強,姚愛琴.基于PCA和BP神經網絡的步態識別系統研究[J].電子質量,2014(3):83?85.
[7] 鄭偉南,曲娜,程鳳芹,等.基于步態識別技術的熱釋電紅外安防預警系統研究[J].中國新通信,2014(23):96?97.
篇5
本文結合計算機行業的發展,對計算機網絡云計算技術進行了分析研究,希望能為計算機技術的進步提供一定的理論支持。
一、計算機網絡的云計算技術概念
美國的網絡公司最早提出計算機網絡云計算技術的概念,隨著科學的進步與發展已經逐漸成為了一門成熟的技術,有著豐富的理論基礎與實踐經驗。現在的“云計算”技術是指能將網絡、硬件、設備相融合,同時實現規模性、安全性、虛擬性的技術。目前來看,對計算機網絡云計算的定義還沒有統一的趨勢,每一名研究人員都有自己的研究與看法,通過研究與分析,本文對云計算的觀點是:首先,每一個“云”都是獨立的計算機分布體系,基于網絡化、虛擬化的計算機服務層,與計算機中的資源保持一定的節奏,實現計算機資源的同步。其次,計算機網絡云是一個綜合體,并非是獨立的,計算機軟件的開發中離不開云計算的環節,其重點就是網絡云計算特征的研究。對于計算機網絡的使用者來說,計算機集成軟件層面,能被接受與理解的就是云計算,在本文重點突出的就是云計算的屬性。最后,計算機網絡的使用者沒有進行長期的規劃后使用,很容易出現浪費現象,目前的云計算技術可以實現分或秒內的數據計算,可以很好地避免資源過載或資源浪費現象。
通過研究可以看出,計算機網絡云計算技術可以定義成計算機網絡中進行的某種服務形式,其中相關的硬件設施與軟件系統統稱為計算機網絡云計算。定義中包括網絡計算機、超級計算機、集成技術等,相關的技術既有區別又有聯系。計算機網絡云計算技術的原理是:大量的數據分布于分布式計算機中,同時保證用戶的數據系統與計算機同步運行,進而實現及時將需要的資源切換到相應的應用中,根據使用者的訪問需求進行存儲系統與計算機系統的定位。計算機網絡云計算技術可以基于用戶服務需求及時提供所需的網絡信息資源。計算機網絡云計算技術適應性強,彈性好,專業技術性高,發展前景十分好,應用越來越廣泛。
二、計算機網絡云計算技術的分類
基于多樣化的標準,計算機云計算的分類也有多種方式。比較常見的是:根據服務方式的不同,云計算可以分為私有云和公有云。私有云是根據用戶的自身情況進行獨立使用,同時建立平臺,操作性與實用性十分好。公有云是ζ淥用戶的資源進行開發利用。在選擇私有云與公有云時,應該考慮的主要因素是:
1.服務的延續性
大部分情況下,公有云提供的服務容易受外界影響,如網絡故障等情況,而私有云則不會出現這種問題。
2.數據安全性
如果對于穩定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對于計算資源要求不高可以選用公有云,如果對于計算資源要求較高則比較適合建立自己的私有云平臺。
4.監控能力
公有云可以將使用用戶對系統的監控能力屏蔽起來,這對于金融保險投資行業是十分有必要的。
三、計算機網絡云計算技術的實現
為了將計算機系統的系統處理過程進行簡化,通常將該過程劃分為預處理過程與功能實現過程兩大部分。對系統的各項功能進行分解,得到一些不需要進行功能實現過程與預處理過程的功能。對于可以進行預先處理過程的功能通常是一次性處理,在執行過程中,可以將預處理過程得到的結果直接使用,以此完成特點的系統功能。該方法與原則的采用,極大地簡化了系統,大幅度提高了系統運行效率。計算的云化中的系統就是計算云化系統,它的計算量十分巨大,系統計算運行效率極高。但因為計算云化系統為一次處理系統,只要計算云規則生成,計算云化系統的使命與任務也就完成,而不是在對計算機加以應用時需要該系統。通常在計算機網絡云計算中形成的系統就是云計算系統,是一個十分簡單的系統,對計算機的處理能力沒有過高要求,同時應用于各類計算機系統計算中。
四、計算機網絡云計算的計算與優勢
建立計算機網絡云計算過程的第一步是服務器架構的建立,其對計算機網絡云計算技術中的IAAS部分進行充當。目前來看,仍沒有關于網絡云計算服務器架構的專門、統一的標準出現,這需要一定的相關技術進行支持,例如計算區域網SAN和附網NAS等,這都是應用比較多的服務器架構技術。NAS文件計算系統是松散結構型的集群,它的架構有很明顯的分布式特征。NAS文件系統集群中的各個節點具有互補與相互影響的特點,文件是最小的單位,因為只要在集群存儲文件就可以計算出文件的數據信息,直接減少了很多計算的冗余性。它的拓展性很高,同時成本較低,安全控制系統安全穩定。如果客戶發出過多的請求,NAS系統的限制就表現出來,二級計算就可以通過NAS的云服務完成。
SAN是一種緊密結合類型的集群,在集群中存儲文件之后,可以分解成很多個數據塊。相比于集群之中的節點,各數據塊之間能夠進行相互訪問。節點可以借助于訪問文件間的數據塊針對客戶的請求進行處理。SAN系統之中可以通過節點數量增減來響應請求,同時提升界定本身的性能。為了能夠將以SAN為基礎的OBS發展起來,就需要更好的性能與更低的成本。而SAN計算建構的硬件價格十分高,同時依托于SAN的服務價格,因此可以適當地降低一下性能,保證更好的性能與更低的成本。
五、實例――基于谷歌云計算技術的AlphaGo亮點分析
AlphaGo通過谷歌云計算技術,擁有與人類棋手類似的“棋感”,其技術遠勝于1997年IBM公司研制的超級電腦“深藍”。“深藍”面對的是相對圍棋簡單多的國際象棋,設計理念為根據棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計算技術,可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運算能力都集中在“棋感策略”網絡中最有可能的情況上。其背后的深層算法,具備三大亮點:(1)深度卷積神經網絡學習技術:“棋感策略”網絡的本質學習人類圍棋大師走法思維。AlphaGo藉此擁有強大的盤面評估能力。(2)增強學習算法技術:此算法可通過自我對弈來持續提升AlhpaGo的棋感策略和盤面評估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術:“評價網絡”的核心,可以融合棋感策略和盤面評估能力,修正落子選擇而最終給出落子方案。
六、計算機網絡云計算技術發展遇到的問題
在目前計算機網絡云計算技術廣泛地運用到各個領域的過程中,云計算技術也存在一些缺陷與不足還需要引起我們的重視,同時在云計算的應用過程中應采用足夠的措施來對數據信息的安全性進行可靠的保障,這是計算機網絡云計算技術發展過程中十分重要的一項課題。現在的大部分云端是通過瀏覽器進行接入的,瀏覽器是計算機系統中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時,用戶證書與認證密鑰特別容易因為瀏覽器漏洞而產生泄密。同時由于不同的應用都需要在云端中進行認證,這就需要保證認證機制的高效性與安全性。在應用服務層之中,應該采取安全有效的措施來保護用書的隱私安全,在基礎設施層中要采取安全可靠的方法保C數據的安全性。
七、采取措施保障網民數據安全
如果數據的安全不能得到保障,就會對云計算的發展產生不利影響,所以為了能夠保障網民數據的安全。就需要采取切實可行的手段來保證數據的安全性。
1.隔離操作系統與數據
為了能夠切實有效地保障網民信息的安全,就需要充分使用Hypervisor,從而將網民的操作系統與數據資源隔離起來,從而有效地保證了計算資源的安全性,避免了網民操作系統所帶來的可能的不利影響。
2.重置API保護層
服務商提供給用戶API,用戶根據需要進行應用。但同時第三方也有可能對這些API進行使用。為了保證數據的安全性,就需要你安裝API保護層,重疊保護API。
3.嚴格身份認證
服務商應嚴格的執行身份認證,防范冒充網民身份的行為,加強對賬號與密碼的管理控制,確保網民只訪問自己的程序與數據,從而保證數據資源的安全性。
篇6
關鍵詞: 車牌定位;圖像處理;HSV顏色模型;邊緣檢測;數學形態學
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)32-0184-03
Vehicle License Plate Locating Method Based On Color Positioning and Edge Detection
WU Lei, WANG Xiao-fei, LI Yan*
(School of Information Engineering,Hubei University for Nationalities, Enshi 445000, China)
Abstract:License plate recognition technology is one of the key technologies of intelligent traffic management system, license plate location is the basis for the realization of license plate recognition. Fast, accurate and robust license plate location technology can give a great help to the license plate recognition. In view of the problem of license plate location, this paper proposes a color location method based on HSV color model and the edge detection method based on vertical edge detection. Combined with the use of the two methods not only to achieve a fast, accurate positioning, but also for the license plate recognition follow the character segmentation, character positioning and other steps to lay a solid foundation.
Key words:vehicle license plate recognition; image processing; HSV color model;edge detection; mathematical morphology
1 引言
S著當今社會經濟的飛速發展,車輛的數量也變得與日聚增起來。高速增長的汽車數量和落后的停車場管理模式形成了鮮明的矛盾沖突。于是,智能車輛管理系統的實現變得尤為重要。實現智能車輛管理系統的核心內容就是能夠自動化識別車輛車牌,而作為車牌識別核心技術的第一步――車牌定位技術的好壞極大程度上決定了車牌識別的性能。
目前車牌定位的實現方法大體分為兩類,一類是基于灰度圖像的車牌區域定位方法,另一類是基于彩色圖像的車牌區域定位方法。前者主要有基于紋理特征法、基于數學形態學法、基于小波分析法等方法。后者主要有基于RGB顏色法、基于神經網絡法等。本文結合兩類不同的方法,先采用改良的RGB顏色法――HSV顏色模型來識別車牌,可以定位出大部分顏色鮮明的車牌,由于此方法受圖片質量影響較大,我們在顏色法后采用邊緣檢測定位法,通過垂直邊緣檢測,將圖片中垂直邊緣較多的區域定位出來,兩種方法的結合可以獲得車輛圖片中車牌所在的區域,判斷出真正的車牌位置。
2 顏色定位
采用RGB顏色定位方法需要RGB的3個分量(Red分量--紅色,Green分量--綠色,Blue分量--藍色)共同確定一個顏色標準,我國大部分車牌都是藍色,我們要從Blue分量中找到分量的閾值確定藍色的范圍,這本就不是一件容易的事。但是我們往往不只有3原色構成的車牌,遇到像黃色的車牌時情況會更加復雜,需要考慮Red分量和Green分量的配比問題。這些問題讓單純選擇RGB顏色定位變得分外困難。
為了解決這些問題我們采用HSV顏色模型,如圖1所示。HSV模型是根據顏色的直觀特性創建的一種圓錐模型。與RGB顏色模型中的每個分量都代表一種顏色不同的是,HSV模型中每個分量并不代表一種顏色,而分別是:色調(H),飽和度(S),亮度(V)。
H分量是代表顏色特性的分量,用角度度量,取值范圍為0~360,從紅色開始按逆時針方向計算,紅色為0,綠色為120,藍色為240。S分量代表顏色的飽和信息,取值范圍為0.0~1.0,值越大,顏色越飽和。V分量代表明暗信息,取值范圍為0.0~1.0,值越大,色彩越明亮。我們可以從一種純色彩開始,即指定色彩角H,并讓V=S=1,然后我們可以通過向其中加入黑色和白色來得到我們需要的顏色。增加黑色可以減小V而S不變,同樣增加白色可以減小S而V不變。這就意味著通過保持V,S不變來找表示顏色的H的范圍,再反過來通過H的范圍確定V,S的取值范圍,從而可以確定出我們需要的顏色范圍,如圖2所示。
采用顏色定位我們首先需要將圖像顏色空間從RGB轉換為HSV,再遍歷圖像的所有像素,將滿足HSV范圍內的像素點標記為白色,其余部分標記為黑色。所得圖片中白色部分為車牌位置。再采用閉操作,取輪廓等操作獲取目標車牌。
3 邊緣檢測定位
邊緣檢測是圖像處理和計算機視覺中的基本問題,邊緣檢測的目的是標識數字圖像中亮度變化明顯的點。而本文采用的是基于垂直邊緣的檢測方法。因為一般的車牌圖片在沒經過一定的處理之前車牌邊緣都有很多垂直邊緣,那么就可以以此來判定車牌的位置。
車牌定位準確率的高低與圖片的好壞有著密不可分的關系,如圖片的天氣,環境等外界環境因素直接影響圖片的識別率。所以在進行識別之前必須對車輛圖片進行預處理,消除干擾并突出車牌特征。
這里對車輛圖片進行車牌邊緣檢測定位的流程如圖3所示:
3.1 高斯模糊
對車輛圖片先進行高斯模糊就是把圖片中某一點周圍的像素色值按高斯曲線統計起來,采用數學上加權平均的計算方法得到這條曲線的色值,最后能夠留下物體的輪廓。高斯模糊使圖片變得更平滑,去除了干擾的噪聲對后面車牌的判斷打下了堅實的基礎。
3.2 灰度化
將彩色圖像轉化成為灰度圖像的過程稱為圖像的灰度化處理。彩色圖像中的每個像素的顏色有R、G、B三個分量決定,而每個分量有255中值可取,這樣一個像素點可以有255*255*255種顏色的變化范圍。而灰度圖像是R、G、B三個分量相同的一種特殊的彩色圖像,也正因為如此,對圖像的灰度化處理存在的最大爭議就是圖像信息的丟失,圖像信息的丟失可能使得對車牌的識別變得更加復雜。但對于計算機而言,處理灰度化圖像相比于處理彩色圖像要更加容易,同時,現在已研究的很多處理圖像的算法和技術僅支持對灰度化圖像的處理,在現今的科技狀況下對圖像灰度化處理使我們更便捷地獲取所需要的信息。但無疑,對彩色圖像直接進行判斷更符合人眼識別的規律,更趨近人工智能的本質,也是今后研究的方向與趨勢。一般有以下四種方法對彩色圖像進行灰度化處理:分量法,最大值法,平均值法,加權平均法。
(1)分量法:將彩色圖像中的三分量的亮度作為三個灰度圖像的灰度值,可根據應用需要選取一種灰度圖像。
f1(i,j) = R(i,j)f2(i,j) = G(i,j)f3(i,j) = B(i,j)
其中fk(i,j)(k=1,2,3)為轉換后的灰度圖像在(i,j)處的灰度值。
(2)最大值法:將彩色圖像中的三分量亮度的最大值作為灰度圖的灰度值。
f(i,j) = max(R(i,j), G(i,j), B(i,j))
(3)平均值法:⒉噬圖像中的三分量亮度求平均得到一個灰度值。
f(i,j) = ( R(i,j) + G(i,j) + B(i,j) ) /3
(4)加權平均法:根據重要性及其他指標,將三個分量以不同的權值進行加權平均。由于人眼對綠色的敏感最高,對藍色敏感最低,因此,按下式對RGB三分量進行加權平均能得到較合理的灰度圖像。
f(i,j) = 0.30 R(i,j) + 0.59 G(i,j) + 0.11 B(i,j))
3.3 Sobel算子
Sobel算子是邊緣檢測定位中的核心算法,用于檢測圖像的垂直邊緣,便于區分車牌。
Sobel算子是一階導數的邊緣檢測算子,在算法實現過程中,通過3×3模板作為核與圖像中的每個像素點做卷積和運算,如下所示,其中A為原圖像,然后選取合適的閾值以提取邊緣。
許多學者已經提出了很多圖像檢測算子,如Sobel算子、Laplace算子、Canny算子等。比較常用的有Sobel算子和Laplace算子。Sobel算子求圖像的一階導數,Laplace算子則是求圖像的二階導數,在通常情況下,也能檢測出邊緣,不過Laplace算子的檢測不分水平和垂直。
3.4 二值化
圖像的二值化,就是將圖像上的像素點的灰度值設置為0或255,也就是將整個圖像呈現出明顯的只有黑和白的視覺效果。一幅圖像包括目標物體、背景還有噪聲,要想從多值的數字圖像中直接提取出目標物體,最常用的方法就是設定一個閾值T,用T將圖像的數據分成兩部分:大于T的像素群和小于T的像素群,然后分別設置為黑白兩種顏色,實現了整個圖像的二值化。
3.5 閉操作
對二值化圖像先進行膨脹運算,其次進行腐燭運算,此組合運算即為圖像的閉運算。對二值化圖像先進行腐燭運算,其次進行膨脹運算,此組合運算即為圖像的開運算。閉操作可使輪廓線更光滑,但與開操作相反的是,閉操作通常消除狹窄的間斷和長細的鴻溝,消除小的空洞,并填補輪廓線中的斷裂。使用結構元素B對集合A進行閉操作,數學表達為:
這個公式表明,使用結構元素B對集合A的閉操作就是用B對A進行膨脹,然后用B對結果進行腐蝕。
3.6 取輪廓,篩選,角度與尺寸判斷
經過上述一系列的圖像操作我們可以得到一張包含許多獨立圖塊的圖像,取輪廓操作就是將圖像中的所有獨立的不與外界有交接的圖塊取出來。然后根據這些輪廓,求這些輪廓的最小外接矩形。尺寸判斷操作是對外接矩形進行判斷,以判斷它們是否是可能的候選車牌的操作。經過尺寸和角度判斷,會排除大量由輪廓生成的不合適尺寸的最小外接矩形。接下來需要對剩下的圖塊進行旋轉操作,將傾斜的車牌調整為水平,為后面的車牌判斷與字符識別提高成功率的關鍵環節。最后確定我們要識別的車牌的尺寸。
4 結論
本文提出了兩種關于車牌識別中車牌定位的方法,采用改進的HSV顏色模型,準確,快速地對顏色鮮明的車牌進行定位,簡化了車牌定位中一些圖片處理和特征判斷的過程。而另一種方法是邊緣檢測中垂直邊緣定位的方法,垂直邊緣的選擇讓此方法能獲得更高的準確率,同時采用圖像處理,數學形態學等多種算法強化了圖片中的許多特征量,極大提高了垂直邊緣的判斷。
雖然采用兩種定位方法的結合,極大提高了車牌定位的準確率,但仍然有不足之處,需要進一步完善。兩種方法都需要較高的圖片質量,大量的光暗區域和嚴重的雨雪天氣都會對車牌定位的準確率產生較大的影響。還有如顏色定位中一旦車輛的顏色與車牌的顏色一致,那判斷的準確率會大大降低。而第二種方法如果遇到大量垂直邊緣的車輛也會造成較大的誤差。
參考文獻:
[1] 魏平順.智能交通系統中車標圖像識別技術研究[D].南京:南京理工大學,2013.16-25.
[2] 李俠.車標定位技術研究[D].大連:遼寧師范大學,2011,16-26.
[3] 張闖, 孫興波, 陳瑤,等. 常用邊緣檢測技術的對比[J].傳感器世界, 2013,19(11):20-23.