計算機視覺感知技術范文
時間:2023-09-14 17:50:59
導語:如何才能寫好一篇計算機視覺感知技術,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
【關鍵詞】計算機;視覺系統(tǒng);框架構思
在現(xiàn)代計算機技術的支持下,對人類視覺功能進行模擬的計算機系統(tǒng)被稱為計算機視覺系統(tǒng),因為視覺系統(tǒng)本身兼具科學性和應用性,所以計算機視覺系統(tǒng)本身既具有科學學科的特性又具有工程學科的特性。對其的研究不僅能夠進一步了解人類本身,而且能夠在工業(yè)生產(chǎn)領域發(fā)揮更大的作用。
1 計算機視覺系統(tǒng)現(xiàn)有理論框架
1.1 計算機世界理論框架
20世紀80年代,麻省理工學院教授Marr在視覺理論研究領域獲得突破,提出了利用計算機實現(xiàn)視覺能力的理論框架――計算機視覺理論,這一理論主要特點是以現(xiàn)代信息處理的方式對人類視覺能力作用機制進行了分析,并以人類的視覺能力為基礎在計算機技術的支持下形成了三個不同的計算機層次。分別是計算機理論層次、表示層次和算法層次。這三個層次分別對應著人類對視覺信息進行處理的三個環(huán)節(jié),通過各個環(huán)節(jié)的仿生設置,計算機視覺系統(tǒng)就能夠?qū)⒊醪降囊曈X處理能力賦予計算機。這一理論中的核心是計算機理論層次,Marr認為人類的視覺能力主要是從圖像中建立物體形狀和位置的描述,所以在這一層次中設計者設計的主要環(huán)節(jié)是從初步獲取的二維圖像中提取和細化物體的三維結構和位置,并將這些信息在一個二維平面上反映出來,即三維重建。
1.2 基于知識的視覺理論框架
基于知識的視覺理論框架最早產(chǎn)生于20世紀90年代,最早的提出者是Lowe。認為在人類的視覺能力發(fā)揮過程中,對三維物體的實際測算是不必要的,人類的視覺能力與三維測算能力沒有直接的關系,雖然使用三維測算技術也能夠?qū)崿F(xiàn)計算機視覺系統(tǒng)的功能,但并不是對人類視覺功能的模仿。Lowe認為在人類的視覺活動中,會將三維物體看成二維物體,也會將二維物體看成三維物體。這種現(xiàn)象本身并不是偶然性的,而是一種視覺作用機制的必然。既然人類肉眼能夠借助一定的作用機制和處理能力實現(xiàn)二維的三維化,在計算機視覺系統(tǒng)中就完全有可能設計出這種對人類肉眼直接模擬的機制。以感知系統(tǒng)感知物體的二維特性,并在其基礎上直接生成三維圖像,而不需要借助復雜的測量過程。
1.3 主動視覺理論框架
主動視覺理論是在現(xiàn)有計算機理論的基礎上形成的新型理論框架,是根據(jù)人類視覺功能實現(xiàn)的主動性提出的。在人類實現(xiàn)視覺功能的過程中,人類的視覺系統(tǒng)并不是被動的,而是會根據(jù)視覺系統(tǒng)的要求調(diào)動身體的其他部位進行配合的、具有主動性的,所以在人類視覺功能的發(fā)揮過程中,視覺系統(tǒng)是具有主動性的,人類視覺系統(tǒng)的視角、關注點都會是動態(tài)變化的。
基于這一理論,主動視覺理論框架認為人類的視覺活動是一種“感知――動作”過程。根據(jù)這一原則,主動視覺理論框架認為計算機視覺系統(tǒng)并不需要精準的三維測算系統(tǒng)。而應該以計算機視覺獲取系統(tǒng)為核心,設置主動的視覺系統(tǒng)。這一理念在實際的應用中主要通過對圖像獲取系統(tǒng)技術參數(shù)的調(diào)整和控制來實現(xiàn),例如攝像機的位置、取向、焦距、光圈等,通過對這些參數(shù)的調(diào)整圖像信息獲取系統(tǒng)就能夠從不同的視角對物體進行觀察,進而獲取物體的三維圖像信息。
2 計算機視覺理論框架中存在的問題
計算機視覺理論框架的產(chǎn)生極大的支持了計算機視覺系統(tǒng)的研發(fā)工作,但是在計算機視覺系統(tǒng)的實際研發(fā)工作中,也逐漸暴露出了計算機理論框架的缺陷。當前主流的計算機視覺系統(tǒng)框架中,計算機視覺理論是最早產(chǎn)生的也是唯一一種被動的計算機視覺技術。在其理論系統(tǒng)中更多的強調(diào)人類視覺系統(tǒng)的測算能力,而沒有意識到人類的視覺系統(tǒng)是一種主觀性很強的、目的性很強的信息獲取系統(tǒng),完全建立在測算基礎上的計算機視覺理論框架是不必要的。
基于知識的理論框架,認為人類視覺系統(tǒng)的功能實現(xiàn)主要環(huán)節(jié)是反饋,強調(diào)了人類視覺活動中主觀意識的指導作用。但是它過于強調(diào)系統(tǒng)的目的性和主觀性,完全否定了計算機視覺理論,認為人類視覺系統(tǒng)是個完全脫離計算機的認識過程,這種認識顯然是錯誤的,在判斷物體尺寸大小、距離遠近時,測算無疑是極為必然的。
主動視覺理論并不完全排除三維重建,認為計算機視覺系統(tǒng)的三維重建應該建立在圖像獲取系統(tǒng)的主動性上。通過改變圖像獲取攝像機的角度、參數(shù)對時間、空間和分辨率等進行有選擇的感知,解決了計算機視覺系統(tǒng)認知過程中的不穩(wěn)定問題,降低了計算機視覺系統(tǒng)實現(xiàn)的難度。但是在其理論框架內(nèi)部缺乏主觀、高層的指導,從整體上看并不完善。
3 計算機視覺系統(tǒng)框架的新構思
在計算機視覺系統(tǒng)的研究領域,三種理論構建各有優(yōu)劣。但是無疑反應了當前計算機視覺系統(tǒng)研發(fā)的主流思想,因此計算機視覺系統(tǒng)框架的新構思應該在其基礎上進行,致力于克服各個理論的缺點。綜合比較三種理論框架,筆者認為計算機視覺理論雖然存在某些問題,但是從整體上看這一理論框架是最具實踐性和操作性的,其存在的問題完全可以借助其他理論框架加以解決,因此筆者以計算機視覺理論為主體,結合基于知識的視覺理論和主動視覺理論,提出一個更加完善和通用的計算機視覺系統(tǒng)構架。
計算機視覺系統(tǒng)視覺功能實現(xiàn)的主體結構還是建立在計算理論結構的基礎上的,將計算理論框架中的早期視覺處理環(huán)節(jié)分為圖像預處理、圖像分割和二維模式識別兩個部分,因為圖像的預處理是在平面圖像基礎上的簡單處理,不需要主觀主導意識和目的性的參與,同時圖像分割和二維模式識別能夠最大限度的提升后繼圖像處理的效果。
在早期處理完成以后,后繼的中后期處理還是分別情調(diào)了二維模式識別和三維模式識別,雖然這兩種模式本身的識別原理是一樣的,但是其面對的對象不同,物體的模型也不同。一般來講,在我們的世界中二維信息具有很強的重要性,圖形、文字、指紋等關鍵二維信息在通常情況下作用更大、應用范圍更廣,所以計算機視覺系統(tǒng)礦建的新思路中,要對二維信息進行進一步的處理。
模型庫提供具體物體模型的表示。知識庫不但要對物體進行抽象表示而且還要對抽象知識進行推理。人類經(jīng)驗的積累和知識的獲取是通過學習而得到的,所以加人模型庫、知識庫管理,并讓其從輸出結果中進行學習。這將使模型庫和知識庫更加豐富和完善。
視覺活動本身是帶有目的性的,所以在有些時候視覺系統(tǒng)的應用確實需要視物體的實際情況來決定,有時只需識別場景中存在的是什么物體或某物是否存在,而不要求定量恢復場景中的物體。因此,在計算機視覺系統(tǒng)中引人視覺目的來判斷輸出是否滿足要求。同時,用視覺目的對圖象分割和二維模式識別、中期視覺處理、后期視覺處理和三維模式識別加以控制。如果需要三維重建則由主動視覺控制成象來獲得景物更完整的信息。
計算機視覺系統(tǒng)框架是支持計算機視覺系統(tǒng)實現(xiàn)的重要基礎,所以在計算機視覺系統(tǒng)的研發(fā)、設計工作中,對理論框架的研究具有鮮明的現(xiàn)實意義,本文簡單介紹了現(xiàn)有框架思想,并分析了其各自的優(yōu)缺點,最后再這些理論框架的基礎上形成了計算機視覺系統(tǒng)框架的新構思。認為計算機視覺系統(tǒng)構架應該以計算機理論為基礎,以視覺活動的主觀性和目的性為指導,以具體的視覺實現(xiàn)形式為方法。
【參考文獻】
篇2
以下為報告詳細內(nèi)容:
2017年計算機視覺技術在更多的領域有所落地應用,自動駕駛領域、高考、政務等領域更多的場景開始應用計算機視覺技術。艾媒咨詢分析師認為,計算機視覺行業(yè)技術是核心基礎,隨著技術成熟度提高,未來將有更多的場景能夠應用計算機視覺技術,計算機視覺企業(yè)應在強化技術打造的前提下,發(fā)掘更多新的應用領域,提高商業(yè)落地應用。
2017年人臉識別技術在智能手機終端應用開始普及。9月蘋果新品會上,iPhone X宣布引入Face ID高精度人臉識別技術,引來人們高度關注。而除了iPhone X,華為、小米、OPPO、vivo等手機廠商都推出了帶人臉識別功能的智能手機。艾媒咨詢分析師認為,計算機視覺領域內(nèi)人臉識別功能可應用場景廣泛,商業(yè)化落地能力強,除了計算機視覺創(chuàng)業(yè)企業(yè),互聯(lián)網(wǎng)巨頭和硬件巨頭企業(yè)也紛紛關注布局人臉識別領域。但目前人臉識別技術仍然存在一定缺陷,艾媒大數(shù)據(jù)輿情管控系統(tǒng)數(shù)據(jù)顯示,“手機人臉識別”熱詞言值數(shù)據(jù)為48.5,整體輿情偏負向。現(xiàn)階段人臉識別技術在智能手機終端上的應用仍處于起步發(fā)展階段,技術和安全性仍有待提高,未來隨著各計算機視覺企業(yè)加強技術研發(fā),人臉識別技術有望進一步改善,成為智能手機標配。
iiMedia Research(艾媒咨詢)數(shù)據(jù)顯示,2017年中國計算機視覺市場規(guī)模為68億元,預計2020年市場規(guī)模達到780億元,年均復合增長率達125.5%。艾媒咨詢分析師認為,人們安全和效率需求不斷提升,計算機視覺技術在各行業(yè)應用能有效滿足人們需求,市場發(fā)展空間巨大。國家政策對人工智能行業(yè)的支持也為計算機視覺的發(fā)展提供了有利的環(huán)境。隨著計算機視覺技術日漸成熟,企業(yè)商業(yè)化落地能力不斷提高,未來計算機視覺市場規(guī)模將迎來突破性發(fā)展。
iiMedia Research(艾媒咨詢)數(shù)據(jù)顯示,商湯科技以24.3%的企業(yè)知名度排名各計算機視覺企業(yè)首位,曠視科技與云從科技則分別以23.1%以及21.7%的知名度分列二三位。艾媒咨詢分析師認為,商湯科技計算機視覺技術及算法能力在行業(yè)內(nèi)較為出色,同時在安防、金融、商業(yè)、手機端等多個領域均有商業(yè)落地應用,在企業(yè)認知和品牌推廣方面具有優(yōu)勢。
iiMedia Research(艾媒咨詢)顯示,61.7%的受訪網(wǎng)民通過手機APP應用接觸計算機視覺應用,另外有50.9%的受訪網(wǎng)民接觸途徑為通過智能手機終端。艾媒咨詢分析師認為,計算機視覺企業(yè)主要服務B端用戶及政府機構,相比于其他途徑,移動端更適合應用計算機視覺技術的產(chǎn)品推廣。計算機視覺技術日趨成熟,在移動終端和APP上均有落地應用,也進一步為計算機視覺企業(yè)在大眾中奠定基礎。未來企業(yè)可通過線上渠道開發(fā)挖掘C端用戶市場。
iiMedia Research(艾媒咨詢)顯示,半數(shù)受訪網(wǎng)民認為智能手機及APP加入人臉識別技術功能方便了二者的使用,另有48.8%的受訪網(wǎng)民認為人臉識別技術在手機及APP上的應用是未來技術發(fā)展的趨勢。艾媒咨詢分析師認為,人臉識別技術在手機及APP端的應用滿足人們智能化和便捷化的需求,隨著越來越多的手機及APP產(chǎn)品加入人臉識別功能,未來其普及和認可程度將得到進一步提高。
iiMedia Research(艾媒咨詢)顯示,41.8%的受訪網(wǎng)民表示未來愿意使用人臉識別技術進行手機及APP解鎖,同時有41.4%的受訪網(wǎng)民雖持觀望態(tài)度,但愿意嘗試。此外,47.4%的受訪網(wǎng)民認為人臉識別將取代其他手機及APP解鎖技術成為未來主流。艾媒咨詢分析師認為,近期智能手機紛紛應用人臉識別技術解鎖推動該功能技術的普及,便捷性的優(yōu)勢使該功能技術前景受看好。但目前人臉識別解鎖技術的準確性仍然受到質(zhì)疑,隨著未來技術進一步成熟,該技術有望成為智能手機設備標配。
iiMedia Research(艾媒咨詢)顯示,33.9%的受訪網(wǎng)民曾使用過人證比對功能進行業(yè)務辦理。在使用過該功能的人群中,54.6%認為其方便了業(yè)務辦理,提供了效率,且有47.3%該部分人群認為其識別準確程度高。艾媒咨詢分析師認為,政府、銀行等機構業(yè)務辦理效率以往常遭詬病,人證識別技術的應用提高了辦事效率,在提高人們滿意度的同時,加強了計算機視覺技術的認可度。未來計算機視覺技術在政府、銀行等機構的落地應用將進一步擴展,但其中涉及到個人信息保護等問題需要企業(yè)及相關機構合力解決。
iiMedia Research(艾媒咨詢)顯示,34.1%的受訪網(wǎng)民認為公安辦案為最有必要應用人臉識別技術的安防情景。而關于網(wǎng)民對人臉識別技術在安防監(jiān)控領域應用看法調(diào)查中,56.1%的受訪網(wǎng)民認為其能有力保護人們?nèi)松碡敭a(chǎn)安全。艾媒咨詢分析師認為,計算機視覺技術,尤其是人臉識別技術在安防領域應用意義重大,在刑偵破案、身份認證、公共安全保護等情景具有重要應用價值。未來安防領域?qū)⒊蔀橛嬎銠C視覺技術重點應用領域,而安防的重要性也對相關企業(yè)技術實力有嚴格的要求,未來安防領域市場或由少數(shù)技術實力較強的企業(yè)占據(jù)。
商湯科技是專注計算機視覺與深度學習原創(chuàng)技術的人工智能創(chuàng)業(yè)企業(yè),擁有強大的技術能力和人才資源儲備支撐發(fā)展。商湯科技在計算機視覺領域綜合實力較強,獲資本方青睞,B輪融資4.1億美元,同時與國內(nèi)外知名企業(yè)展開合作。艾媒咨詢分析師認為,商湯科技在商業(yè)營收上同樣處于行業(yè)領先水平,但其本質(zhì)專注于技術發(fā)展,強大的技術基礎能較好支撐商湯科技在上層應用場景的擴展。商湯科技在技術驅(qū)動商業(yè)應用的同時,積累商業(yè)應用經(jīng)驗,提高企業(yè)知名度,拓展應用至更多領域。
艾媒咨詢分析師認為,商業(yè)化落地能力欠缺是目前計算機視覺行業(yè)大部分企業(yè)的痛點,商湯科技在商業(yè)落地應用方面處于行業(yè)領先位置。這一方面源于商湯科技技術能力往專業(yè)化發(fā)展,以專業(yè)技術和研發(fā)基礎實現(xiàn)場景差異化應用。另一方面,純計算機視覺技術或算法由于其專業(yè)性,需求方在使用時需要具備專業(yè)能力,而商湯科技技術產(chǎn)品往標準化方向打造,打包成行業(yè)解決方案,能適應更多企業(yè)使用需求,也有利于商湯科技技術進一步落地應用。未來堅持技術為基礎,繼續(xù)提高商業(yè)落地能力,商湯科技有望繼續(xù)保持良好發(fā)展態(tài)勢。
曠視科技成立于2011年,2017年10月完成巨額C輪融資,專注于人臉識別、圖像識別和深度學習技術自主研發(fā)和商業(yè)化落地,深耕于金融安全、城市安防、商業(yè)物聯(lián)、工業(yè)機器人等領域,同時打造人工智能開放云平臺。艾媒咨詢分析師認為,曠視科技利用云平臺為開發(fā)者提供技術支撐,有利于計算機視覺技術進一步結合產(chǎn)品運營,同時可以收集海量圖片數(shù)據(jù),通過進行深度學習,曠視科技圖像識別技術又能進一步得到提升,有利于其強化自身核心技術能力。
艾媒咨詢分析師認為,人臉識別技術對于金融行業(yè)業(yè)務辦理及風控等流程具有重要應用價值,曠視科技在人臉識別技術上的優(yōu)勢也助其有效開展金融領域的服務應用。未來隨著曠視科技利用云開放平臺相關圖片數(shù)據(jù)進行深度學習強化人臉識別技術,以及在金融領域積累的渠道資源,其有望在金融領域繼續(xù)強化技術服務,成為該領域市場有力的競爭者。
艾媒咨詢分析師認為,自動駕駛為人工智能和汽車行業(yè)未來發(fā)展方向,計算機視覺技術在自動駕駛汽車實現(xiàn)路況感知、高精度定位等方面發(fā)揮重要作用,自動駕駛為計算機視覺技術未來重要應用領域。圖森未來的計算機視覺技術和算法在自動駕駛領域?qū)崿F(xiàn)專業(yè)化發(fā)展,未來有望在此細分領域成長為領先企業(yè)。
2017-2018中國計算機視覺行業(yè)發(fā)展趨勢
需求驅(qū)使計算機視覺行業(yè)發(fā)展?jié)摿薮髴脠鼍巴卣節(jié)B透各行業(yè)
艾媒咨詢分析師認為,人們對生活安全以及生產(chǎn)效率追求兩大需求的提升,決定計算機視覺行業(yè)具有巨大發(fā)展空間。而計算機視覺技術場景應用具有廣泛性,有望發(fā)展成為下一個智能時代的標配。目前計算機視覺技術主要應用在B端領域,短期內(nèi)行業(yè)發(fā)展趨勢也是集中于B端領域。未來隨著技術成熟,計算機視覺有望拓展更多新的應用場景,實現(xiàn)場景落地,滲透至各行各業(yè),形成AI+,開拓更多C端業(yè)務。此外,計算機視覺技術可以跟其他技術,如AR、VR、無人駕駛等結合發(fā)展,創(chuàng)造新的應用領域。
技術應用由點及面行業(yè)解決方案及軟硬件結合成商業(yè)產(chǎn)品出路
對于計算機視覺技術使用者來說,由于技術的學習應用需要花費較多時間和精力,硬件產(chǎn)品及行業(yè)解決方案往往更受青睞。未來計算機視覺企業(yè)需要將軟硬件結合,如打造嵌入式芯片等。此外,計算機視覺企業(yè)應將技術應用由點及面,將技術應用發(fā)展成針對各行業(yè)的解決方案。未來市場將出現(xiàn)更多基于計算機視覺技術應用的行業(yè)解決方案和軟硬一體化產(chǎn)品,只有打造方便用戶使用的商業(yè)產(chǎn)品,才能有效適應其需求,幫助計算機視覺企業(yè)迅速占領行業(yè)市場,在市場競爭中取得領先優(yōu)勢。
計算機視覺行業(yè)發(fā)展對企業(yè)綜合實力要求高
艾媒咨詢分析師認為,計算機視覺行業(yè)巨大的發(fā)展前景決定其具有高成長性特點,未來將涌現(xiàn)更多人工智能領域優(yōu)秀企業(yè)。但行業(yè)發(fā)展同時伴隨高風險性,行業(yè)競爭需要比拼企業(yè)技術算法能力、資金能力、以及人才資源,同時考驗企業(yè)能否實現(xiàn)技術迅速落地,對企業(yè)綜合實力要求高,綜合實力不具備優(yōu)勢的企業(yè)在行業(yè)內(nèi)將難以生存。
篇3
關鍵詞:計算機視覺;案例推理;圖像處理;圖像描述
中圖分類號:TP391.41 文獻標識碼:A文章編號:1009-3044(2007)04-11102-03
1 引言
基于案例推理(case-base reasoning)是人工智能中正不斷發(fā)展的一項重要推理技術。基于案例推理與類比推理方法相似,案例推理將舊經(jīng)驗或教訓轉(zhuǎn)換為知識,出現(xiàn)新問題時,首先查找以前是否有相似的案例,并用相似案例解決新問題。如果沒遇到相似案例的,經(jīng)過推理后解決新問題的方法,又會成為新的案例或新經(jīng)驗,下一次再遇到相同問題時,就可以復用這些案例或經(jīng)驗。
這與人遇到問題時,首先會用經(jīng)驗思考解決問題的方式相似,這也是解決問題較好的方法。基于案例推理應用于工業(yè)產(chǎn)品檢測或故障診斷時具有以下特點:
CBR智能化程度較高。利用案例中隱含的難以規(guī)則化的知識,以輔助規(guī)則推理的不足,提高故障診斷系統(tǒng)的智能化程度。
CBR較好解決“知識獲取”的瓶頸。CBR知識表示以案例為基礎,案例的獲取比規(guī)則獲取要容易,大大簡化知識獲取的過。
CBR求解效率較高。是對過去的求解結果進行復用,而不是再次從頭開始推導,可以提高對新問題的求解效率。
CBR求解的質(zhì)量較高。CBR以過去求解成功或失敗的經(jīng)歷,可以指導當前求解時該怎樣走向成功或避開失敗。
CBR持續(xù)不斷的學習能力,使得它可以適應于將來問題的解決。
所以基于案例推理方法正不斷應用在產(chǎn)品質(zhì)量檢測和設備故障診斷方面,并取得較好的經(jīng)濟效益。為了產(chǎn)品檢測和設備故障診斷中,更為智能化,更容易實現(xiàn)現(xiàn)場檢測和診斷,計算機視覺技術起到很大的作用。
計算機視覺是研究用計算機來模擬人和生物的視覺系統(tǒng)功能的技術學科,使計算機具有感知周圍視覺世界的能力。通過計算機視覺,進行圖像的獲取預處理、圖像分割與特征抽取、識別與分類、三維信息理解、景物描述、圖像解釋,讓計算機具有對周圍世界的空間物體進行傳感、抽象、判斷的能力,從而達到識別、理解的目的。
計算機視覺隨著科學技術發(fā)展,特別計算機技術、通信技術、圖像采集技術、傳感器技術等,以及神經(jīng)網(wǎng)絡理論、模糊數(shù)學理論、小波的分析理論等計算機視覺理論的不斷發(fā)展和日趨成熟,使計算機視覺從上世紀60年代開始興起發(fā)展到現(xiàn)在,取得快速發(fā)展,已經(jīng)從簡單圖像質(zhì)量處理發(fā)展到圍繞著紋理分析、圖像編碼、圖像分割和濾波等研究。圖像的分析與處理,也由靜止轉(zhuǎn)向運動,由二維轉(zhuǎn)向三維,并主要著眼于對圖像的識別和理解上,也使計算機視覺的應用領域更為廣泛,為案例推理中運用計算機視覺打下基礎。
2 案例推理系統(tǒng)的主要關鍵技術
(1)案例的表示與組織
案例的表示與組織即是如何抽取案例的特征變量,并以一定的結構在計算機中組織存儲。如何將信息抽取出特征變量,選擇什么語言描述案例和選擇什么內(nèi)容存放在案例中,案例按什么組織結構存放在存儲器中,這關系到基于案例推理方法的效率,而且對于案例數(shù)量越來越多,結構十分復雜的案例庫,尤其重要。
(2)案例的索引與檢索
案例的索引與檢索即是為了查找最佳相似案例,如何建立案例索引和相似度算法,利用檢索信息從案例庫中檢索并選擇潛在可用相似案例。后面的工作能否發(fā)揮出應有的作用,很大程度上依賴于這一階段得到的案例質(zhì)量的高低,因此這一步非常關鍵。
(3)案例的復用和調(diào)整
案例的復用即是如何根據(jù)舊案例得出新解,涉及到找出案例與新問題之間的不同之處,案例中的哪些部分可以用于新問題,哪些部分不適合應用于新問題的解決。而復用還分案例的結果復用,案例的求解方法復用。
(4)案例的學習
案例的學習即是將新解添加到案例庫中,擴充案例庫的案例種類與數(shù)量,這過程也是知識獲取。此過程涉及選取哪些信息保留,以及如何把新案例有機集成到案例庫中,包括如何存儲,如何建立索引等等。
針對案例推理的關鍵技術,根據(jù)檢測和故障診斷系統(tǒng)的特點,計算機視覺主要解決如何將產(chǎn)品圖像輸入系統(tǒng),如何將產(chǎn)品圖像特征進行抽取和描述,如何區(qū)別產(chǎn)品不同之處。以便案例推理系統(tǒng)進行案例建模,確立案例的表示形成和案例相似度的計算。本文主要從計算機視覺如何運用在案例推理系統(tǒng)進行探討。
3 產(chǎn)品輸入系統(tǒng)
產(chǎn)品輸入系統(tǒng)在不同產(chǎn)品類型和生產(chǎn)環(huán)境可能有不同之處,主要應有傳感器單元和圖像采集單元。如圖1。
圖1 產(chǎn)品輸入系統(tǒng)結構
傳感器單元主要判斷是否有產(chǎn)品存在,是否需要進行圖像采集,是否繼續(xù)下一個產(chǎn)品圖像的采集。這簡單傳感器可使用光電開關,配合光源,當產(chǎn)品經(jīng)過時,產(chǎn)品遮擋住光源,使光電開關產(chǎn)生一個0值,而沒有產(chǎn)品經(jīng)過時,光電開關產(chǎn)生相反的1值,系統(tǒng)通過判斷光電開關的值,從而判斷是否有產(chǎn)品。
圖像采集單元簡單地說是將產(chǎn)品拍攝并形成數(shù)字化圖像,主要包括光源、反射鏡、CCD相機和圖像采集卡等組成。光源和反射鏡作用主要使圖像中的物體和背景之間有較大灰度。CCD相機主要是拍攝設備。圖像采集卡主要是將圖像數(shù)字化。通過傳感器判斷有產(chǎn)品后,光源發(fā)出的光均勻地照在被測件上,CCD相機拍攝,拍攝圖像經(jīng)過圖像采集卡數(shù)字化后輸入存儲設備。存儲設備即為計算機硬盤。存放原始圖像、數(shù)據(jù)、處理結果等。
這是案例推理系統(tǒng)的原始數(shù)據(jù),是圖像處理、圖像特征抽取描述的基礎。
4 圖像處理
在案例推理系統(tǒng)中,需要對案例的組織和案例建模,案例的組織即案例的表示,相對計算機而言,即圖像特征的抽取,即某圖像具有與其它圖像不同之處,用于區(qū)別其它圖像,具有唯一性。同時,又能完整地表示該圖像。所以案例的表示要體現(xiàn)案例的完整性、唯一性、操作容易性。
圖像中有顏色區(qū)別、又有物體大小之分以及圖像由不同的物體組成。如何表示圖像,或說圖像內(nèi)部包含表示的本質(zhì),即圖像的描述。根據(jù)圖像特點,確立圖像案例的表示,以圖像的像素、圖像的數(shù)字化外觀、圖像物體的數(shù)字組成等屬性。這需要對產(chǎn)品輸入的原始圖像進行處理。
在計算機視覺技術中,對原始圖像主要進行圖像增強、平滑、邊緣銳化、分割、特征抽取、圖像識別與理解等內(nèi)容。經(jīng)過這些處理后,輸出圖像的質(zhì)量得到相當程度的改善,既改善了圖像的視覺效果,又便于計算機對圖像進行分析、處理和識別。具體工作流程如圖2所示:
圖2 計算機視覺的任務與工作流程
圖像預處理是將產(chǎn)品的數(shù)字圖像輸入計算機后,首先要進行圖像的預處理,主要完成對圖像噪聲的消除以及零件的邊緣提取。預處理的步驟為:圖像二值化處理;圖像的平滑處理;圖像的邊緣提取。
圖像二值化處理主將灰度圖形二值化的關鍵是閾值的選取,由于物體與背景有明顯的灰度差,可以選取根據(jù)灰度直方圖中兩峰之間的谷值作為閾值來分割目標和背景。
圖像的平滑處理技術即圖像的去噪聲處理,主要是為了去除實際成像過程中因成像設備和環(huán)境所造成的圖像失真,提取有用信息。
圖像邊緣提取是為了將圖像中有意義的對象與其背景分開,并使之具有某種指定的數(shù)學或符號表達形式,使計算機能夠理解對象的具體含義,檢測出邊緣的圖像就可以進行特征提取和形狀分析了。可采用多種算法,如采用Sobel算子提取邊緣。
圖像預處理是為下一步的特征描述打基礎,預處理的好壞直接影響案例推理的結果和檢測診斷的效率。
特征提取是對圖像進行描述,是案例建模關鍵,案例建模是根據(jù)案例組織要求抽取圖像特征,是建立案例索引和檢索的關鍵。如果圖像沒有特征,就談不上進行檢索。圖像特征可通過圖像邊界、圖像分割、圖像的紋理等方法,確定圖像特征,包括是什么產(chǎn)品、產(chǎn)品形狀大小、產(chǎn)品顏色,產(chǎn)品有什么缺陷、產(chǎn)品缺陷在什么位置等特征,根據(jù)這些圖像特征進行描述,形成計算機中屬性值,并從數(shù)據(jù)庫查找相應信息資料,從而確定產(chǎn)品之間的關系,相似度,也就是案例推理的方向。
5 系統(tǒng)的檢索
根據(jù)案例推理原理和相應算法,建立案例推理系統(tǒng)模型,如圖3所示。
圖3 案例推理系統(tǒng)
對話系統(tǒng):完成人機交互、問題描述、結果顯示和系統(tǒng)總控制。
案例庫系統(tǒng):由案例庫及案例庫管理系統(tǒng)組成。
數(shù)據(jù)析取系統(tǒng):對各種已有的源數(shù)據(jù)庫的數(shù)據(jù)通過轉(zhuǎn)換而形成所需的數(shù)據(jù)。
多庫協(xié)同器:根據(jù)問題求解的需要,按照一定的數(shù)據(jù)抽取策略,完成問題求解過程中對模型庫系統(tǒng)、方法庫系統(tǒng)、知識庫系統(tǒng)和數(shù)據(jù)庫系統(tǒng)等資源的調(diào)度與協(xié)調(diào)。
知識庫系統(tǒng):由產(chǎn)生式規(guī)則組成,這些知識包括專家經(jīng)驗和以規(guī)則形式表示的有關知識,也可以是數(shù)據(jù)挖掘結論,支持案例檢索、案例分析、案例調(diào)整等。 模型庫系統(tǒng):由模型庫、算法庫、模型庫管理系統(tǒng)組成。完成模型識別和調(diào)用,并把結果綜合,送入對話系統(tǒng)顯示,作為補充信息供案例檢索、調(diào)整使用。
數(shù)據(jù)庫系統(tǒng):存放待決策支持的所有問題,并完成其維護與查詢等功能。
由于系統(tǒng)主要應用產(chǎn)品的現(xiàn)場實時檢測監(jiān)控或故障診斷,所以系統(tǒng)的檢索時,也必須輸入檢索值,即輸入現(xiàn)場產(chǎn)品的圖像,在通過產(chǎn)品預處理、圖像的二值化、分割和邊界處理后,進行圖像特征描述,根據(jù)圖像描述進行分類識別。根據(jù)案例推理的算法檢索案例庫中,是否有相似的案例。即確定相似度。相似度確定主要由案例推理的算法確定,如貼近分析法。確定相似度最大作為結果,并將案例的解輸出,給相關控制系統(tǒng)進行決策。如產(chǎn)品質(zhì)量檢測,確定產(chǎn)品質(zhì)量是否合格,是否有不合格產(chǎn)品,不合格產(chǎn)品是什么原因造成,故障源是什么,如何解決和排除故障,等等。
6 結論
案例推理方法有效地解決計算機視覺技術中圖像檢索問題。對提高圖像檢索的效率和準確度提供了平臺。
計算機視覺技術也為案例推理系統(tǒng)實現(xiàn)產(chǎn)品現(xiàn)場實時檢測、監(jiān)控、診斷提供技術支持。計算機視覺技術現(xiàn)場的數(shù)據(jù)采集、處理為案例推理打好基礎。
兩者的結合設計的系統(tǒng)適用范圍很廣,只要產(chǎn)品需要進行質(zhì)量檢測、監(jiān)控,或設備需要進行故障診斷和維護,都可以適用。
系統(tǒng)提供的實時檢測、監(jiān)控和診斷功能,提高企業(yè)的生產(chǎn)效益,降低了生產(chǎn)成本。
參考文獻:
[1](美)桑肯(Sonka,M).圖像處理分析與機器視覺[M].人民郵電出版社.
[2]王宏等譯.計算機視覺[M].電子工業(yè)出版社.
[3]蔡建榮.自然場景下成熟水果的計算機視覺識別[J].農(nóng)業(yè)機械,36(2):61-64.
[4]王宇輝.基于計算機視覺的錐體零件尺寸在線檢測算法[J].重型機械,2005,2:4-6
[5]駱志堅.基于計算機視覺檢測技術自動計數(shù)系統(tǒng)的研究與應用[J].儀表技術與傳感器,2005,3:41-43.
[6]左小德.貼近度分析法在案例庫推理中的應用[J],南大學學報(自然科學版),1997,18(1):21-26.
[7]姜麗紅.案例推理在智能化預測支持系統(tǒng)中的應用研究[J].決策與決策支持系統(tǒng),1996,6(4):63-69.
篇4
關鍵詞:計算機視覺技術;C# ;;作物無損檢測;軟件設計
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)15-3640-03
數(shù)字農(nóng)業(yè)和農(nóng)業(yè)物聯(lián)網(wǎng)技術作為現(xiàn)代農(nóng)業(yè)最前沿的發(fā)展領域之一,是當今世界發(fā)展農(nóng)業(yè)信息化,實現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展的關鍵和核心技術。數(shù)字農(nóng)業(yè)要求快速、實時、準確和定位化的獲取植物生長信息,而農(nóng)業(yè)物聯(lián)網(wǎng)技術要求植物信息可實時動態(tài)感知,顯然,傳統(tǒng)的實驗室測量分析和信息獲取方法已經(jīng)不能滿足數(shù)字農(nóng)業(yè)和農(nóng)業(yè)物聯(lián)網(wǎng)技術的發(fā)展要求。因此,研究和開發(fā)植物生命信息快速無損檢測技術和傳感儀器等軟硬件平臺已經(jīng)成為現(xiàn)代農(nóng)業(yè)承待解決的關鍵問題[1]。
目前,國內(nèi)在作物無損檢測方面的研究儀器主要是依賴進口,而相應的軟件也是伴隨著儀器而購買。此類軟件,一般價格昂貴,而且在自主研究平臺中,因為無法取得源代碼而無法使用或升級,從而出現(xiàn)研究瓶頸。在各類無損化檢測技術中,隨著計算機視覺技術越來越廣泛的應用,對應的軟件系統(tǒng)的開發(fā)迫在眉睫[2]。
正是基于這樣的背景,我們通過對目前應用比較廣泛的C#進行研究,利用C#強大的數(shù)據(jù)處理能力和良好的用戶界面開發(fā),并結合強大的圖像處理能力,進行作物實時檢測軟件平臺的自主設計與開發(fā)。
1 計算機視覺技術簡介
計算機視覺也稱機器視覺,是采用攝像機或者數(shù)碼相機將被檢測圖像轉(zhuǎn)化為數(shù)字信號,再采用先進的計算機軟件技術對圖像信號進行處理,從而得到所需要的各種目標圖像特征值。并由此實現(xiàn)模式識別,坐標計算等功能。然后再根據(jù)其結果輸出數(shù)據(jù),發(fā)出指令,再配合執(zhí)行機構完成好壞篩選,位置調(diào)整,數(shù)據(jù)統(tǒng)計等自動化流程。與人工視覺相比較,計算機視覺的最大的優(yōu)點是快速、精確、可靠,以及數(shù)字化。
隨著數(shù)字農(nóng)業(yè)和農(nóng)業(yè)物聯(lián)網(wǎng)技術的發(fā)展,計算機視覺技術將越來越廣泛的應用于農(nóng)業(yè)生產(chǎn)中,而構成計算機視覺系統(tǒng)的軟件系統(tǒng)是整個計算機視覺系統(tǒng)的靈魂。隨著硬件技術的不斷發(fā)展完善,計算機視覺系統(tǒng)其功能是否強大,可以說完全取決于軟件系統(tǒng)的能力。
2 軟件系統(tǒng)設計
2.1 C#與
C#是由微軟公司開發(fā)的一種面向?qū)ο蟮男滦途幊陶Z言,它是從C和C++ 中派生出來的,保留了C/C++原有的強大功能,并且繼承了C/C++的靈活性。同時由于是MicroSoft公司的產(chǎn)品,它又同Visual Basic一樣具有簡單的語法結構和高效的開發(fā)能力,可以使程序員快速的編寫出基于.NET平臺的應用程序。
一個基于C#框架,專門為C#開發(fā)者和研究者設計和開發(fā)的,這個框架提供了豐富的類庫資源,包括圖像處理,神經(jīng)網(wǎng)絡,模糊系統(tǒng),遺傳算法,人工智能和機器人控制等領域。該框架架構合理,易于擴展,涉及多個較前沿的技術模塊,為相關開發(fā)人員或科研人員的工作提供了極大的便利。本系統(tǒng)就是采用C#程序設計語言,通過調(diào)用該框架來實現(xiàn)作物無損檢查系統(tǒng)的開發(fā)。
2.2 系統(tǒng)設計與實現(xiàn)
本軟件系統(tǒng)是在數(shù)碼相機拍攝的作物圖像的基礎上,采用圖像處理方法進行特征提取與分析,從而實現(xiàn)作物的無損檢測。主要分為圖像輸入,圖像預處理,特征提取,特征分析幾個模塊。
1) 圖像輸入
將要分析處理的圖像讀取到系統(tǒng)中來,為后面圖像處理作準備。C#提供了三個最重要的圖像處理類,即Bitmap類、BitmapData類和Graphics類。三種圖像處理的方法,即提取像素法、內(nèi)存法和指針法。從執(zhí)行效率和實現(xiàn)難度綜合考慮,本系統(tǒng)的開發(fā)采用內(nèi)存法。
2) 圖像預處理
圖像預處理主要包括圖像的大小調(diào)整,形態(tài)矯正,平滑和去噪等,以降低環(huán)境對拍攝照片造成的不利影響。提供了多個類,可以對圖像進行平滑去噪等操作,本系統(tǒng)中采用了中值濾波算方法,對應中的Median類。
3) 特征提取
特征提取分析,是整個系統(tǒng)的核心所在,需要選取合適的圖像分割算法,對圖像進行處理,提取目標區(qū)域,為特征分析作準備。在本系統(tǒng)中采用了閾值分割技術,因為這種算法相對來說比較直接并且易于實現(xiàn)。
采用閾值分割技術,首先,必需確定一個閾值作為圖像分割的閾值,在本系統(tǒng)中,采用自適應閾值法,由用戶在軟件的操作過程中進行設定,并且可以根據(jù)需要進行調(diào)整。然后,根據(jù)這個閾值對圖像進行分割,并將其轉(zhuǎn)化為二值圖,如圖(b)所示。從圖中我們可以看到二值圖像中存在大量的小孔,這種太小的孔洞對我們進行圖像分析沒有實際意義,并且會干擾結果的正確性,因此我們需要采用腐蝕和膨脹的形態(tài)學方法來進行填充孔洞,結果如圖(C)所示。最后,我們需要根據(jù)需要提取目標區(qū),涉及到連通區(qū)域的提取問題。最后,輸出結果。
4) 特征分析
對圖像分割結果進行分析,用于指導生產(chǎn)實踐。我們可以對通過圖像處理得到的目標區(qū)域進行分析,比如可以根據(jù)葉片顏色的變化判斷葉綠素含量,進而推算出作物的營養(yǎng)狀況,根據(jù)色素區(qū)域的大小計算出葉面積,根據(jù)不同區(qū)域的形狀、大小判斷病蟲害等。
3 實驗結果及分析
軟件運行后主界面如圖3所示。
為驗證本系統(tǒng)的有效性,我們通過設定不同的閾值進行圖像分割,并跟photoshop cs4軟件中魔棒的工具作對比,來提取圖片中的目標區(qū)域。測試圖片大小為800px×610px,取特征點坐標P(310,70),該點的RGB值為(29,92,0),獲取目標區(qū)域的總像素和綠色分量平均值,數(shù)據(jù)如表1所示。
從上述表中我們可以看出,本軟件在圖像處理目標區(qū)域的提取方面,提取到的目標區(qū)域較photoshop 提取的小,綠色分量平均值較photoshop更接近特征點數(shù)值,由此看出用本軟件做圖像分割準確性更高。
4 結束語與展望
計算機視覺具有非破壞性、快速、高效、信息量大等特點,目前已在主要的農(nóng)作物和經(jīng)濟作物的養(yǎng)分診斷,植物病蟲害的快速檢測及預警預報等方面有了廣泛應用,取得了較好的效果。隨著計算機視覺技術和圖像處理技術的發(fā)展,計算機視覺技術將更多的應用于植物長勢預測、產(chǎn)量估計等方面。
通過本次研究,開發(fā)了一個交互界面良好的色素分量檢測系統(tǒng),能對圖像在RGB分量上實現(xiàn)閾值分割,并實現(xiàn)目標區(qū)域的獲取分析。該文主要提倡一種軟件開發(fā)的理念,所設計開發(fā)的軟件的針對性較強,還存在著很多的局限和不足,要作為計算機視覺類的通用軟件,系統(tǒng)的穩(wěn)定性和功能都還有待進一步提升。
參考文獻:
[1] 劉飛.基于光譜和多光譜成像技術的油菜生命信息快速無損檢查機理和方法研究[D].浙江:浙江大學博士學位論文,2011.
[2] 朱哲燕,陳紅.基于MATLAB的作物信息光譜分析平臺的設計與開發(fā)[J].科技資訊,2012(16).
[3] 蔣麗華.基于計算機視覺技術的葉綠素含量檢測系統(tǒng)[D].蘇州:蘇州大學碩士學位論文,2009.
[4] 趙春江.C#數(shù)字圖像處理算法典型實例[M].北京:人民郵電出版社,2009.
[5] 何勇,劉飛,聶鵬程. 數(shù)字農(nóng)業(yè)與農(nóng)業(yè)物聯(lián)網(wǎng)技術[J].農(nóng)機論壇,2012(1).
[6] 張起麗.基于數(shù)學形態(tài)學的彩色圖像處理研究[D].西安:西北大學碩士學位論文,2009
[7] 冀高.基于數(shù)字圖像處理的棉花群體特征提取[D].北京:北京郵電大學碩士學位論文,2007.
篇5
在用常見的手勢進行交流時,人們很容易就能互相理解,在經(jīng)過學習之后,聾啞人或是正常人都可以運用手語進行交流。不過,想象一下,當你對計算機(或機器)做一個手勢,它就能領會你的意圖會是怎樣的情景呢?如果計算機(或機器)看得懂手語,又意味著什么呢?姑且不管實現(xiàn)這樣的人機交流有何深遠的意義,還是先讓我們來探究一下這樣的可行性吧,想想看得懂手語的計算機(或機器)能有什么用途。
人機交互:從呆板到員活
人類之間的交流往往聲情并茂,既采用自然語言(口語、書面語言),還廣泛采用人體語言(表情、體勢、手勢)。與人類之間的交流相比,人機交互就顯得呆板多了。以計算機的輸入方式為例,人要向計算機下達指令,最常見的方式還是通過鍵盤輸入。當然,手寫輸入也正為許多人所接受和喜愛,語音輸入的研究也進行得熱火朝天,最初單一而呆板的輸入方式已經(jīng)得到了擴展。然而,科學研究是永無止境的,人體語言這種簡單快捷的信息交流方式得到了很多研究者的關注,他們想,能不能把這種靈活的信息交流方式也引進人機交互中呢?
于是研究人員展開了對人體語言理解的研究。人體語言的感知、人體語言與自然語言的信息融合對提高計算機的人類語言理解水平,加強人機接口的可實用性有著積極的意義。手語(手勢)是人體語言的一個非常重要的組成部分,它是包含信息量最多的一種人體語言,它與語言、書面語等自然語言的表達能力相同。因而完全可以把手語作為人機交互的一種手段,它具有很強的視覺效果,生動、形象、直觀。可見,將手勢運用于計算機能夠很好地改善人機交互的效率。
計算機怎樣識別手勢?
從不同的角度可以對手勢進行不同的分類。分為交互性手勢和操作性手勢,前者手的運動表示特定的信息(如樂隊指揮),靠視覺來感知,后者不表達任何信息(如彈琴);分為自主性手勢和非自主性手勢,后者需要與語音配合用來加強或補充某些信息(如演講者用手勢描述動作、空間結構等信息),分為離心手勢和向心手勢,前者直接針對說話人,有明確的交流意圖,后者只是反應說話人的情緒和內(nèi)心的愿望。
手勢的各種組合、運動相當復雜,不過簡單來看,手勢主要有如下的特點:手是彈性物體,因此同一手勢之間差別很大,手有大量冗余信息,由于人識別手勢關鍵是識別手指特征,因此手掌特征是冗余的信息:手的位置是在三維空間,很難定位:手的表面是,非平滑的,容易產(chǎn)生陰影。
了解了手勢的這些特點,就可以在手勢研究中對手勢做適當?shù)姆指睢⒓僭O和約束。例如,可以給出如下約束:如果整個手處于運動狀態(tài),那么手指的運動和狀態(tài)就不重要,如果手勢主要由各手指之間的相對運動構成,那么手就應該處于靜止狀態(tài)。比如鼠標和筆式交互設備就是通過識別手的整體運動來完成人與計算機的交互,但它們不能識別手指的動作,其優(yōu)點是僅利用軟件算法就能實現(xiàn),適合于一般桌面系統(tǒng)。只有當用鼠標或筆式交互設備的運動或方向變化來傳達信息時,才可將鼠標或筆式交互設備看作手勢表達工具。筆式交互設備發(fā)展很快,它提供了充分的交互信息,如壓力、方向、旋轉(zhuǎn)和位置信息,但現(xiàn)有交互主要是簡單地替代鼠標。
計算機識別手勢的手段主要有兩種:
1.數(shù)據(jù)手套。數(shù)據(jù)手套是虛擬現(xiàn)實系統(tǒng)中廣泛使用的傳感設備,用戶通過數(shù)據(jù)手套,能做出各種手勢向系統(tǒng)發(fā)出命令,與虛擬世界進行各種交互操作:比如通過一只與數(shù)據(jù)手套對應的在計算機屏幕上顯示的虛擬手,使用戶成為虛擬世界中的一員:抓取物體,如果手套有力反饋,還能讓用戶感覺到物體的重量和材質(zhì)等。美國在“洞穴”虛擬系統(tǒng)中就是利用數(shù)據(jù)手套來研制武器。數(shù)據(jù)手套的主要優(yōu)點是可以測定手指的姿勢和手勢,但是相對而言代價較為昂貴,并且有時會給用戶帶來不便(如出汗)。
2.計算機視覺。即利用攝像機輸人手勢,其優(yōu)點是不干擾用戶,這是一種很有前途的技術,目前有許多研究者致力于此項工作。但在技術上存在很多困難,目前的計算機視覺技術還難以勝任手勢識別和理解的任務。
目前較為實用的手勢識別是基于數(shù)據(jù)手套的,因為數(shù)據(jù)手套不僅可以輸入包括三維空間運動在內(nèi)的較為全面的手勢信息,而且比基于計算機視覺的手勢在技術上要容易得多。
更好地為人服務
日本三菱電子研究實驗室的研究人員已經(jīng)使用低成本的視覺系統(tǒng),通過手勢就可以控制一臺電視機。由計算機控制的美國航空航天局虛擬太空站也是采用美國Cybernet公司開發(fā)的手語識別軟件,通過一部架設在頂部的攝像機來追蹤指揮者的手勢。當系統(tǒng)捕捉到揮手等手勢時,就會做出相應的反應,讓指揮者像航天員一樣在計算機虛擬的阿爾法國際太空站上移動(確切地說是飄動)。
Cybemet公司的軟件還能識別一系列的特定手勢,就像工地上的工人或交通警察經(jīng)常用的那種手語,通過這些手勢你能夠旋轉(zhuǎn)在虛擬旅行中看到的三維圖像,還可以向上或是向下改變你的視角。美國航空航天局正在考慮把這套系統(tǒng)用于真正的太空站,因為笨重的航天服和微重力環(huán)境使得鼠標和鍵盤都變得難以操縱。也許不久之后,航天員就能用簡單的手語來控制機器人在太空中抓取物體。
手語(手勢)識別系統(tǒng)的研究還有助于改善和提高聾啞人的生活學習和工作條件,為他們提供更好的服務。同時也可以應用于計算機輔助啞語教學、電視節(jié)目雙語播放、虛擬人的研究、電影制作中的特技處理、動畫的制作、醫(yī)療研究、游戲娛樂等諸多方面。另外,手語識別系統(tǒng)的研究涉及到教學、計算機圖形學、機器人運動學、醫(yī)學等多學科。因此,手語識別系統(tǒng)的研究非常有意義。
篇6
鼠標、鍵盤、遙控器和觸摸屏,主導著當前人類與電子產(chǎn)品溝通的界面,無論電腦、電視、冰箱還是手機,都因為它們的存在而顯得更加弱智與呆板。也許不久之后,我們就可以拋開它們,更加直接地與機器對話,不是用語言,而是用動作。
3月中旬,海爾展示了一款具備智能化手勢識別能力的空調(diào)。“舉起手,你就擁有了控制權。如果你想開機,就快速握拳并松開;想調(diào)節(jié)溫度,每向左揮一下手,空調(diào)設置溫度就降低一度;每向右揮一下手,空調(diào)設置溫度就升高一度……”海爾工作人員如此介紹。其實現(xiàn)原理是通過配備的攝像頭獲取、識別用戶的動作,并轉(zhuǎn)換成控制信息發(fā)送給空調(diào)的控制板,從而實現(xiàn)控制功能。
這實際上是一種相對初級,但已經(jīng)完全可以實現(xiàn)商業(yè)化的手勢控制技術,更高級的技術還在不斷推出之中,從微軟到英特爾,從美國德州儀器到日本索尼、富士通,都是其中熱情的推動者。誰知道呢?也許在不久的將來,我們就可以通過自己在電視機前的動作,直接參與到正在熒屏上播放的電視劇表演當中。
從游戲機到手機
手勢控制,有時也被稱為體感操控,提到這一技術,人們往往會首先想到微軟在其Xbox上采用的Kinect技術。該技術在2010年6月推出,借助一個3D攝像頭和手勢識別軟件,讓人們利用身體的自然活動玩游戲,從而取代原始的搖柄。就在今年3月中旬,微軟宣布,為Windows版Kinect SDK開發(fā)套件進行了兩年多來最大的一次更新,主要針對“KinectInterations”手勢識別和“Kinect Fusion”實時3D建模兩個方面。據(jù)了解,本次重點推出的手勢識別功能將包括“推按按鈕、抓取拖拽,并且支持以更為智能的方式容納多用戶及2人互動”。而微軟希望通過開發(fā)套件的更新,吸引開發(fā)者創(chuàng)造出更多好玩的東西。
其實不只是游戲機,手勢控制可以改變很多產(chǎn)品。通信和IT圈對新的接口尤其感興趣。
就在微軟推出了它的體感技術Kinect的那一年,比利時公司In3Depth獲得了來自比利時電信和一家風險投資公司的一筆800萬歐元的投資,用于開發(fā)應用于通信產(chǎn)品的手勢技術。In3Depth旗下有一家子公司――Optrima,致力于研究手勢感應3D相機技術,其中一個產(chǎn)品OptriCam,是基于深度感應技術(DepthSense)的圖像傳感器,以及應用了其他一系列專利技術的三維TOF成像器。
比利時還有一家開發(fā)手勢識別技術的公司Softkinetic,其CEO邁克爾?湯姆布羅夫認為,他們的產(chǎn)品可能將是一種“瓦解智能手機觸摸屏的玩意兒”。
就在一個多月前,黑莓公司申請了一項最新專利,其申請文件顯示,該公司擬通過紅外線技術捕捉手勢動作,在手指不接觸設備屏幕的情況下,完成對圖片的選擇及編輯。黑莓將此項專利描述為“一種移動通信設備,包括數(shù)碼相機和移動電話的子系統(tǒng)。”如果近況不佳的黑莓公司能夠堅持到2014年,它的新產(chǎn)品中就將有這種功能。
而高通公司從去年就開始大力推銷其Snapdragon芯片處理器的視覺手勢識別技術。韓國做智能手機代工的泛泰公司已經(jīng)在去年開始銷售其具備這一功能的VegaLTE手機。
市場研究機構ABIResearch公布的一項最新研究預測,到2017年,具有視覺手勢識別功能的智能手機出貨量將達6億部。
爭先恐后
目前看來,幾乎所有的電子電器巨頭都對手勢控制投入了巨大力量進行研發(fā),未來可能出現(xiàn)的產(chǎn)品也是五花八門。
在今年1月的2013年國際消費電子產(chǎn)品展(CES)上,德州儀器(TI)展示了其與Softkinetic合作推出的芯片組。TI 芯片組內(nèi)置在 3D 攝像機中,可跟蹤手指、手掌甚至全身的動作,只需揮手就可控制筆記本電腦及智能電視,從而對電影、游戲以及其他內(nèi)容進行訪問和導航。此外,采用了TI芯片的電視機,也可以將來自用戶界面的高清圖像納入電視影像當中。
今年2月,英特爾也與Softkinetic合作推出了一項新的廣告技術,能夠針對不同用戶展示廣告,通過全視角監(jiān)視器與用戶建立連接后,就能立刻判斷用戶性別與大致年齡,進而提供個性化信息。例如:用戶為20歲左右的年輕女性,設備就會顯示附近的商場和服飾商店;而用戶為60歲左右老年男性時,設備則會顯示附近的雪茄店等。英特爾公司將會利用這一技術制造出一種小型設備,這樣消費者就可以將其安裝到任何一款設備中進行使用。英特爾預計這一產(chǎn)品將會在今年下半年問世,并且還會捆綁到現(xiàn)有的SDK中。
與此同時,英特爾公司還聯(lián)合Nuance等多家公司推出了全新的計算機語音、手勢以及面部識別方式。在英特爾的一次公開展示中,可以看到使用者能夠隔空操控著屏幕中的管子,英特爾將這一技術稱之為“感知計算”。
在今年2月的MWC2013(世界移動通信大會)上,富士通公司還向人們展示了另一種更具未來色彩的虛擬鍵盤技術――手勢鍵盤。通過隔空進行的手勢操作,就能完成電腦輸入。目前,富士通已經(jīng)計劃在未來自家的平板或手機產(chǎn)品中內(nèi)置這種輸入技術。相對于激光投影鍵盤,手勢鍵盤擁有更低的硬件開發(fā)成本,以及更長的續(xù)航時間。
計算機視覺
無論名稱是叫“手勢控制”、“體感操作”,還是叫“感知計算”,其實都是脫胎于同一項技術的發(fā)展成果―計算機視覺。
作為一門工程學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。這類系統(tǒng)的組成部分包括:程序控制、事件監(jiān)測、信息組織、物體與環(huán)境建模、交感互動等。為實現(xiàn)這一技術,人們需要用軟件和硬件為三維空間內(nèi)的生物行動與計算機處理能力之間建立聯(lián)系。
這種聯(lián)系一般是通過多個光學或紅外傳感器來完成的,3D傳感器可以感應空間三個軸向上的加速度變化,捕捉空間坐標,實現(xiàn)精確瞄準功能。以英特爾的產(chǎn)品為例,在展示中,使用一個USB接口的雙攝像頭設備,鏡頭進行面孔識別、麥克風用來進行聲音控制,另外這個設備還可以識別三維空間的手勢,進行更精細準確的控制和互動。
有時候,利用這樣的攝像頭,人物的背景也可以“摳掉”,可以被虛擬場景所取代。在MWC2013展會上,意法愛立信就展示了這樣一種手機芯片,將裝有該芯片的手機攝像頭對著一個古城模型,然后就可在手機上以古城為背景玩起3D游戲,比如在古城里面玩賽車,或是開直升機等。
新的衍生
沿著與計算機視覺的3D感知相反的思維軌跡,許多機構也在研究著3D重現(xiàn)――即全息電視――的技術實現(xiàn)方法,并取得了一定的成果。
一個總部位于比利時魯汶的微電子研究中心內(nèi),科學家們就在研究如何制造移動的像素。他們將激光照射到微電子機械系統(tǒng)平臺上,建立起全息顯示器,這種平臺可以像小型的反射活塞一樣上下左右移動,從而實現(xiàn)移動像素的效果。微電子研究中心的科學家聲稱:“全息視覺可以為眾多觀眾提供自然的3D體驗,而不會有如今的3D立體視覺所帶來的各種令人不快的副作用,如麻煩的3D眼鏡、眼睛疲勞和精神緊張等。”
在這套微系統(tǒng)中,二氧化硅呈一塊塊正方形的補丁鑲嵌于芯片上,形成了一種西洋跳棋盤式的圖案。然后,芯片上層再鍍上一層反射性鋁膜。當激光照射到芯片上時,芯片會將臨近像素的反射光呈某種角度反射出去。衍射的光線呈建設性或破壞性地相互干涉,從而形成了一幅3D圖像。如果小型的反射平臺每秒鐘數(shù)次上下左右快速移動,就會形成一個移動的投影。
而麻省理工的羅伯特?王(Robert Wang)和其教授則在2011年展示過另一個成果,通過一個彩色手套配上一個攝像頭,不僅能夠?qū)崿F(xiàn)2D操作,還能夠?qū)崿F(xiàn)復雜的3D建筑模型構造。
也許在不久的將來,能夠讓我們參與其中的全息立體電視就會出現(xiàn)在現(xiàn)實生活中。
商業(yè)化挑戰(zhàn)
然而,盡管研究成果頗豐,計算機視覺方面的許多研究成果在實際商用中還有著巨大的難題。以手勢控制為例,盡管其初步形態(tài)已經(jīng)正式商用將近三年了,但除了在游戲領域外,在其他領域鮮有成功產(chǎn)品。人機互動的復雜性是其主要瓶頸。
首先,無論何種方式實現(xiàn)動作捕捉,都離不開三維傳感器,傳感器若缺乏實時跟蹤技術,就會靈敏度不佳,導致反應遲緩;另外在不利的光線條件下,該技術能夠?qū)崿F(xiàn)的效果受限,體積和高功耗問題也使其很難作用到手機等便攜設備中。
其次,鼠標鍵盤等的操作也有其優(yōu)勢,有游戲用戶就曾向微軟反饋:“當我用鼠標玩一個游戲,比如《死亡空間》或者《極品飛車》,經(jīng)常不知不覺就會玩上三四個小時。但是體感游戲,我恐怕堅持不了那么長時間。”這就導致許多用戶并不愿意放棄鼠標鍵盤。
篇7
關鍵詞:計算機視覺;移動機器人;路徑識別;自主導航
中圖分類號:TP24262文獻標識碼:B
文章編號:1004-373X(2008)08-165-03オ
Navigation of Mobile Robot Based on Computer Vision
ZHAO Yu,ZHONG Lanxiang,ZHANG Wanxu
(Information Science & Technology College,Northwest University,Xi′an,710069,China)オ
Abstract:Mobile robot navigation using path following has several weaknesses such as weak flexibility,high cost of maintenance and single function.Considering those disadvantages computer vision is proposed in mobile robot navigation using path recognition.First,the image obtained by vision sensor is processed in order to get the useful target,then the robot can comprehend the current path environment,second,the robot is controlled by the different movement module of straight or turning according to the results in the first step.The experimental results demonstrated the effective and robustness of the system.
Keywords:computer vision;mobile robot;path recognition;autonomous navigation
現(xiàn)代機器人技術在人工智能、計算機技術和傳感器技術的推動下獲得了飛速發(fā)展,其中移動機器人因具有可移動性和自治能力,能適應環(huán)境變化被廣泛用于物流、探測、服務等領域[14]。移動機器人的核心技術之一是導航技術,特別是自主導航技術。由于環(huán)境的動態(tài)變化和不可預測性、機器人感知手段的不完備等原因,使得移動機器人的導航難度較大,一直是人們研究的重點[5]。
目前常用的一種導航方式是“跟隨路徑導引”[6],即機器人通過對能感知到某些外部的連續(xù)路徑參考信息做出相應的反應來導航。如在機器人運動路徑上敷設金屬導線或磁釘,通過檢測金屬導線或磁釘?shù)奶卣餍畔泶_定機器人的位置。從導航的角度看,這種方法的優(yōu)點是可靠性較高,但功能單一,如不能在行進的同時對目標進行識別、避障,對環(huán)境的適應能力較弱、靈活性較差、維護成本較高,因此限制了其在移動機器人中的應用。
隨著計算機技術、數(shù)字圖像處理技術及圖像處理硬件的發(fā)展,基于計算機視覺的導航方式在機器人導航中得到廣泛關注[68]。在實際應用中,只需要在路面上畫出路徑引導線,如同在公共交通道路上畫的引導線一樣,機器人就可以通過視覺進行自主導航。相對于敷設金屬導線、磁釘?shù)确椒ǎ@種方法增強了系統(tǒng)的靈活性,降低了維護成本。視覺信息中包含有大量的數(shù)據(jù),要從中提取有用的信息,需要復雜的算法及耗時的計算。如何保證視覺導航系統(tǒng)在正確理解路徑信息的前提下仍具有較好的實時性和魯棒性,是該方法要解決的核心問題。
1 視覺導航系統(tǒng)構成及工作過程
基于計算機視覺的移動機器人導航實驗系統(tǒng)的硬件部分由計算機、USB接口的攝像頭、LEGO實驗用機器人組成。軟件分為2部分,即圖像處理和機器人運動控制。基于視覺導航的原始輸入圖像是連續(xù)的數(shù)字視頻圖像。系統(tǒng)工作時,圖像預處理模塊首先對原始的輸入圖像進行縮小、邊緣檢測、二值化等預處理。其次利用哈夫變換提取出對機器人有用的路徑信息。最后,運動控制模塊根據(jù)識別的路徑信息,調(diào)用直行或轉(zhuǎn)彎功能模塊使機器人做相應的移動。整個工作流程如圖1所示。
1.1 視覺導航的圖像預處理
目前圖像采集設備都具有較高的空間和灰度分辨率,精度高、數(shù)據(jù)量大。
實驗中的原始輸入圖像是USB攝像頭采集320×240像素的RGB格式圖像,最大幀數(shù)30幀/s。
圖像預處理的效果對后續(xù)哈夫變換檢測路徑信息的速度和準確性有很大影響。對整幅圖像進行抽取時計算量過大、也無必要,故先將彩色圖像轉(zhuǎn)換為灰度圖像,再將圖像的大小依據(jù)最近鄰域插值法原理[9]進行縮小以節(jié)約后續(xù)計算時間。在實驗室環(huán)境下,經(jīng)測試,將原始圖像縮小到30%仍然能滿足需要,處理時間縮短了72%。
圖1 視覺導航系統(tǒng)工作流程
由于圖像傳感器從時間和空間上對介質(zhì)(光)采樣,其圖像質(zhì)量對現(xiàn)場的非均勻光場和其他干擾因素非常敏感,二值化時,不同光照條件下閾值的確定是一件比較困難的工作。目前常用的閾值選取方法有雙峰法、迭代法和 最大類間方差法[10]。從執(zhí)行時間和處理效果2方面考慮,對3種方法比較后(結果如表1所示),在優(yōu)先考慮實時性的前提下,選用雙峰法來求取閾值。在實驗室條件下,路徑環(huán)境相對理想,黑色引導線與背景反差較大。在灰度直方圖上,引導線和背景都形成高峰,對這2個峰值及谷底的求取也可簡化,使用灰度級的最大值和最小值代替2個峰值,那么這2個峰值的中間值即可作為谷底用作圖像的閾值。
ケ1 三種閾值選取方法執(zhí)行時間比較
執(zhí)行時間 /s閾值T
最大類間方差法31.534190
迭代法21.541145
雙峰法0.006124
地面的反光和陰影,以及不均勻的光照都會導致同一幅圖像的二值化效果表現(xiàn)出很大差別,圖2和圖3是對同一幅圖像在不同光照條件下二值化的結果,可以看到在光照條件2下會出現(xiàn)大量的黑點,這些黑點將嚴重影響提取路徑信息的速度并且可能導致錯誤的路徑信息。然而,相對于灰度、顏色特征,邊緣特征受光照影響較小[11]。為此,對縮小后的圖像先進行引導線的邊緣檢測,邊緣檢測后圖像中引導線邊緣像素灰度的對比度得到增強,通過實驗確定合適的閾值,然后對圖像進行二值化以提取路徑信息。
圖2 光照條件1
圖3 光照條件2
1.2 引導線角度檢測
采用哈夫變換檢測路徑引導線的角度[12]。為了簡單而又不失一般性,引導線分1條路徑和2條相交的路徑。當2條直線的夾角等于90°時即認為是兩條相互垂直的路徑。直線的哈夫變換利用如下直線的極坐標方程:
И
λ=xcos θ+ysin θ(1)
И
式(1)中,(x,y)表示圖像空間xy中所有共線的點即圖像中的黑點;θ表示直線法線和x軸的夾角,取值范圍為0~180°;λ表示直線到原點的距離。И
2 視覺導航的機器人運動控制
機器人運動控制部分分為直行控制和轉(zhuǎn)彎控制2部分。
2.1 直行控制
如果哈夫變換的檢測結果表明是一條直線即機器人視野中只有1條主引導線時,則運行直行模塊。實際中有2種情況需要考慮:一是機器人的初始位置不一定正對引導線,二是在機器人的機電配置中,左右輪子的馬達運動不會絕對精確和對稱。這些會使機器人在運動中出現(xiàn)側偏。可采用下述方法進行直行控制:根據(jù)引導線在圖像平面坐標中的位置來判斷機器人的偏向。當引導線位于圖像平面的左半邊,說明攝像頭的光軸與引導線不垂直且相對于引導線右偏,則命令機器人左轉(zhuǎn);當引導線位于圖像平面的右半邊,說明攝像頭的光軸與引導線不垂直且相對于引導線左偏,則命令機器人右轉(zhuǎn);當引導線在圖像平面兩邊均存在時,則命令機器人不偏轉(zhuǎn)繼續(xù)直行。機器人在前進過程中,根據(jù)圖像平面中引導線位置不斷調(diào)整方位,以一定的轉(zhuǎn)動角度(轉(zhuǎn)動角度盡量小,這樣機器人的擺動幅度就會小)在直線路徑上行走。
2.2 轉(zhuǎn)彎控制
如果哈夫變換的檢測結果表明是兩條相互垂直的直線,即機器人的視野中出現(xiàn)轉(zhuǎn)彎路口,則開始運行轉(zhuǎn)彎模塊。
機器人需要在距轉(zhuǎn)角合適的距離處開始運行轉(zhuǎn)彎模塊,以保證機器人視野中始終具有引導線。如圖4所示,AB段表示攝像頭的縱向視野范圍,C點為轉(zhuǎn)角點,機器人需要知道自身在實際二維平面中相對于轉(zhuǎn)角點C的距離即BC段距離。由圖像信息獲得現(xiàn)實世界坐標系中的參數(shù),即所謂三維重建,這需要對基于計算機視覺的移動機器人導航系統(tǒng)進行攝像機標定。
鑒于移動機器人識別的引導線在地面上這一限制條件,并且攝像頭固定在機器人上,可以選擇機器人坐標系為世界坐標系,即世界坐標系與機器人同步移動。坐標原點為標定模板的左下角標定點的中心,Zw軸垂直地面,XwYw平面即為地面。在該坐標系下地面目標的坐標可以表示為(Xw,Yw,0),П甓模板由直徑5 mm、相距10 mm共72個圓點構成,如圖5所示。
圖4 轉(zhuǎn)變示意圖
圖5 標定模板
移動機器人的攝像機標定問題,如果忽略因物面與攝像機光軸不垂直造成的非線性,則可歸結為在二維世界坐標系中求變換矩陣M[13]。
И[HT6”]
X1Y11000-u1X1-u1Y1
000X1Y11-v1X1-v1Y1
…………
…………
XnYn1000-unXn-unYn
000XnYn1-vnXn-vnYn•m11m12m14m21m22m24m31m32=u1v1u2v2ぁぁunvn(2)
И
世界坐標系(Xw,Yw,Zw ),Zw軸垂直地面,XwYw平面即為地面,在該坐標系下地面目標的坐標P可以表示為(Xw,Yw,0)。式(2)中Xi,Yj (其中i=1,2,…,n,j=1,2,…,n)即為地面目標的坐標(Xw,Yw)。只要有4個標定點就可以求解該線性方程組,分別測得其在地面上的坐標(Xw,Yw,0),再根據(jù)由圖像處理的方法得到的圖像坐標系中的像素坐標(ui,vj)(其中i=1,2,…,n,j=1,2,…,n),即可求得變換矩陣M,M = [m11,m12,m14,m21,m22,m24,m31,m32]T,其中m34=1。П浠瘓卣M的元素取值受到攝像頭俯仰角和架設高度的影響。在實驗室條件下,本系統(tǒng)選取BC=13 cm時開始運行轉(zhuǎn)彎模塊。
在單目視覺的條件下,對于固定的俯仰角,為保證道路引導線不移出攝像頭視野范圍,必須控制機器人以一定的弧度轉(zhuǎn)彎,即沿弧線路徑執(zhí)行轉(zhuǎn)彎模塊。要做到這一點,弧線的弧度必須選取合適。在轉(zhuǎn)彎過程中需要根據(jù)機器人的位置不斷調(diào)整機器人的運動速度和轉(zhuǎn)動角度,具體過程如下:
(1) 找出圖像中最后一行中點m的像素坐標(um,vm),即攝像頭視野最下方的中點,通過變換矩陣M將其轉(zhuǎn)換為世界坐標系xyz中的位置(xm,ym),z軸垂直于xy平面即地面。
(2) 找出圖像中轉(zhuǎn)角點t的像素坐標(ut,vt),通過變換矩陣M求出其在世界坐標系xyz中的位置(xt,yt)。
(3) 以地面上轉(zhuǎn)角點為圓心的世界坐標系定義為XYZ,Z軸垂直于XY平面即地面,求出弧線在此坐標系中的方程,(x-a)2+(y-b)2=r2,(a,b)表示在坐標系XYZ下弧線所在圓的圓心,r表示圓的半徑。И
(4) 將xyz坐標系下的坐標點(xm,ym)轉(zhuǎn)換到XYZ坐標系下,用坐標(Xm,Ym)表示,如圖6所示。X軸與x的夾角為θ,XOY坐標系的原點O即為轉(zhuǎn)角點t,則:
И
Xm=(xm-xt)cos θ Ym=(ym-yt)cos θ(3)
圖6 坐標系轉(zhuǎn)換
(5) Щ∠叻匠討械y=Ym時,求得X,比較x與Xm,若Xm-x>0,則命令機器人左轉(zhuǎn);若Xm-x
本系統(tǒng)確定轉(zhuǎn)彎弧的半徑為20 cm,弧度為90°的弧線即可使機器人順利轉(zhuǎn)彎,機器人視野中始終保持引導線。
3 實驗結果及結論
實驗中選用的LEGO移動機器人,其運動速度為8.57 cm/s(指令設定Power=25 RPM)。導航場地中畫有寬1 cm的黑色引導線,實驗要求中機器人完全根據(jù)引導線自主運動。實驗中,識別1幀圖像并且機器人根據(jù)識別的路徑信息運行直行或轉(zhuǎn)彎模塊共需0.311 s,即機器人每處理1幀圖像移動2.67 cm。實驗室中的光照條件是機器人移動時的主要干擾,而銳利的引導線邊緣受光照影響較小,對這些干擾有較好的濾除作用。經(jīng)過在陰天白天、晴天白天以及開燈和不開燈的情況下、晚上開燈的情況下、遮蓋物位于攝像頭上方50 cm處形成陰影情況下,機器人能正確的沿引導線移動。同時,當攝像頭視野范圍內(nèi)引導線消失即認為出現(xiàn)障礙物,機器人能發(fā)出前方有障礙物的報警信息。
可見上面所述方法有較好的實時性和魯棒性有一定的通用性,使得該視覺導航方法具有一定的應用價值。只要光照條件變化不是非常劇烈,在工廠、醫(yī)院、辦公樓等環(huán)境中,機器人根據(jù)路徑引導線可自主到達目的地。
當然,由于移動機器人活動場景的復雜性和動態(tài)特性,以及視覺處理的復雜性,視覺導航還有很多需要解決的問題,例如當導航場地出現(xiàn)較大面積的強烈反光、極暗的陰影時能否有效可靠的進行移動機器人的導航控制,這需要進一步研究。另外,如何將視覺系統(tǒng)與本系統(tǒng)機器人平臺中的超聲波傳感器、光電傳感器及聲音傳感器在空間、時間及數(shù)據(jù)上進行融合以提高系統(tǒng)的適應性和環(huán)境識別能力也是一個研究方向。
參 考 文 獻
[1]方強,謝存禧.基于視覺的移動機器人自主定位導航[J].機床與液壓,2004(7):4042.
[2]Siegwart Roland,Nourbakhsh Illah R.Introduction to Autonomous Mobile Robots[J].Massachusetts Institute of Technology,2004:111.
[3]Gérard Medioni,Alexandre Francois R J,Matheen Siddiqui.Robust Realtime Vision for a Personal Service Robot [J].Computer Vision and Image Understanding,2007:18.
[4],馬旭東,戴先中.一種基于移動機器人視覺的實用數(shù)字識別方法[J].制造業(yè)自動化,2006,28(5):3943.
[5]陸新華,張桂林.室內(nèi)服務機器人導航方法研究[J].機器人,2003,25(1):8087.
[6]張海波,原魁,周慶瑞.基于路徑識別的移動機器人視覺導航[J].中國圖像圖形學報,2004,9(7):853857.
[7]吳玉斌,曹廣忠,徐剛.基于虛擬儀器技術的機器人視覺伺服研究[J].機械科學與技術,2006,25(8):1 0051 008.
[8]董再勵,郝穎明,朱楓.一種基于視覺的移動機器人定位系統(tǒng)[J].中國圖像圖形學報,2000,5(8):688692.
[9]江巨浪.基于改進CatmullRom 樣條的圖像縮放算法[J].計算機技術與發(fā)展,2007,17(4):211213.
[10]楊暉.圖像分割的閾值法研究[J].遼寧大學學報:自然科學版,2006,33(2):135137.
[11]陳鍛生,劉政凱.彩色圖像邊緣特征及其人臉檢測性能評價[J].軟件學報,2005,16(5):727732.
[12]陳震,高滿屯,楊聲云.基于Hough 變換的直線跟蹤方法[J].計算機應用,2003,23(10):3032.
[13]康晶,鄒北驥,劉相濱.一種改進的攝像機內(nèi)外參數(shù)初值計算方法[J].計算機工程與科學,2007,29(1):5255.
作者簡介
趙 瑜 女,1983年出生,陜西西安人,碩士研究生。主要研究方向為非接觸測量與可視化計算。
種蘭祥 男,1960年出生,陜西合陽人,西北大學信息科學與技術學院副教授,中國科學院西安光學精密儀器研究所博士研究生。主要從事非接觸測量、光電子技術和可視化計算方面的研究。
篇8
先看看人類體的基本構成。人體主要由五個部分組成。一是框架支撐系統(tǒng),主要是骨骼,它構成了人體的本體結構;二是動作執(zhí)行系統(tǒng),主要是各種肌肉,接受信息,執(zhí)行動作;三是感覺系統(tǒng),它感受外界刺激,也探測自身的內(nèi)部信息;四是信息處理系統(tǒng),主要是大腦和神經(jīng)。對收集的信息進行處理、儲存、發(fā)出指令等;五是能源系統(tǒng),負責能源的吸收、儲存、使用以及廢物的排泄。在以上基礎上,人還要有思想、意識,如此才能成為一個真正意義上的人。
機器人的發(fā)展使人們感覺到有某種可能性。機器人的發(fā)展經(jīng)歷了—個從低級向高級的發(fā)展階段,并力求從五個方面模仿人類。先是遙控機器人,本身沒有工作程序,需要人為實時操縱;后有程序機器人,按載人的程序控制,對外界無感知能力,環(huán)境改變時需要重新設計程序;自適應機器人可根據(jù)環(huán)境的變化改變自己的行動;最后是智能機器人,具有感知思維能力和行為能力。可見,機器人是一種可編程再編程的多功能操作機械,它牽涉到電子學、仿生學、心理學、系統(tǒng)論、控制論、人工智能、精密機械、信息傳感等各種學科和技術。其中,人工智能扮演著核心角色。
人工智能領域包括機器學習、自然語言的理解、專家系統(tǒng)、模式識別、計算機視覺、人工神經(jīng)網(wǎng)絡。機器學習是機器具有智能的重要標志,同時也是機器獲取知識的根本途徑。它涉及認識科學、神經(jīng)心理學、邏輯學等學科,并對人工智能的其他分支如專家系統(tǒng)、自然語言的理解、自動推理、計算機視覺起重要作用。人工神經(jīng)網(wǎng)絡模擬人腦神經(jīng)元突觸的彈性強度猶如大腦皮層一樣,多層神經(jīng)元能交疊分層并交互成網(wǎng)絡。多納爾·赫波的學習算法認為:一個曾經(jīng)被傳承且被儲存的開關模式,其神經(jīng)元突觸的聯(lián)合可以得到加強或削弱。人腦中包含1011-1012個神經(jīng)元,一個神經(jīng)元有103~104個突觸。神經(jīng)元通過突觸形成網(wǎng)絡,傳遞著彼此的興奮與抑制。全部大腦神經(jīng)元構成拓撲上極其復雜的網(wǎng)絡群體,由這一網(wǎng)絡群體實現(xiàn)記憶與思維。在神經(jīng)中樞系統(tǒng)。上百億的神經(jīng)元組成了人類器官的通信網(wǎng)絡。閃爍和不閃爍的神經(jīng)產(chǎn)生了一種具有二進制的數(shù)據(jù)流,它們作為信息(如感覺、思想等)被大腦編輯。
數(shù)據(jù)網(wǎng)絡并不只限于個別的組織和機體。社會生物學表明,動物有群體智能來組織其信息系統(tǒng),而沒有監(jiān)督和指揮中樞系統(tǒng)。動物間彼此的交流信息在一個化學擴散場中,從分岔蟻街到復雜的蟻巢以及等翅目昆蟲的復雜建筑都體現(xiàn)了這種超組織的集體行為能力。同樣的單一神經(jīng)元也不能感覺和思維,只是在集體交互作用中才能體現(xiàn)大腦的功能。在人工智能方面,按目前的集成電路水平,只可實現(xiàn)1000個神經(jīng)元的互聯(lián)網(wǎng)絡。人工神經(jīng)網(wǎng)絡系統(tǒng)的結構及功能與人體比較差距很大,因此,單純用電子網(wǎng)絡計算機的硬件設施模擬人腦功能是不現(xiàn)實的。現(xiàn)在,常用編程技術以軟件模擬研究人腦的處理模式。
在情感運算表達式中,神經(jīng)網(wǎng)絡被訓練成對感情反應有認識,情感通過復雜的學習模式被特征化。人們通過觸、看、聽、說來感知自我,形成自我意識。相應的,人們需要對自然保護語言、視覺、會話、觸覺等進行研究。對自然語言的理解包括口語理解和文字理解。運用專家系統(tǒng)對語言進行邏輯分析,結合生理學、心理學、計算機科學,使神經(jīng)網(wǎng)絡可以理解和生成自然語言,從而達到使機器人擁有交流信息能力的目的。
人工智能著重從思想方法上對人腦功能進行探索和研究,是一種偏于軟件方面的模擬。同時,人們也在硬件方面進行不懈的努力。
傳統(tǒng)意義上的機器人是一種鋼鐵構成的東西,其組成結構是沒有生命活力的,而生命系統(tǒng)卻有著不同特征——復雜和組織。即便是單細胞生物,雖然原始,卻也顯示出任何人工制品所無法比擬的復雜和精巧。一個低級的細菌身上也擁有復雜的功能和網(wǎng)絡,它可以與環(huán)境相互作用,以一種可控制的方式交換物質(zhì)和能量。其組織可以自我感覺、自我判斷、自我診斷、自我修補,從而與環(huán)境相適應。
材料科學的發(fā)展使人們有可能找到更完善的代替鋼鐵的材料。光學材料可制造機器人的視覺系統(tǒng),利用先進的納米技術和生物基因技術,目前已制造出非常靈敏的義眼;超導材料可利用超導隧道效應制造靈敏的電磁信號探測元件,用來模擬高效傳遞信息的神經(jīng)元;智能材料把高技術傳感器敏感元件和傳統(tǒng)材料相結合,使無機的材料變得有感覺和知覺。
生物體的最大特點就是對環(huán)境的適應,智能材料具有軟件功能,類似于可條件反射的生物機械信息處理單元——神經(jīng)元。信息材料如各種活性有機材料,可以在分子水平上實現(xiàn)信息的存儲。分子計算機則利用DNA的四個堿基對,在分子上構造計算機,用以納米機器或生物系統(tǒng)的信息處理器。生物醫(yī)學材料則可以部分代替某種生物功能,如羥基磷灰石是脊椎動物和人體硬組織的主要無機質(zhì),不僅具備良好的生物相容性,而且可以誘導骨骼的生長,并和生物組織形成牢固的鍵和,可作為人體硬組織的替代材料。探索此類材料可找到具有全部生物活性的骨骼系統(tǒng),使機器人更類人化。醫(yī)用高分子材料廣泛用于制造人工皮膚、角膜、肌腱、韌帶、血管、人工臟器組織和器官的修復和制造。
篇9
關鍵詞:圖像處理;電力設備
中圖分類號:V351.31文獻標識碼:A文章編號:
1、電力設備檢測
電力設備是輸配電網(wǎng)中的樞紐和通道,設備在使用的過程中會有老化、失修、故障隱患等情況出現(xiàn)。但是這些情況并不能都靠人眼、工作人員的經(jīng)驗一一排除,必須要專門的電力設備檢測才能檢查出這些電力安全隱患并組織人力及時排除。 在電力運行中,電力安全始終是電力人繃緊的一根弦。電力設備檢測實際上是起到了預防、發(fā)現(xiàn)隱患的作用。因此電力設備檢測(即電力設備預防性試驗)至關重要。
2、電力設備的概述
電力設備預防性試驗是指對已投入運行的設備按規(guī)定的試驗條件(如規(guī)定的試驗設備、環(huán)境條件、試驗方法和試驗電壓等)、試驗項目、試驗周期所進行的定期檢查或試驗,以發(fā)現(xiàn)運行中電力設備的隱患、預防發(fā)生事故或電力設備損壞。它是判斷電力設備能否繼續(xù)投入運行并保證安全運行的重要措施。
3、圖像處理的發(fā)展
隨著計算機技術的迅猛發(fā)展和相關理論的不斷完善,數(shù)字圖像處理 技術在許多應用領域受到廣泛重視并取得了重大的開拓性成就。 屬于這些領域的有航空 航天、生物醫(yī)學工程、工業(yè)檢測、機器人視覺、公安司法、軍事制導、文化藝術等。該 技術終將成為一門引人注目、前景遠大的新型學科。
4、圖像處理的意義
圖像進行處理的主要目的有三個方面:
4.1圖像的視感質(zhì)量,如進行圖像的亮度、彩色變換,增強、抑制某些成分,對圖像進行幾何變換等,以改善圖像的質(zhì)量。
4.2圖像中所包含的某些特征或特殊信息,這些被提取的特征或信息往往為計算機分析圖像提供便利。提取特征或信息的過程是圖像處理的預處理。提取的特征可以包括很多方面,如頻域特征、灰度或顏色特征、邊界特征、區(qū)域特征、紋理特征、形狀特征、拓撲特征和關系結構等。
4.3不管是何種目的的圖像處理,都需要由計算機和圖像專用設備組成的圖像處理系統(tǒng)對圖像數(shù)據(jù)進行輸入、加工和輸出。圖像是人類獲取和交換信息的主要來源,是視覺的基礎,而視覺又是人類重要的感知手段,所以圖像成為心理學,生理學,計算機科學等諸多方面學者研究示圖感知的有效工具。圖像處理是一門實用的科學,在軍事,航空,航天,遙感,電力,通信,醫(yī)學,教育等領域得到廣泛應用。
5、電力系統(tǒng)概述
傳統(tǒng)的視頻監(jiān)控系統(tǒng)需要人工監(jiān)看錄像,監(jiān)控性能受到監(jiān)控者本身的生理因素的制約。有研究表明: 人盯著屏幕看3 個小時后,注意力將降低70%。隨著我國高壓輸電線路的規(guī)模迅速增長,線路運行部門承擔了越來越多的線路巡視維護工作量,急需用先進的技術來幫助線路維護人員提高工作效率。圖像處理技術借助計算機強大的數(shù)據(jù)處理功能,對視頻畫面中的海量數(shù)據(jù)進行高速分析,過濾掉用戶不關心的信息,僅僅為監(jiān)控者提供有用的關鍵信息。能夠大大減輕視頻監(jiān)控中人工勞動強度,同時可以減少誤報漏報,還可以提高報警處理的及時性。圖像監(jiān)控系統(tǒng)應用的范圍非常廣,最常見的是對民宅、停車場、公共場所、銀行等的監(jiān)控,以防止偷盜、破壞行為的發(fā)生,保障社會安全。近年來圖像處理技術在電力設備系統(tǒng)監(jiān)控上也有大量應用: 如趙書濤等人利用圖像的形狀不變矩特征作為特征矢量,采用SVM 分類器識別各類電力設備,取得了較滿意的識別效果,實現(xiàn)了變電站的無人值守; 劉金春利用小波不變矩來提取圖像的邊緣特征,通過與無故障圖像的小波不變矩比較,分析出圖像的變化情況,實現(xiàn)了對變電站的自動監(jiān)控。因此圖像處理技術能在電力系統(tǒng)的安全監(jiān)測中發(fā)揮重大作用。
6、圖像檢測
邊緣檢測是一種重要的區(qū)域處理方法。邊緣是所要提取目標和背景的分界線, 提取出邊緣才能將目標和背景區(qū)分開來。邊緣檢測是利用物體和背景在某種圖像特性上的差異來實現(xiàn)的, 這些差異包括灰度、顏色或者紋理特征。實際上, 就是檢測圖像特性發(fā)生變化的位置。邊緣檢測包括兩個基本內(nèi)容: 一是抽取出反映灰度變化的邊緣點; 二是剔除某些邊界點或填補邊界間斷點, 并將這些邊緣連接成完整的線。如果一個像素落在邊界上, 那么它的鄰域?qū)⒊蔀橐粋€灰度級變化地帶。對這種變化最有用的兩個特征是灰度的變化率和方向。邊緣檢測算子可以檢查每個像素的鄰域, 并對灰度變化率進行量化, 也包括對方向的確定, 其中大多數(shù)是基于方向?qū)?shù)掩模求卷積的方法。
6.1圖像幾何校正
圖像的幾何畸變表現(xiàn)為像元相對于地面目標實際位置發(fā)生擠壓、扭曲、變形等。其基本環(huán)節(jié)有兩個,即像素坐標變換和重采樣。
6.2圖像重采樣
圖像重采樣的目的主要是保證圖像像素的連續(xù)性,因為對圖像空間分辨率進行提升時,需要利用插值的手段在空出的像素上補上對應的值,使整個圖像平滑,有利于進一步處理。其最基本方法有三種:最近鄰插值、雙線性插值和雙三次插值。
6.3 圖像增強
圖像增強就是采用一定的方法對圖像的某些特征進行調(diào)整,以突出圖像中的某些感興趣信息,同時抑制或去除不需要的信息來提高圖像質(zhì)量。它的主要目的是改變圖像的灰度等級,提高對比度;消除邊緣噪聲,平滑圖像;突出邊緣及圖像主要信息,銳化圖像、壓縮數(shù)據(jù)量等。圖像增強主要方法根據(jù)處理空間的不同,分為空間域方法和頻率域方法兩大類。空間域增強主要是通過改變像元及相鄰像元的灰度值達到增強的目的。而頻率域增強則是通過對圖像進行傅里葉變換后改變頻域圖像的頻譜來達到圖像增強的目的。此外,根據(jù)圖像處理的范圍又可以將增強處理技術分為全局處理和局部處理兩種。
7、結束語
我國電力行業(yè)的不斷發(fā)展,和停電機會的不斷減少。現(xiàn)代化的電力設備停電檢修試驗的機會越來越少。電力設備的檢修試驗也從原來的傳統(tǒng)試驗逐步的轉(zhuǎn)型為現(xiàn)在的不停電檢修試驗。由于現(xiàn)在的狀態(tài)監(jiān)測與傳統(tǒng)試驗相比不具有破壞性或破壞性較小和不停電等優(yōu)點。現(xiàn)在的電力設備狀態(tài)監(jiān)測試驗也將逐步取代于傳統(tǒng)的試驗,為未來的電力發(fā)展和可靠的安全供電提供有力的技術保障。電力設備的狀態(tài)監(jiān)測也將必然成為未來電力電網(wǎng)試驗發(fā)展的主導方向。社會經(jīng)濟的飛速發(fā)展,科學技術的突飛猛進,電力設備檢測的范圍,設備與技術也在與時俱進。一套設備的“健康指數(shù)”包括其電氣特性和機械特性兩部分內(nèi)容組成;而無法得到電力設備在通電運行中的電氣特性的“健康數(shù)值”這一難題,一直困擾電力用戶多年。全新的狀態(tài)監(jiān)測技術的出現(xiàn)解決了這一難題。不僅擴展了電力設備檢測的概念,而且填補了電力設備檢測領域的盲點。常規(guī)停電檢測技術和狀態(tài)監(jiān)測技術相輔相承,為電力設備的可靠運行提供全方位的數(shù)據(jù)支持。
參考文獻:
[1] 龔超,羅毅,涂光瑜.計算機視覺技術及其在電力系統(tǒng)自動化中的應用[J]. 電力系統(tǒng)自動化. 2003。
篇10
關鍵詞 增強現(xiàn)實;虛擬現(xiàn)實;實時交互;三維跟蹤;人腦感知
中圖分類號G206.2 文獻標識碼A 文章編號 1674-6708(2013)107-0149-04
增強虛擬現(xiàn)實技術(Augmented Reality,AR)通過計算機實時產(chǎn)生三維信息來增強人對真實世界的感知。雖然來源于虛擬現(xiàn)實技術(Virtual Reality,VR),但AR的偉大之處在于把計算機、網(wǎng)絡和用戶都帶回了真實世界。它利用計算機系統(tǒng)產(chǎn)生現(xiàn)實環(huán)境中并不存在的虛擬信息,這些虛擬信息可被用戶以視覺、聽覺、觸覺、嗅覺等各種方式感知,成為周圍真實環(huán)境的組成部分。
1 簡介
上世紀90年代初期,波音公司的Tom Caudell和同事最早提出了“增強現(xiàn)實(以下簡稱AR)”。在他們設計的系統(tǒng)中,把由簡單線條繪制的布線路徑和文字等提示信息,實時地疊加在機械師的頭盔顯示器上,而這些信息則可以幫助機械師一步一步地完成拆卸過程。AR系統(tǒng)的目標就是這樣,借助光電顯示技術、交互技術、計算機圖形技術和可視化技術等,產(chǎn)生現(xiàn)實環(huán)境中不存在的虛擬對象,并通過注冊技術將虛擬對象準確地“放置”在真實環(huán)境中,使用戶處于一種融合的環(huán)境中,不能區(qū)分真實和虛擬,用戶所感知到的只是一個真實和虛擬相融合的唯一存在的世界,并能與之交互。
AR是一個多學科交叉的新興研究領域,該領域的權威學者北卡大學Ronald Azuma提出 AR系統(tǒng)包含三個內(nèi)容:真實世界和虛擬世界的信息集成,即虛實融合;具有實時交互性;三維尺度空間中定位增添虛擬物體,即三維跟蹤注冊。其中,尤以實時的人機交互最為重要,因為沉浸感和感知的增強皆源于此。人機交互是一門包括計算機視覺、心理學、人工智能等多學科交叉的技術,隨著傳感器、力反饋等硬件設備的發(fā)展,以及對人的個體差異、感知研究以及認知科學的發(fā)展,人機交互已成為世界各國信息產(chǎn)業(yè)競爭的一項關鍵技術,并逐漸實現(xiàn)向“以用戶為中心”的轉(zhuǎn)變。
另一種定義是1994年保羅·米爾格拉姆(Paul Milgram)和岸野文郎(Fumio Kishino)提出的現(xiàn)實-虛擬連續(xù)統(tǒng)(Milgram's Reality-Virtuality Continuum)。他們將真實環(huán)境和虛擬環(huán)境分別作為連續(xù)統(tǒng)的兩端,位于它們中間的被稱為“混合實境(Mixed Reality)”。其中靠近真實環(huán)境的是增強現(xiàn)實(Augmented Reality),靠近虛擬環(huán)境的則是擴增虛境(Augmented Virtuality)。
2 技術原理
2.1顯示技術
用于AR 的顯示器有頭盔顯示器( Head-Mounted Displays, HMD) , 手持顯示器( Hand-Held Displays) 和投影顯示器( Pro jection Displa ys) 。
2.2跟蹤和定位技術
為了交互, AR 需要進行定位, 因而準確地跟蹤用戶的位置和視域方向是十分重要的。 對于室內(nèi)環(huán)境, 通常預先在已知的位置上放置基準的標記, 通過跟蹤這些標記跟蹤真實對象,從而擴大跟蹤范圍。 目前在準備好的室內(nèi)環(huán)境中, 能夠?qū)崿F(xiàn)魯棒性定位。 對于室外、移動的AR 應用, 一般使用GPS 或Dead Reckoning 技術跟蹤計算對象在戶外的實時位置。 但這也有很大的局限性, 如GPS 需要天空能見度很高。另外,還可以跟蹤可見的自然特征( 如環(huán)境中已有的、不變對象)。 如果有環(huán)境數(shù)據(jù)庫, 那么就可以根據(jù)跟蹤可見的水平輪廓或已繪制的周圍建筑物的預知視圖, 與視頻進行匹配。另外, 給定有限的一組已知特征點, 跟蹤系統(tǒng)能夠自動地選擇和測量環(huán)境中新的特征點。但是, 目前這些方法還不支持實時運行, 而更適于特效和后期制作的應用。
完全控制定位錯誤比較困難, 因為應用需要的精確度越高, 引起錯誤的源就越多. 我們把這種源分成兩類: 靜態(tài)的和動態(tài)的。 靜態(tài)源是指當用戶的視點和環(huán)境中的物體保持靜止時引發(fā)的錯誤, 主要有: 光學的變形, 跟蹤系統(tǒng)誤差, 機械誤差和視覺參數(shù)誤差。 動態(tài)源是指錯誤由用戶的視點或環(huán)境中的物體移動引起的, 主要是延遲錯誤和預測位置錯誤。
2.3 界面和可視化
2.3.1錯誤估計的可視化
AR 系統(tǒng)定位錯誤很難避免, 解決的方法有兩個: 一是根據(jù)預測的跟蹤和測量錯誤, 在屏幕中可視化地顯示一塊區(qū)域,以繪制對象。 二是當繪制被真實對象遮擋的虛擬對象時, 沿著遮擋區(qū)域的邊緣, 逐漸地淡出隱藏的虛擬對象, 使定位錯誤減少。
2.3.2數(shù)據(jù)密度
如果用大量的虛擬信息增強真實世界, 那么顯示就會變得混亂和不易讀。 Julier使用基于空間交互模型, 把所顯示的信息量減少到最小, 只在視圖中保留重要的信息。
2.3.3真實感繪制
在AR 應用中, 改善虛擬對象繪制質(zhì)量的關鍵是能夠自動獲取環(huán)境的光照和反射信息。 目前有三個方法: 使用模型估計光照參數(shù), 基于圖像的繪制, 以及動態(tài)范圍的光照獲取。
2.3.4調(diào)節(jié)現(xiàn)實
為了刪除真實對象系統(tǒng)必須能夠分割場景中的單獨對象Lepet it論述了一個半自動的方法, 通過輪廓區(qū)分對象和它們在場景中的位置, 在某些情況下, 無需對環(huán)境進行3D 重構, 就能夠插入虛擬對象以及刪除真實對象。
2.4標定技術
為了生成準確的定位, AR 系統(tǒng)需要進行大量的標定. 測量的值包括: 攝像機參數(shù), 視域范圍, 傳感器的偏移, 對象定位以及變形等. 目前AR 標定使用攝像機標定原理, 以及許多手動AR 標定技術. 避免進行標定的一個方法是開發(fā)標定自由的繪制器. Kutulako s 和Vallino提出基于弱透視投影模型的標定自由AR 方法, Seo 和Hong把這個方法擴展到覆蓋弱透視投影, 支持傳統(tǒng)的光照技術。 另外, 為了減少標定需要,必須自動標定, 這需要使用冗余的傳感器信息, 自動地測量和補償變化的標定參數(shù)。
3特點及優(yōu)點
3.1特點
3.1.1 Combines real and virtual(虛實結合)
虛擬現(xiàn)實技術依靠三維軟件構建出虛擬世界,通過各種輸出方式讓人在軟件所創(chuàng)建的世界里有非同尋常的體驗,好的虛擬現(xiàn)實作品具備浸沒感、交互性和構想性。而AR技術,將這種特性帶回真實世界,讓計算機創(chuàng)造出來的虛擬世界與真實世界合為一體,帶來前所未有的感官沖擊。
3.1.2 Interactive in real time(即時交互)
即時交互是虛擬現(xiàn)實的主要特點,源于虛擬現(xiàn)實的AR技術同樣具備這一特點。實時的三維交互是構建優(yōu)秀虛擬環(huán)境的基礎。同時,AR系統(tǒng)的即時交互與現(xiàn)實環(huán)境結合在一起,效果要優(yōu)于依靠硬件環(huán)境的虛擬現(xiàn)實。
3.1.3 Registered in 3-D(3D定位)
AR技術與真實環(huán)境相結合主要體現(xiàn)在所讀出的3D模型可以由目標圖片或物體來控制移動旋轉(zhuǎn),以及通過更多的方式來做更多的交互。AR技術區(qū)別于目前相當流行的二維碼技術的重要一點,二維碼對于手機、攝像頭之類的讀取設備有嚴格的角度和距離要求,而AR系統(tǒng)在同樣的問題上則自由很多。
3.2優(yōu)點
AR系統(tǒng)的優(yōu)點主要包含兩方面:
1)AR技術能夠?qū)崿F(xiàn)虛擬事物和真實環(huán)境的結合,讓真實世界和虛擬物體共存;
2)AR實現(xiàn)虛擬世界和真實世界的實時同步,滿足用戶在現(xiàn)實世界中真實地感受虛擬空間中模擬的事物,增強用戶體驗效果。
4硬件
4.1顯示設備
4.1.1頭罩式裝置HMD(Head-Mounted Display)
技術大概分成光學式(Optical)與影像(Video)兩種,前者是一種透明裝置,使用者可以直接透過這層看到真實世界的影像,然后會有一些另外的投影裝置把虛擬影像投射在這層透明裝置上。另外一種是不透明裝置,使用者看到的是由電腦處理好、已虛實結合的影像。
4.1.2智能手機
最近幾年開始流行起來的智能手機,改變了AR的樣貌。頭戴式的HMD還是太麻煩了,而智能手機同時具備電腦計算能力、錄影、影像顯示,還有GPS、網(wǎng)路連線、觸控、傾斜度偵測等等的額外功能,價格也逐漸平民化,于是在智能手機為平臺的AR研究越來越多。
4.2攝像頭
Occipital聯(lián)合創(chuàng)始人Vikas Reddy在郵件訪談中談到,AR技術尚未發(fā)揮出它全部的潛力。這是由于目前追蹤和測繪現(xiàn)實的技術水平有限。但Reddy預測,隨著計算機視覺算法和硬件設備的發(fā)展,攝像頭將成為最重要的傳感器和輸入設備,這不僅僅是AR實景技術方面的趨勢,也是整個計算機產(chǎn)業(yè)的趨勢。
4.3傳感器
在AR系統(tǒng)中眾多的傳感器是實現(xiàn)交互的硬件基礎。運用比較多的是紅外傳感器、壓力傳感器、溫度傳感器、光電傳感器等,比較具有代表性的例子是微軟開發(fā)的基于XBOX 360的Kinect。Kinect是微軟在2009年6月2日的E3大展上正式公布的XBOX360體感周邊外設,它徹底顛覆了游戲的單一操作,使人機互動的理念更加徹底的展現(xiàn)出來。
4.4存儲傳輸
作為承載系統(tǒng)主體文件和承接輸入設備及輸出設備的重要中轉(zhuǎn)站,AR系統(tǒng)對于計算機的硬件要求相對較高。
4.5操控設備
虛擬現(xiàn)實系統(tǒng)與AR系統(tǒng)基于展示內(nèi)容的特點會有針對性的操控設備。目前運用比較多的是數(shù)據(jù)手套與頭部跟蹤設備,其中頭部跟蹤設備主要是眼鏡和頭盔。數(shù)據(jù)手套主要依靠在指關節(jié)處的傳感器來識別各種手勢,不同的手勢分別代表各種指令會讓系統(tǒng)作出相應的反應。頭部跟蹤設備主要依靠電磁感應技術或紅外捕捉技術,都是通過識別頭部運動來達到控制目的,其中紅外捕捉技術的敏感度與刷新率要優(yōu)于電磁感應技術,谷歌新推出的谷歌眼鏡就運用了該技術。
5應用現(xiàn)狀及展望
5.1谷歌眼鏡
谷歌眼鏡(Google Project Glass)是由谷歌公司于2012年4月的一款“拓展現(xiàn)實”眼鏡,它具有和智能手機一樣的功能,可以通過聲音控制拍照,視頻通話和辨明方向以及上網(wǎng)、處理文字信息和電子郵件等。
硅谷的未來可穿戴設備資深研究人員邁克爾·萊候德(Michael Liebhold)預計,下一步的技術突破將是模糊現(xiàn)實世界和虛擬世界的界限。Google眼鏡所代表的可穿戴式設備將成為科技界的“下一件大事情”。用布林的話說,在溝通的終極形式里,技術應當是隱形的。Google眼鏡展示了未來的一種形態(tài),它可能是我們未來搜索的入口,革新互聯(lián)網(wǎng)和現(xiàn)實中人際交流的方式。“當技術開始隱身時,我們將不再受技術的限制。可穿戴電腦技術可以讓我們不再從4英寸屏幕中去窺探生活。我們再也不用時不時地看看手機,相反的,這些可穿戴設備會回望著我們。”
5.2 IPhone Apps
1) “紐約近在咫尺”:這款應用讓你發(fā)現(xiàn)一個你從未發(fā)現(xiàn)的紐約。只要將鏡頭對準紐約街頭的指路牌,相關街道的信息與真實畫面疊加讓你對每條街道都“一覽無遺”,保證不會讓你在“大蘋果”中迷路。當然你換個城市就需要換一個當?shù)匕姹尽?/p>
2) “全景透視”:這是一款很有意思的AR應用,它用二維圖形以具有透視感的畫面為你提供關于你所在地的四周地理信息,例如告訴你周圍有幾座山峰以及他們的名字,讓你在野外露營的時候不至于迷失。
熱門標簽
計算機畢業(yè)論文 計算機論文 計算機技術論文 計算機教育論文 計算機專業(yè)論文 計算機專業(yè)畢業(yè)論文 計算機教學論文 計算機基礎論文 計算機應用論文 計算化學論文 心理培訓 人文科學概論