計算機視覺前沿技術范文

時間:2023-12-28 17:38:16

導語:如何才能寫好一篇計算機視覺前沿技術,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

篇1

最近幾年,自動駕駛成為當下最為熱門的科技領域之一,許多企業紛紛將目光轉向該領域,諸如谷歌、百度、英特爾、Uber、豐田、本田、福特等科技和車企巨頭都在該領域有相關研究。在國內,除了高舉無人車大旗的百度,許多創業公司也在研究自動駕駛技術,圖森互聯即其中之一。

9月19日,國內計算機視覺與人工智能創業企業圖森互聯宣布,他們研發的計算機視覺與深度學習算法在全球最權威、最具影響力的自動駕駛算法公開排行榜KITTI和Cityscapes評測數據集上均獲得世界第一。僅KITTI數據集中,圖森互聯獲得目標檢測三個單項、目標追蹤兩個單項、道路分割四個單項,共計九個單項的全部世界第一。

那么,在當前,自動駕駛技術究竟有哪些等級?市面上的自動駕駛技術都有哪些陣營?產品落地情況又如何?基于這些問題,《汽車觀察》記者對有著十年并行和分布式運算研究經歷、曾是淡馬錫國家實驗室研究員、現為圖森互聯聯合創始人的南洋理工大學博士郝佳男進行了獨家采訪。以下為部分采訪實錄:

《汽車觀察》:圖森做自動駕駛技術項目的初衷是什么,單純就是看到了這塊的市場需求與前景嗎?

郝佳男:首先,圖森是做圖像識別SaaS起家,在技術上有一定的積累,自動駕駛所用到的計算機視覺感知技術和圖像識別SaaS在很多方面是同源的;另外,對于自動駕駛,特別是主要基于視覺傳感器的自動駕駛,有很高的技術壁壘,圖森能夠很好地發揮自己的長處;第三,運營車輛對自動駕駛和無人駕駛存在較大的需求,因為自動駕駛和無人駕駛可以極大地減少這些運營車輛企業的人力成本和潛在的安全風險,而且無人車可以持續運營,這對企業來說是生產效率的飛躍。

《汽車觀察》:目前,在國際上自動駕駛技術分為幾個等級?圖森的自動駕駛技術又是幾級的技術?在國內外算是一個什么水平?

郝佳男:目前自動駕駛有L1-L5五個等級,L5是人們最期待的完全無人駕駛水平,眾人熟知的谷歌無人駕駛在目前只能算是L4級水平。圖森的主要目標是通過低成本傳感器實現可靠的L3級別無人駕駛。

目前行業內的標桿是以色列的Mobileye。但目前Mobileye量產的芯片依然使用傳統非深度學習算法,因此在一些特定場景中(如車側面、非常見車型等)會出現錯誤。最近Tesla發生的車毀人亡事故就一個例子。圖森的技術方案基于深度學習構建,能夠實現更可靠的性能。

《汽車觀察》:目前的自動駕駛技術有哪幾類?它們的本質區別在哪里?分別有哪些優勢?

郝佳男:目前,市面上共有兩種解決方案:一種是計算機視覺為主、毫米波雷達為輔的低價解決方案;另一種是激光雷達為主、以攝像頭為輔的高價解決方案。

以谷歌和百度為代表的是以激光雷達為主、攝像頭為輔的高價解決方案,成本在50萬以上。比如Google的無人駕駛車輛,在這個技術路線中,車輛完全由人工智能來駕駛,可以將車輛的方向盤、油門和剎車去掉,同時,為了增加技術的可靠性,Google無人駕駛汽車以激光雷達為核心,一個64線的激光雷達成本在7萬美元左右,整體解決方案較貴。另外,激光雷達的硬件可靠性一般,也很難達到車規需求。但是這兩家上市企業出于市值管理的考慮,在這方面不計成本。對他們來說,新技術所能達到的程度帶來的新聞和公關效力,會大幅地抬高股價。但這種成本過高的技術,在商業化應用時會比較困難。

而選擇低價解決方案更容易被車廠、受眾所接受。以特斯拉、奔馳、沃爾沃等車廠為代表的漸進型自動駕駛,即先從輔助駕駛開始做起,在特定場景、或是特定的封閉結構化路段適用,做出緊急剎車、自適應巡航、車道保持、自動泊車等動作,后續涉入高度自動駕駛,即除了結構化路段外,還能在非結構化道路上自動駕駛。

圖森就屬于低價解決方案,即選擇低成本的硬件(毫米波雷達、視覺傳感器、高性能SoC),配合計算機視覺算法來降低總成本。傳感器承擔的精度要求降下來,那么對算法的要求就比較高了。

《汽車觀察》:目前的自動駕駛技術是如何實現自動駕駛的?能實現到怎樣程度的自動駕駛?

郝佳男:自動駕駛系統使用了多種傳感器來感知,其中可視為廣義“視覺”的有超聲波雷達、毫米波雷達、激光雷達(LiDAR)和攝像頭等。毫米波雷達和激光雷達承擔了主要的中長距測距和環境感知,而攝像頭主要用于交通信號燈、車輛、行人等物體的識別。

攝像頭拍到的視頻其實也是由一幀幀圖像形成。拍下來是一回事,通過計算得出圖像里的行人、車輛、信號燈等結構化數據則是另一回事。在過去,這被視為不可想象的任務。但深度學習的發展讓基于視覺的感知技術獲得了大幅度提升,基于視覺的環境感知變得可行了。

《汽車觀察》:目前,市面上的自動駕駛技術在產品化的情況如何?有沒有落地的產品正在運營?

郝佳男:對于整個自動駕駛行業來說,產品化需要漫長的時間,可能需要2-3年的時間。圖森主要還是為主機廠和Tier1(一級零部件供應商)提供以攝像頭為主、配合毫米波雷達和視覺芯片的、低成本的自動駕駛解決方案。

《汽車觀察》:自長安的無人駕駛路試后,國家開始出臺相關禁止自動駕駛路試的政策,這樣一來,整個研發自動駕駛技術的企業又該如何測試自己的技術?如何看待國家有關自動駕駛這方面的政策?

篇2

(1.清華大學電子工程系,北京100084;2.英特爾(中國)有限公司,北京100()13)

摘要:媒體與認知實驗課程是清華大學電子工程系在課程改革中提出的一門全新的核心必修課程。文章首先闡述該課程的特點,然后介紹基于英特爾RealSense設備及微軟Kinect設備開發的一套探索前沿型實驗教學平臺,分別說明基于手勢識別的博弈游戲實驗項目和基于姿勢識別的組合拍照實驗項目,指出通過這些前沿的基于交叉學科的智能感知技術和內容,學生可以掌握成為本領域高層次專業人才必需的各項基本技能和專業知識。

關鍵詞 :RealSense;媒體認知;智能感知;機器學習;人機交互

文章編號:1672-5913(2015)15-0108-03 中圖分類號:G642

基金項目:英特爾一清華媒體與認知實驗教學項目( 202023011)。

第一作者簡介:楊毅,女,高級工程師,研究方向為數字信號處理,yangyy@mail.tsinghua.edu.cn。

1 背景

媒體與認知實驗課程借鑒包括美國MIT大學、CMU大學、Stanford大學、英國倫敦大學學院等在內的國外著名大學跨媒體信息處理、入機交互與感知技術、虛擬現實及信號處理領域實驗教學課程的特點,并結合清華大學電子工程系在該領域研究的基礎、優勢和創新性成果,有針對性地將已有科研成果轉化為教學實驗課中的教學內容,通過建設一套完整、全面的涵蓋人機感知交互、媒體信息處理、虛擬現實及信號處理領域的探索前沿型實驗教學平臺,培養學生的智能感知技術開發能力;同時,采用集體創新培養和個人研究探索相結合的方式,最終達到理工與人文、技術與藝術、感知與思考的高度融合,成為具有國際一流水平的、兼具科研創新能力和探索精神的領軍型人才。

實驗教學課程內容及平臺涉及的主要研究內容包括媒體數據獲取與人機交互、生物特征識別、語音識別及情感理解、虛擬交互行為分析等。該實驗課程力圖建設成為達到國際水平的智能感知技術實驗教學課程及項目平臺。通過該實驗課程的建立,學生能夠了解國際科學界及工業界最前沿的媒體認知及智能感知技術熱點和難點問題,利用平臺的基礎設施和設備構建并實施多種解決方案。跨行業、跨領域、跨學科的媒體認知及智能感知類前沿綜合實驗課程,通過借助智能感知及人機交互知識作為工具和手段解決媒體信息處理、虛擬現實及人機交互的問題,充分挖掘和激發理工科背景知識較佳的電子工程系學生在交叉學科和前沿技術方面的實力和潛力。

2 媒體與認知實驗課程特點

媒體與認知實驗設計開發了一套以實時智能感知技術為基礎的探索前沿型實驗教學平臺,該平臺在設備和設計內容方面均與國際水平接軌,具有教學互促、知識延伸、技能拓展的特點。項目平臺涵蓋跨媒體信息處理、人機交互與感知技術、虛擬現實等領域的設備和技術,力圖成為與國際接軌的探索前沿型實時智能感知實驗教學平臺。

該課程涉及的技術和研究方向均為國內外智能感知技術領域各大高校和科研院所的研究熱點及難點,將這些研究內容引入實驗教學,可以引導本科學生開闊科研視野、堅定科研信念和明確科研方向。通過構建與國際最新研發技術水平相當的實驗平臺,學生能夠了解國際領先的媒體認知及信號處理知識和技能,利用該平臺的基礎設備構建并實施多種解決方案;教學最終達到培養掌握國際領先技術、具有突出創新實踐能力和持續探索精神的高素質人才的目的。

該平臺內容主要面向各年級本科生及碩士研究生,與基礎核心課、專業限選課等課程配套,逐步形成層次清晰、逐級擴展的具有創新探索前沿性質的智能感知技術教學實驗課程體系。

3 基于手勢識別的媒體認知實驗項目

人機交互的雙向信息流動是以媒體感知和處理為核心的。人將用戶感覺和效應通道傳遞的交互意圖在計算機內表示為文本、語音、圖形、圖像等多媒體信息。人到機( human to computer)信息流動是多媒體信息的獲取及識別過程,計算機處理的信息需要以文本、語音、圖形、圖像等用戶理解概念所需的多媒體信息形式展現出來;機到人( computer to human)的信息流動是多媒體信息的合成和呈現過程,機器利用感知及推理對來自用戶感覺和效應通道的跨媒體信息進行識別、集成和協調,獲取用戶動作和行為習慣、偏好及其他相關信息,以人類易理解的多媒體信息方式為用戶提供輸出信息,從而提供不受時空限制而效能最大化的個性化計算服務。

美國Stanford大學電子工程系提出一種基于Kinect的手勢識別方法,通過Kinect獲取RGB圖像信息和深度數據,采用SURF變換算法實現高準確度的手勢識別。西班牙馬德里卡洛斯大學機器人實驗室( Robotics Lab,Univ. Carlos IIIof Madrid Leganes,Spain)針對傳統的手勢識別系統受光照條件影響導致計算量大、訓練過程長等問題,根據RGB-D攝像頭獲取的深度數據建立人手的骨骼模型,從三維骨骼模型中提取手勢的時域信號,采用有限狀態機對手勢不同狀態下的方向進行編碼,采用基于模板的分類器識別出手勢。瑞士蘇黎世聯邦理工大學計算機視覺實驗室( Computer Vision Lab,ETH Zurich,Zurich,Switzerland)提出一種基于Haarlet的手勢識別系統,根據微軟Kinect設備獲取的深度信息檢測手勢的三維指向,將手勢轉換為交互命令,提高了人與機器人交互的自然性。

石頭、剪子、布、蜥蜴、史波克( Rock-Paper-scissors-Lizard-Spock)是一種由石頭、剪子、布延伸出來的博弈論猜拳游戲,在石頭、剪子、布基礎上增加了兩種手勢,減少了原來石頭、剪子、布游戲和局的幾率。該游戲的手勢及輸贏說明如圖1所示(圖來自百度圖片搜索)。

英特爾的RealSense設備是一種能通過采集視覺、深度,音頻等多種媒體信息獲得手勢、語音等表征意圖的智能感知設備,可以廣泛應用于自然互動、沉浸式協作與創作等創新應用,能夠幫助開發人員在游戲、娛樂和內容創建交互方面實現新的突破。該實驗項目通過利用全新的英特爾三維智能感知設備RealSense,可以實現上述手勢識別的智能感知功能。該實驗設置多種難度,將簡單難度設置為電腦隨機出拳;針對高等難度則需要學習用戶的出拳模式并構建一個馬爾科夫模型,電腦針對用戶的出拳模式進行相應出拳。基于RealSense識別的5種手勢如圖2所示,可以看出ReaISense設備對不同手勢的區分度較高。

4 基于姿勢識別的媒體認知實驗項目

人體的三維模型包含足夠的信息以描述人體的運動特征,對于體感交互設計而言,姿態識別、動作識別、手勢識別非常重要。微軟推出的Kinect設備與計算機軟件開發包一起使用,為企業和開發者提供創建交互式應用程序的基礎,允許開發者借助微軟或語言開發相關應用,提供骨豁跟蹤、人臉跟蹤、語音識別技術等底層功能。基于Kinect設備開發的平臺和應用獲得了不錯的效果。藝術家通過人體組合姿勢構成英文里的各種字母形象,如圖3所示。

該實驗項目通過利用Kinect實現人體字母造型識別,在造型匹配某個特定字母或組合時觸發拍照,解決在實際拍照過程中為了擺出某一特定造型需要多次重復大量拍攝的問題。基本思路是利用Kinect的人體識別功能,在攝像頭獲得的圖像中提取出人置信息,然后將人置信息在本地程序中與預設的目標造型進行匹配,只有當匹配程度到達一定值的時候,程序才觸發拍攝事件并將圖像保存。系統由5個模塊組成:初始化、人體識別、計算匹配度、圖形顯示和拍照觸發。其中,初始化模塊屬于主窗口類,內部由時間進行關聯,其他模塊各為一類,分別通過調用函數和嵌入窗體的方式使用,其算法框架如圖4所示。系統運行過程中,計算出的匹配數值會直接顯示在屏幕上,同時彈出提示字幕,向用戶反饋其姿勢準確程度。

篇3

所謂智能制造,是將物聯網、大數據、云計算等新一代信息技術與先進自動化技術、傳感技術、控制技術、數字制造技術結合,實現工廠和企業內部、企業之間和產品全生命周期的實時管理和優化的新型制造系統。

智能產品具有監測、控制、優化和自主等四個方面的功能。而智能生產是指以智能制造系統為核心,以智能工廠為載體,通過在工廠和企業內部、企業之間以及產品全生命周期形成以數據互聯互通為特征的制造網絡,實現生產過程的實時管理和優化。

此次世界智能制造大會抓住智能制造這一世界經濟熱點,洞察當下全球前沿技術的競爭點,融政產學研為一爐予以共同關注。世界制造業正在經歷一場變革、一場進化,生產將變得更加聰明,效率也就更高。此次大賓朋滿座,說明企業對智能制造充滿渴望,產業發展充滿動力。這場大會是科技思維的饕餮盛宴,必將碰撞出大機遇。

智能制造是中國制造業由大轉強的核心戰略選擇,更是中國經濟增長變速換擋走向新里程的標志。歷經30多年的高速發展,中國在2015年已成為世界制造業第一大國,建成了世界上門類最為齊全的現代制造業體系,中國制造業一直是國家經濟發展的重心,一度使中國成為世界工廠的代名詞,創造過無數讓國人引為榮耀的輝煌。然而,中國制造在發展質量、創新能力、品牌塑造方面,與發達國家相比仍有較大差距,大而不強的問題一直是急需破解的瓶頸,依托資源消耗和人力成本低廉的路徑選擇越來越艱難,低端的傳統優勢日趨衰弱,向著東南亞的新一輪國際產業轉移凸顯中國制造大而不強的尷尬。中國制造亟待在科技創新、智能制造的引領中強筋壯骨,在著力提升生產率的轉型中浴火重生,以獲得經濟中高速增長。

如果說過去3年中國制造在轉型中“熱身”,試圖打開一扇窗戶向外瞧,那么這場大會就是一個全新的里程碑――以最先進的智能制造思想武裝自己,開辟新的航程。

智能制造給世界帶來新活力,給中國帶來新發展。瓦特的蒸汽機,在轟鳴聲中不但改變了他自己貧病交加的命運,也把整個人類帶進了工業社會,解放了生產力,促進了社會進步。喬布斯的“蘋果”,一機在手,包攬世界,億萬網民在刷屏中進入移動互聯時代,也助燃了信息化火焰燃遍全球。中國也在歡呼聲中見證“神九上天,蛟龍入海”的神奇,驚嘆中國制造尖端技術的鬼斧神功,制造業的數字化、網絡化、智能化為中國經濟發展安裝了強勁的翅膀。

智能制造為世界經濟提供新動能,提高生產率。世界經濟不景氣,增長下向風險的警報一直未能解除,亟需轉變發展方式,期待新動能除舊布新、改天換地。唯有人工智能等科技生產擔當此重任,大幅提高生產率,促進經濟的發展。依托自然語言處理、計算機視覺、機器學習等這些人工智能核心領域技術的發展,以生態科技、智能機器人、無人車、無人機等為代表的人工智能技術已漸趨成熟。由此撬動的相關產業鏈也將迎來巨大市場機會,可估商業利益至少在萬億量級。

智能制造將掀起新一輪企業淘汰浪潮。在歐美和日本有成百上千家百年企業,但中國很多企業卻做著做著就夭折了,這與企業家的胸懷和眼光有密切關系。企業家要站得高,看得遠,轉型中高端才能有長久的生命力。這一輪智能制造大潮,讓傳統企業倍感壓力,跟上了,企業就往上走;跟不上,就要趴下去。

篇4

關鍵詞:數字媒體技術;課程體系;實踐教學

0.引言

2003年,浙江大學在國內首次開設數字媒體技術專業后,國內各大高校根據自身的情況紛紛開設了該專業,其中有些是從計算機科學與技術專業或軟件工程專業設置數字媒體技術專業(如浙江大學、江南大學),有些是從藝術專業中分離出該專業(如中國傳媒大學),而有些則依托自身在通信領域的優勢開辦該專業(如北京郵電大學)。這些高校在專業人才培養目標中均強調“技術與藝術的結合”“培養復合型人才”,但他們的側重點不完全一致,工科院校強調“以技術為主藝術為輔”,而藝術類院校則強調“以藝術為主技術為輔”,這就造成了目前該專業在人才培養目標上的不明確。2012年,教育部頒布了《普通高等學校本科專業目錄和專業介紹》,原數字媒體技術專業和影視藝術技術專業從電氣信息類下分離出來成為新目錄中計算機類下的數字媒體技術專業,并規定該專業的培養目標是“培養德、智、體等全面發展,掌握數學與自然科學基礎知識以及與數字媒體相關的計算機科學與技術、信息與通信工程等學科的基本理論、基本知識、基本技能和基本方法,具備良好的技術素質和一定的藝術修養,能在互動媒體、媒體網絡、新媒體工程等領域從事系統設計、開發與應用工作的高級復合型人才。”新目錄進一步規范了數字媒體技術專業的性質、人才培養的基本要求以及培養的學生應該掌握哪些知識,應該具備什么樣能力,并要求在加強學生基本理論與方法的同時強調注重基本技能的培養。為此,在專業建設與教學過程中,必須增加實踐性強的課程,提高教學過程的實踐性,合理地開展實踐、實訓活動,給學生提供較多的參與實踐和鍛煉的機會。

1.數字媒體技術專業課程與實踐教學模式

數字媒體專業是實踐性很強的專業,在教學過程中既要制訂一套科學的課程體系,也要合理地安排實踐與實訓活動,這些對學校的軟硬件條件提出了較高的要求。那么如何利用有限的資源條件,讓學生在掌握較扎實的專業理論知識的同時為學生創造更多的實踐、實訓機會,是我們需要深入思考和研究的問題。結合江南大學數字媒體技術專業近幾年的辦學歷程,筆者以為,要全面提高專業課程教學和實踐教學水平,可從以下幾方面入手。

1.1創新科學的人才培養方案和課程體系

科學的人才培養方案是培養合格高校畢業生的根本保障。人才培養方案的制訂要結合高等學校的教育特點和自身條件,從市場和企業需求出發,面向社會以適應市場的發展規律。課程的設置要做到按需設置,在保證相對固定的情況下能適度調整,這樣才能培養出大批既掌握基本技能又能滿足社會需要的創新型應用人才。

實現專業的培養目標,不是僅靠一門或幾門課程所能奏效的,而要靠全部專業課程來協調和補充。課程體系是否合理,直接關系到創新人才培養的成敗。根據江南大學目前的專業優勢,在課程體系的設置中借鑒國內外的成功經驗,在加強學科交叉與滲透的同時強調以計算機技術為主、藝術為輔的教學模式,以體現“藝工結合”的辦學特色。

為達到專業人才培養的目標,在課程設置中我們將課程分為通識教育課程、學科平臺課程、專業核心課程、專業選修課程、集中實踐性環節以及素質教育等6大類。其中,通識教育課程主要包括思想政治理論類課程、外語與自然科學基礎課程;學科平臺和專業核心課程主要是一些能體現專業特色的基礎必修課程和專業課程,包括一些藝術類課程,實現學科交叉與滲透;專業選修課程主要是一些專業拓展性課程,以激發學生學習的積極性、主動性和創造性,為學生個性化發展打下基礎;集中實踐性環節安排在短學期(每學年的第二學期)進行,主要是針對已學過的課程而開設的綜合應用與設計類課程,目的是加強學生的實踐動手能力,培養學生具有一定的自主創新應用能力,以充分展示學生的個性化。

在課程的建設與執行方面,除通識教育課程外,對其他課程根據設置、知識點、課程內容之間的關聯性等采用課程鏈和課程群的方式進行,主要分為以下5大課程群:

(1)藝術類課程:素描、色彩與綜合構成、藝術設計概論、平面設計、場景設計與表現、數字攝影與攝像及視頻特技與非線性編輯。

(2)程序與算法類:離散數學、程序設計I(c)、程序設計II、數據結構與算法分析、面向對象技術與語言C++、Java與對象分布技術、腳本編程技術、計算理論及云計算技術等。

(3)系統與硬件類:數字媒體技術概論、數字電路、計算機組成原理、操作系統、數據庫系統原理、匯編與接口、數據采集技術、數字視音頻技術、數字信號處理、計算機視覺、面向對象的軟件工程及人工智能。

(4)圖形圖像及應用類:計算機圖形學、數字圖像處理技術、高級圖形技術及應用、人機交互技術、流媒體開發技術、信息可視化、虛擬現實與數字娛樂、在線互動媒體技術、XML技術、數字安全技術及計算機前沿技術講座。

(5)網絡與動畫游戲類:計算機網絡、網站建設與網絡傳播、動畫原理與設計、動畫動力學與運動學、計算機動畫編程技術、移動媒體游戲設計及計算機游戲程序設計。

在以上課程體系中,要求各課程群內的課程相關性較強并相互依托,而群間的課程相對獨立。通過對各課程群課程的設置、各課程的知識點與學分分配以及課程之間的內容銜接等問題進行探討,可以加強不同課程間的銜接與協調,使課程設置更加合理,教學效果也會得到進一步提升。另外,按課程群進行課程體系建設,既可以充分發揮任課教師的專業特長,又能促進學生的個性化發展。

1.2強化動手能力的培養,推進實踐教學改革

實踐教學是高校教學的重要組成部分,是培養創新型人才的重大環節,是對理論教學的驗證、補充和拓展,它始終貫穿于高等教育的全過程。實踐教學環節是創新課程體系的一個重要環節,能提高學生對理論教學的加深、提高和綜合運用,培養學生的創新精神和綜合素質。建立完善的專業實踐教學體系,促進學生實踐能力和創新精神的培養,我們從以下方面開展工作:

(1)完善實踐教學體系,積極開展課內外實踐教學活動。制訂完善的實踐教學管理制度,加強對實踐課程的監督與管理;編寫并適時修改實驗課程的教學大綱,推進實驗教學內容、方法、手段及模式的改革與創新,培養學生發現、分析和解決問題的興趣及能力,在學生中開展研究性學習和創新型實驗的試驗。

(2)加強學生的實踐與實訓,做好校內外實習基地的建設。實習基地是實施實踐教學環節的重要場所,是對學生進行專業技術技能訓練和解決實際問題能力的訓練。在校內,結合數字媒體學院的辦學宗旨和人才培養目標,除平時課程的實驗教學外,利用短學期(每學年的第二學期)進行專業課程設計,主要涉及面向對象課程設計、人機交互課程設計、三維建模、計算機組成課程設計、圖像處理課程設計、互動媒體課程設計、網絡游戲課程設計等。由專業指導教師布置課程的設計內容,要求學生在一周時間內完成,最終以大作業或作品的形式提供成果,并評定成績。通過課程設計,能培養學生運用所學理論知識解決某些實際問題的能力和獨立工作能力。在校外,我們聯合企業建立多個實訓基地,為學生提供包括基本技能和綜合能力兩方面的真實的實踐環境。實訓期間,學生頂崗培訓,并要求企業指定實訓指導教師,負責對學生實訓期間的技能培養、團隊協作與溝通以及組織管理等方面的指導。通過實訓,不僅培養學生解決實際應用問題的能力,還能培養學生愛崗敬業、遵規守紀、團隊協作、市場競爭意識以及創新意識等綜合素質。

(3)以項目為驅動,促進學生介入科研活動。以討論式教學、研究式學習、項目團隊等多種形式,引導學生開展多種學術觀點和思想的交鋒,追蹤本專業的最新發展前沿,提高自主學習和獨立研究能力。結合國家、省及校級大學生創新創業訓練計劃,以項目的形式讓學有余力的學生通過自主選題或參與教師科研項目進行初步的探索性研究工作。在組建學生項目團隊時,要求團隊成員中既要有數字媒體技術專業的學生,也要有藝術專業的學生,以真正體現“藝工”結合的培養宗旨。這幾年的經驗表明,讓學生參與科研項目,不僅培養了學生運用所學知識解決實際問題的能力,還能提高學生對專業的愛好及其學習激情和創新精神,讓學生在了解專業發展前沿的同時掌握從事科學研究的方法,為以后從事數字媒體工作打下了較好的基礎。

(4)切實加強畢業設計(論文)的組織與監督工作。畢業設計(論文)環節是高校實現人才培養目標、強化學生專業知識和專業技能、提高學生綜合素質和創新能力的重要環節,是高等學校本科生教學計劃的重要組成部分,是理論與實踐相結合、教學與科研和生產相結合的過程,因此它有著任何課堂教學或教學實習所不可替代的功能,在培養高級專門人才過程中有著特殊的地位。為提高畢業設計(論文)的質量,必須制訂完善的規范與標準,并對整個過程實行全程監控。在畢業設計(論文)期間,我們將整個過程分為畢業生動員、學生選題、教師指導、質量監控以及評閱答辯等,時間從每年12月開始到次年的6月。指導教師由高級職稱或具有博士學位的教師擔任,根據專業要求及從事的科研工作每位指導教師確定題目,實現學生與教師的雙向選擇;學生選題后由指導教師下達具體的任務,系部組織學生開題;實行中期檢查制度,對學生的工作進程進行監控;嚴把畢業答辯關。通過畢業設計(論文)環節,促進學生分析、解決實際問題和科學研究能力的提高,為他們走上工作崗位奠定良好基礎。

(5)開展多種形式的學術交流活動。為激發學生對專業學習的興趣,了解專業發展的最新動態和社會對專業的需求,聘請國內知名學者和行業專家為學生開展多種形式的學術和主題講座。學術專家可以就專業現狀、發展方向和最新的研究成果為本科生進行介紹,激發學生對專業的熱愛和科學研究的興趣;行業專家則介紹一些新興產業的相關信息和發展現狀,結合行業進行一些技術培訓,讓廣大師生深入了解企業和社會的需求。組織學生參加“挑戰杯”大學生課外學術科技作品競賽、信息技術競賽等科技競賽活動,鼓勵學生努力追求夢想、迎接挑戰,同時營造學院濃厚的學術氛圍,促進更加良好學風的形成。

實踐教學始終貫穿于高等教育的全過程,要不斷改進實踐教學的方法和形式,把理論教學與實踐教學擺在同等重要的地位;要通過引導吸引高水平教師從事實踐教學工作,加強實驗、實習與實訓、畢業設計(論文)等實踐教學環節;要加強產學研合作,充分利用國內外資源,不斷拓展校際、校企、校所之間的合作,做好校內外實習基地的建設;推進討論式教學、研究式學習、項目團隊等新型教學組織形式,提高學生自主學習和獨立研究能力。

篇5

關鍵詞:基于內容圖像檢索;相關反饋;主動學習;樣本選擇

中圖法分類號:TP391 文獻標識號:A 文章編號:2095-2163(2013)04-

Research on Reference Feedback based on Active Learning

WU Weining, LIU Yang, GUO Maozu*, WANG Chunyu, LIU Xiaoyan

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001)

Abstract: Reference feedback is a common technique in the field of information retrieval. Recently, it has been widely applied in the task of content-based image retrieval (CBIR) in order to overcome the gap between low features and high semantic concepts by utilizing the user-computer interaction. This paper combines the active learning into reference feedback technique. The goal is to choose the most informative images in the unlabeled pool as returned images by using the active learning, and then reduces the feedback times. On the COREL database and VOC database, the paper evaluates the proposed method. The experimental results indentify that the reference feedback based on active learning can effectively enhance the performance of CBIR system.

Keywords: Content-based Image Retrieval; Reference Feedback; Active Learning; Sampling Strategy

0 引言

相對文本而言,圖像包含的內容則要豐富得多。由于互聯網的發展,web上的圖片數量正日趨龐大,圖像包含的語義信息亦千差萬別,另外具有相同語義信息的圖像數量頁在與日俱增。因此,作為信息檢索中一個重要分支,基于內容的圖像檢索(CBIR)已成為關注熱點。

CBIR方法是以一幅圖像作為單位,通過使用圖像領域的前沿技術,提取圖像的視覺特征,例如:顏色,紋理等。當用戶查找圖像時,搜索引擎根據用戶所提供的圖像視覺特征,尋找與之相似的圖像。這一做法避免了TBIR策略存在的問題,可直接對圖像進行操作。但是,由于圖像處理技術的局限性,單純提取圖像底層特征很難完整描述圖像包含語義信息,并且,圖像所屬的不同領域,所包含的視覺對象之間具有的空間信息等,也會對圖像的語義信息產生很大的影響。為了使搜索引擎能夠根據用戶提供的高層語義概念返回與用戶選擇圖像語義最為接近的圖像,相關反饋技術則提供了一種良好的實現途徑。該技術是使得檢索系統可根據算法選擇少部分圖像返回給用戶,用戶對這些圖像給出標記信息,學習系統再從這些標記圖像中進行知識學習,并利用這些新知識提供新的檢索結果。

根據相關反饋過程的特點,主動學習技術可以有效地用于該過程。具體做法是通過采樣算法選擇對檢索系統最有利的部分樣例作為反饋圖像,并將這些圖像提交給用戶進行標記。使用主動學習技術選擇反饋圖像的目的是減少提升檢索系統性能所需要的反饋圖像數量,同時也一并減少用戶的工作量和提交反饋圖像標記的次數。根據這一目的,本文提出一種基于主動學習算法的相關反饋技術,利用主動學習技術從大量無標注待檢索圖像中選擇信息含量最大的圖像,將這些圖像作為反饋圖像,提交用戶進行標注,由此而減少用戶標記反饋圖像的次數和數量,并提高CBIR系統的性能。本文主要工作和貢獻概述如下:根據CBIR圖像系統中給出的目標圖像,學習一個直推向量機模型[1](Transductive Support Vector, TSVM);使用該模型對圖像庫中的所有待檢索圖像與目標圖像的相似程度進行預測;根據預測結果計算圖像對應的信息熵值,選擇信息熵的絕對值最小的一組圖像作為反饋圖像,提交用戶獲取標記信息;將標注后的圖像用于進一步學習直推向量機模型,上述訓練過程迭代進行,直至達到用戶滿意的檢索效果為止。結合提出的算法過程,本文在Visual Studio 2005平臺開發和實現了這一圖像檢索系統,并在COREL圖像庫上對系統性能進行了實驗驗證,實驗結果證明了系統的有效性。

1 相關工作

基于內容的圖像檢索(CBIR)方法可以被視作機器學習領域中的分類問題,即根據所給出的待檢索圖像,學習一個分類模型,利用該模型將圖像庫中的圖像劃分為目標圖像和非目標圖像。在檢索過程中,一個首要的問題是如何克服圖像的底層特征與高層語義概念之間的語義鴻溝。為了解決這一問題,相關反饋技術通過向用戶提交查詢的方式,讓用戶提供一部分圖像的語義信息,根據反饋圖像中的語義信息,提升系統檢索的準確度。另外,隨著用戶提交反饋次數的增加,學習系統逐步將反饋的圖像添加到學習系統的訓練集中,并使用增量學習的方式,學習用戶提供的語義知識。值得注意的是,使用相關反饋技術的CBIR系統的學習方式與主動學習算法具有很大的相似性,因此,利用主動學習算法設計相關反饋,提升CBIR系統的精度,這一做法越發受到研究人員的廣泛重視,成為研究熱點。

目前,已有一些研究人員致力于將主動學習算法應用于相關反饋技術中,并取得了良好的實際效果。這些做法可以分為兩大類。第一類是委員會投票方法[2,3],此類做法的特點是在同一個圖像集上同時學習多個分類模型,并使用這些模型對同一個無標注圖像的類別進行投票,選擇分類模型差異程度最大的圖像作為反饋圖像;第二類是基于不確定度的反饋方法[1],這類做法的特點是使用當前分類模型對無標注圖像的類別進行預測,并根據分類模型的預測結果計算分類模型對圖像的置信度,再選擇當前分類模型最不確定的圖像交由用戶進行反饋。

首先,訓練集已知的情況下,Platt提出一種貪心算法[4],根據無標記樣例對應的未來期望誤差,從無標記樣例集合中選擇訓練樣例,目的是通過選擇未來期望誤差最小的樣例,逐步搜索主動學習算法的全局最優解。但是,這一做法的缺點是,為了計算每個無標記樣例的未來期望誤差,需要分別計算該樣例被添加正類標記和負類標記后對分類模型的影響,即多次重新訓練分類模型。如果無標記樣例數量巨大,這一做法的計算消耗很大,因此,很難滿足檢索系統的要求。近年來,支持向量機模型以其在小樣本學習問題上的卓越性能受到了廣泛關注。針對該支持向量機模型的啟發式主動學習算法也隨之得到了更多的研究與使用,例如:Schohn提出了一種啟發式的SVM主動學習算法,通過核空間將圖像的底層特征維度無限放大,獲得了一個特征維度數目遠遠高于樣本數量的稀疏空間,而主動學習的做法是選擇包含盡可能多的維度信息的樣例作為包含信息含量最高的樣例。事實證明,這種方法不但可以獲得近似于貪心算法的結果,而且運行效率更高[5]。在該類做法中,包含維度信息最多的樣例主要集中在距離支持向量機的分類超平面較近的位置,因此,這一主動學習算法主要選擇距離分類界面最近的樣例作為反饋樣例。與Schohn的做法不同的是,Zhou提出了SSAIR算法[6]。該算法通過利用半監督學習中的co-training算法,結合主動學習中的co-testing模式,使用co-training中訓練得到的兩個分類模型對測試樣本進行投票分類,最終,采用兩個分類模型產生分歧的樣本作為供用戶反饋的備選樣本。與其它用于該領域的主動學習算法不同的是,這一做法改變了傳統反饋圖像集由用戶在前次檢索中系統認定的與待查詢圖像最相關的那些圖像來構成的定則,而是通過分類模型的投票來選擇反饋圖像集,盡最大可能改進檢索系統的性能。

以上兩類做法中,第一類方法需要同時學習多個模型,計算量和時間消耗較大,為了滿足圖像檢索系統的實時性要求,本文選擇第二類方法選擇反饋圖像。事實上,Schohn和Zhou提出的主動學習算法的共同特點是,認為分類模型最不確定或者置信度最低的樣例是無標記圖像中信息含量最大的樣例,在具體做法中則表現為多個分類模型彼此間分歧最大或者距離分類超平面最近的樣例,選擇這些樣例進行標記,可最大限度提高分類模型的性能。與這些方法不同的是,本文提出一種最大信息熵的主動學習算法,在所有無標注樣例中,選擇樣例對應的信息熵值最大的樣例點作為信息含量最大的樣例,并以此作為反饋樣例。算法的目的是在有限的檢索時間條件下,更加有效衡量樣例的信息含量,由此提高檢索系統的性能。

2 基于主動學習的相關反饋算法

2.1信息熵最大化采樣策略

本節詳細介紹了信息熵最大化這一采樣策略,為了方便理解,首先給出問題的基本概念。因為基于相關反饋技術的圖像檢索系統是一個迭代的學習過程,這里假定在第輪迭代中,訓練集表示為,其中,分別表示訓練樣例及其對應的標記信息。因為圖像檢索可看作是將待檢索圖像劃分為正類和負類的過程,故有。本文使用TSVM作為分類模型,則在當前迭代步中,TSVM算法學習的分類超平面為:

這里,和分別表示訓練樣本和無標記樣本在核空間的距離,是偏差項。對于任意一個無標記樣本,不考慮相同的歸一化系數,該樣本與分類超平面之間的距離是:

鑒于TSVM模型僅能提供無標記樣本與分類界面之間的距離,而無法提供樣本與對應的類別標記之間的精確概率輸出,為此,本文在這里使用了sigmoid函數,通過擬合的方法獲得樣本對應類別標記的后驗概率值,即:

其中,參數和使用Platt[7]中的優化算法,迭代求解得到。根據無標記樣本對應的后驗概率值,無標記樣本對應的信息熵值可以通過下式計算:

根據計算得到的信息熵值,選擇信息熵值最大的樣本,作為本輪迭代中最適合加入到訓練集中的無標記樣本,,即:

2.2 基于主動學習的相關反饋過程

信息熵是信息論中反映樣本信息含量的指標之一,鑒于此,信息熵也經常在機器學習算法中作為樣本信息含量的度量標準。值得注意的是,在公式(5)中,分類模型對無標注樣本的預測概率越接近于0.5,無標注樣本對應的信息熵值越大,該樣本的不確定程度也就越大。在這一點上,信息熵最大化采樣策略與基于不確定程度的采樣策略的目標是一致的。在圖像檢索的相關反饋過程中,本文使用信息熵最大化采樣策略,由待檢索圖像中選擇反饋圖像,提交用戶做出標記,將標記后的樣本用于分類模型的訓練過程,這個過程迭代進行,直至用戶滿意為止。下面,給出了基于主動學習的相關反饋的算法過程。

算法:基于主動學習的相關反饋算法

輸入:標記圖像集,無標記圖像集,反饋圖像數量

輸出:檢索結果

BeginFor

(1)在標記圖像集上學習TSVM分類模型,獲得公式(1)中的分類超平面;

(2)根據分類超平面,使用公式(2)計算每一個無標記樣本與該分類界面之間的距離;

(3)通過公式(3)中的sigmoid函數擬合,獲得無標記樣本對應的后驗概率值;

(4)使用公式(4)逐個計算無標記樣本的信息熵值;

(5)選擇信息熵值最大的個無標記樣本作為反饋圖像,提交給用戶進行標記;

(6),;

(7)如果用戶對當前檢索結果滿意,則結束,否則返回步驟1,。

EndFor

在上面的反饋過程中,每輪迭代中,檢索系統返回信息熵最大的一組樣本提交給用戶標注,該做法可以減少迭代次數,在用戶可接受的范圍內,盡可能多地提供標注樣本用于訓練。

3 實驗結果與分析

3.1數據庫及實驗設計

本實驗使用COREL圖像庫中的3類圖像作為待檢索圖像,每類圖像包含100幅圖像,這3個圖像類別分別是鷹,魚和馬。本文分別提取每一幅圖像的特征組成樣本集合,使用TSVM作為分類模型,用于從CBIR系統中獲得檢索結果。在每一組實驗中,首先,從待檢索圖像中隨機抽取一幅圖像作為目標圖像,訓練TSVM模型;根據該模型的預測結果,計算每一幅圖像的信息熵值,并選擇信息熵最大的五幅圖像作為反饋圖像();提交用戶標記后,將反饋圖像和標記用于訓練TSVM模型,同時給出檢索結果;該過程循環進行,直至達到結束標準為止。本文使用查全率(precision)作為圖像檢索結果的評價標準,其中,檢索系統劃分的相關圖像數量是100幅,召回圖像數量是20幅。

3.2實驗結果

在表1和表2中,本文給出了反饋次數為5次,并使用不同的圖像底層特征條件下,在不同語義類別上,CBIR系統的檢索結果。從實驗結果可以看出,使用最大墑作為樣本信息含量的度量標準,基于主動學習的相關反饋技術在圖像檢索系統中取得了良好的檢索結果。隨著反饋次數的增加,CBIR系統的檢索結果得到逐步提高。同時,表1和表2的對比還可以發現,顏色稀疏和相關圖組成的混合特征獲得了比SIFT特征更好的檢索結果,這是因為前者的維度高于后者,提供了更多的圖像底層語義信息,由此而提高了檢索效果。

表1 顏色稀疏和相關圖的混合特征條件下,不同反饋次數時,CBIR系統檢索精度

Tab. 1. Using sparse color and related features, different feedback times, the precision of CBIR system

初始值

反饋1次

反饋2次

反饋3次

反饋4次

反饋5次

0.71

0.724

0.73

0.628

0.732

0.75

0.502

0.522

0.428

0.526

0.522

0.604

0.494

0.538

0.504

0.536

0.572

0.468

表2 SIFT特征條件下,不同反饋次數時,CBIR系統檢索精度

Tab.2 Using SIFT features, different feedback times, the precision of CBIR system

初始值

反饋1次

反饋2次

反饋3次

反饋4次

反饋5次

0.5

0.756

0.39

0.71

0.774

0.622

0.44

0.376

0.406

0.406

0.472

0.424

0.25

0.314

0.22

0.358

0.23

0.334

在圖1和圖2中,本文給出了使用基于主動學習的相關反饋技術在CBIR系統中的檢索結果。除了使用COREL圖像庫作為檢索圖像庫之外,本文還增加了VOC圖像庫(包含20類,共計5 011幅圖像)作為檢索圖像庫,對所提出方法進行實驗驗證。從圖1和圖2中可以看出,基于主動學習的相關反饋技術可以有效提升CBIR系統的檢索性能。

(a) Car類別

初始檢索結果

使用相關反饋技術后的檢索結果

(b) Aeroplane類別

初始檢索結果

使用相關反饋技術后的檢索結果

圖1 VOC圖像庫上,使用基于主動學習相關反饋技術的圖像檢索結果

Fig.1 The retrieval results on VOC database by using feedback techniques based on active learning algorithm

(a) Eagle類別

初始檢索結果

使用相關反饋技術后檢索結果

初始檢索結果

使用相關反饋技術后檢索結果

圖2 COREL圖像庫上,使用基于主動學習相關反饋技術的檢索結果。

Fig.2 The retrieval results on COREL database by using feedback techniques based on active learning algorithm

4 結束語

本文利用了主動學習算法在選擇訓練樣本方面,相對于隨機選擇方法的優勢,提出了一種基于主動學習的相關反饋技術。在所提出的技術中,算法利用了分類模型最不確定的樣本可以提供更多反饋信息的特點,使用信息熵作為樣本信息含量的度量標準,選擇每輪迭代過程中,信息熵值最大的樣本作為反饋樣本,達到了增量學習,提升檢索系統性能的目的。本文使用COREL圖像庫和VOC圖像庫,對所提出方法的性能進行驗證,實驗結果證明所提出方法的有效性。

參考文獻

[1] CHEN J X. Active learning for transductive support vector machines with applications to text classification[J]. 計算機科學. 2004, 31: 242-244.

[2] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[C]//Proceedings of 15th International Conference on Machine Learning. Madison. WI, 1998: 1-9.

[3] SEUNG H, OPPER M, SOMPOLINSKY M. Query by committee[C]//Proceedings of 5th ACM Workshop on Computational Learning Theory. Pittsburgh, PA, 1992: 287-294.

[4] PLATT J. Fast training of support vector machins using sequential minimal optimization. advances in kernel methods: support vector learning[M]. Cambridge: MIT Press, 1998: 42-65.

[5] SCHOHN G, GOHN D. Less is more: active learning with support vector machine[C]// Proceedings of 17th International Conference of Machine Learning. Stanford, CA, 2000: 204-211.

[6] ZHOU Z H, CHEN K J, JIANG Y. Exploiting unlabeled data in content-based image retrieval[C]//Proceedings of the 15th European Conference on Machine Learning. Pisa, Italy: LNAI 3021, 2004: 525-536.

[7] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Advances in Large Margin Classifiers[M]. Cambridge: MIT Press, 1999: 61-74.

基金項目:國家自然科學基金(61171185,61271346,60932008);高等學校博士學科點專項科研基金(20112302110040)

作者簡介:吳偉寧(1983-).女,黑龍江寧安人,博士研究生.研究方向:機器學習,圖像檢索;

劉揚(1976-).男,吉林懷德人,博士,副教授.研究方向:機器學習,計算機視覺;

郭茂祖(1966-).男,山東夏津人,博士后,教授,博導.研究方向:計算生物學與生物信息學,機器學習與圖像理解;

王春宇(1979-).男,遼寧寬甸人,博士研究生,講師.研究方向:生物信息學,并行計算;