語音識別范文
時間:2023-03-29 05:26:07
導語:如何才能寫好一篇語音識別,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞:語音識別 應用領域 熱點 難點
中圖分類號:TN912 文獻標識碼:A 文章編號:1007-3973 (2010) 03-062-02
1應用領域
如今,一些語音識別的應用已經應用到實際生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系統等。語音識別的應用領域非常廣泛,幾乎涉及到日常生活的方方面面。如語音撥號系統、、家庭服務、訂票系統、聲控智能玩具、醫療服務、銀行服務、聽寫機、計算機控制、工業控制、語音通信系統等。預計在不遠的將來,語音識別技術將在工業、家電、通信、、醫療、家庭服務等各個領域深刻改變人類現有的日常生活方式。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之一。
2發展歷史
語音識別的研究工作開始于50年代,Bell實驗室實現了第一個可識別十個英文數字的語音識別系統―Audry系統。但真正取得實質性進展,并將其作為一個重要的課題開展研究則是在60年代末70年代初。60年代,提出了動態規劃(DP)和線性預測分析技術(LP),其中后者較好地解決了語音信號產生模型的問題,極大地促進了語音識別的發展。70年代,動態時間歸正技術(DTW)解決了語音特征不等長匹配問題,對特定人孤立詞語音識別十分有效,在語音識別領域取得了突破。在此期間還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步深入,HMM模型和人工神經網絡(ANN)在語音識別中成功應用。1988年,FULEE Kai等用VQ/I-IMM方法實現了997個詞匯的非特定人連續語音識別系統SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續語音識別系統。人們終于在實驗室突破了大詞匯量、連續語音和非特定人這三大障礙,并以此確定了統計方法和模型在語音識別和語言處理中的主流地位。使得借助人工智能中的啟發式搜索和語音模型自身的特點,高效、快捷的算法使得建立實時的連續語音識別系統成為可能。
90年代,人們開始進一步研究語音識別與自然語言處理的結合,逐步發展到基于自然口語識別和理解的人機對話系統。人工神經元網絡(ANN)也開始應用于語音識別,它和HMM模型建立的語音識別系統性能相當,在很多系統中還被結合在一起使用以提高識別率及系統的魯棒性。小波分析也開始用于特征提取,但目前性能不理想,其研究還在進一步深入中。
現在語音識別系統已經開始從實驗室走向實用,出現了比較成熟的已推向市場的產品。許多發達國家如美國、日本、韓國以及IBM、Apple、Microsoft、AT&T等著名公司都為語音識別系統的實用化開發研究投以巨資。
3研究的熱點與難點
目前語音識別領域的研究熱點包括:穩健語音識別(識別的魯棒性)、語音輸入設備研究 、聲學HMM模型的細化、說話人自適應技術、大詞匯量關鍵詞識別、高效的識別(搜索)算法研究 、可信度評測算法研究、ANN的應用、語言模型及深層次的自然語言理解。
目前研究的難點主要表現在:(1)語音識別系統的適應性差。主要體現在對環境依賴性強。(2)高噪聲環境下語音識別進展困難,因為此時人的發音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,必須尋找新的信號分析處理方法。(3)如何把語言學、生理學、心理學方面知識量化、建模并有效用于語音識別,目前也是一個難點。(4)由于我們對人類的聽覺理解、知識積累和學習機制以及大腦神經系統的控制機理等方面的認識還很不清楚,這必將阻礙語音識別的進一步發展。
4語音識別系統
一個典型的語音識別系統如圖所示:
輸入的語言信號首先要進行反混疊濾波、采樣、A/D轉換等過程進行數字化,之后要進行預處理,包括預加重、加窗和分幀、端點檢測等。我們稱之為對語音信號進行預處理。
語音信號的特征參數主要有:短時能量En,反映語音振幅或能量隨著時間緩慢變化的規律;短時平均過零率Zn,對于離散信號來講,簡單的說就是樣本改變符號的次數,可以粗略分辨清音和濁音;短時自相關函數;經過FFT或LPC運算得到的功率譜,再經過對數運算和傅里葉反變換以后得到的倒譜參數;根據人耳聽覺特性變換的美爾(MEL);線性預測系數等。通常識別參數可選擇上面的某一種或幾種的組合。
語音識別是語音識別系統最核心的部分。包括語音的聲學模型(訓練學習)與模式匹配(識別算法)以及相應的語言模型與語言處理2大部分。聲學模型用于參數匹配,通常在模型訓練階段按照一定的準則,由用語音特征參數表征的大量已知模式中通過學習算法來獲取代表該模式本質特征的模型參數而產生。在識別(模式匹配)時將輸入的語音特征同聲學模型(模式)根據一定準則進行匹配與比較,使未知模式與模型庫中的某一個模型獲得最佳匹配以得到最佳的識別結果。語言模型一般指在匹配搜索時用于字詞和路徑約束的語言規則,它包括由識別語音命令構成的語法網絡或由統計方法構成的語言模型,語言處理則可以進行語法、語義分析。
聲學模型是語音識別系統中最關鍵的一部分。目前最常用也最有效的幾種聲學識別模型包括動態時間歸整模型(DTW)、隱馬爾可夫模型(HMM)和人工神經網絡模型(ANN)等。
DTW是較早的一種模式匹配和模型訓練技術,它把整個單詞作為識別單元,在訓練階段將詞匯表中每個詞的特征矢量序列作為模板存入模板庫,在識別階段將待識別語音的特征矢量序列依次與庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。DTW應用動態規劃方法成功解決了語音信號特征參數序列比較時時長不等的難題,在小詞匯量、孤立詞語音識別中獲得了良好性能。但因其不適合連續語音大詞匯量語音識別系統,目前已逐漸被HMM和ANN模型替代。
HMM模型是語音信號時變特征的有參表示法。它由相互關聯的兩個隨機過程共同描述信號的統計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態的Markor鏈,另一個是與Markor鏈的每一狀態相關聯的觀察矢量的隨機過程(可觀測的)。HMM很好的模擬了人得語言過程,目前應用十分廣泛。HMM模型的模型參數包括HMM拓撲結構(狀態數目N、狀態之間的轉移方向等)、每個狀態可以觀察到的符號數M(符號集合O)、狀態轉移概率A及描述觀察符號統計特性的一組隨機函數,包括觀察符號的概率分布B和初始狀態概率分布 ,因此一個HMM模型可以由{N,M,A,B, }來確定,對詞匯表中的每一個詞都要建立相應的HMM模型。
模型參數得到后可以用Viterbi算法來確定與觀察序列對應的最佳的狀態序列。建好模型后,在識別階段就是要計算每個模型產生觀察符號序列的輸出概率,輸出概率最大的模型所表示的詞就是我們的識別結果。這個過程計算量很大,有人提出了前向-后向算法,大大減少了計算量,已經被廣泛采用,關于它們的各種改進方法也被大量提出。
ANN在語音識別中的應用是現在研究的又一熱點。ANN本質上是一個自適應非線性動力學系統,是由結點互連組成的計算網絡,模擬了人類大腦神經元活動的基本原理,具有自學習能力、記憶、聯想、推理、概括能力和快速并行實現的特點,同時還具備自組織、自適應的功能。這些能力是HMM模型不具備的,可用于處理一些環境信息十分復雜,背景知識不清楚,推理規則不明確的問題,允許樣品有較大的缺損、畸變,因此對于噪聲環境下非特定人的語音識別問題來說是一種很好的解決方案。目前大部分應用神經網絡的語音識別系統都采用了BP網并取得了較好的識別效果。
將ANN與HMM結合分別利用各自優點進行識別將是今后的一條研究途徑。二者結合的混合語音識別方法的研究開始于上世紀90年代,目前已有一些方法將ANN輔助HMM進行計算和學習概率參數。
語言模型主要分為規則模型和統計模型兩種。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型基于這樣一種假設:第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料庫中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5總結
盡管語音識別技術已經取得了長足的進步,而語音識別系統也層出不窮,不斷的改變人類現有的生活方式,但其比較成功的應用也只是在某些特定的領域,談不上大規模廣泛的應用。只有建立從聲學、語音學到語言學的知識為基礎、以信息論、模式識別數理統計和人工智能為主要實現手段的語音處理機制,把整個語音識別過程從系統工程的高度進行分析構建,才有可能獲得能與人類相比的高性能的、完整的計算機語音識別系統。
參考文獻:
[1]易克初,田斌.付強.語音信號處理[M].國防工業出版社,2000.
[2]胡航.語音信號處理[M].哈爾濱工業大學出版社,2000.
[3]趙力.語音信號處理[M].機械工業出版社,2003.
篇2
簡單地說,自動語音識別(ASR)是一種讓計算機識別語音,并將它轉換為書面文本的技術,是語音科學與工程發展最快的領域之一。作為新一代的計算技術,它是人機交互領域繼文本到語音轉換(TTS)和支持交互式語音響應(IVR)系統之后的又一個重大創新。自動語音識別系統的目標是準確、有效地將語音信號轉換成文本,并且不受說話者、環境或者是使用的設備(即麥克風)的限制。
語音識別技術最初是為殘疾人設計的,它可以幫助那些肌肉骨骼殘疾人士實現計算機上的最大生產力。雖然自動語音識別是一項幾十年前就開始開發的技術,但直到Apple的虛擬個人助理SiriTM和IBM的WatsonTM的商業成功才真正展示了這一領域的重大突破。事實上,當2011年底Apple推出新一代的iPhone Siri語音識別軟件時,在某種意義上意味著這個具有幾十年歷史的舊技術對普通消費者來說已經足夠好了。
全球語音識別市場的主導者是總部設在美國的Nuance Communications,其軟件被認為是Siri的動力, 而它的大多數技術依賴于將語音轉換為計算機可以理解的文本。Nuance的語音解決方案支持多達50種不同的語言,并且維護著世界上最大的語音數據圖書館之一;有近三分之二的財富100強公司依靠Nuance的解決方案;Nuance的解決方案已經應用到超過50億部手機和7千萬輛汽車上。在醫療方面,僅在美國就有超過3千家醫院使用Nuance的醫療保健解決方案,超過15萬的醫生和護理人員使用Nuance的Dragon Medical系統。
自動語音識別的發展
最早嘗試設計機器自動語音識別系統是在20世紀50年代,但以失敗告終。第一次成功的語音識別成果產生在20世紀70年代,當時一般的模式匹配技術被推出。由于應用擴展有限,基于統計方法的自動語音識別技術也在同一時期開始開發。如今,統計技術在自動語音識別應用中盛行,常見的語音識別系統可以識別數千字。
在20世紀90年代初,計算機語音識別技術出現了巨大的市場機會。但當時這些產品的早期版本笨重且很難使用,而且不得不做出妥協:它們或者被“調整”為要依賴于一個特定的說話者,或者是只有小詞匯量,或者是用一種非常程式化、僵化的語法。然而,在計算機行業中沒有什么可以長期保持不變。20世紀90年代末期,出現了全新的商業語音識別軟件包,它們比上一代產品更容易使用,也更有效。
自動語音識別研究的“神圣目標”是讓計算機實時地以100%的準確度識別任何一個人說的話,并且不受詞匯量、噪音、說話者特征和口音、或者說話渠道的影響。盡管在這一領域的研究已經有幾十年了,但大于90%的準確率只有在某種程度的制約下才能實現。例如對通過使用麥克風(小詞匯量,無噪音)的連續數字的識別準確率可以達到99%以上;如果系統被訓練學習某個說話者的聲音,那么在可用的商用系統中較大的詞匯也同樣能被處理,只是準確率會下降到90%~95%;而不同說話者不同渠道的大詞匯量語音識別的準確率不超過87%,并且處理時間是實時的數百倍。自動語音識別的性能可能受許多因素的影響,包括技術設計、語音輸入的類型和質量、周邊環境和用戶特征等。當有更多的數據時,自動語音識別系統的性能可以更好,因為這樣統計模型就可以建立在更大的基礎上。Google的自動語音識別系統性能好的原因是它們存儲了每個鍵入或說到Google中的搜索詞,并基于搜索的共性來確定概率。
自動語音識別的應用
過去十年目睹了語音識別技術的顯著改善,高性能算法與系統都已可用,使得自動語音識別的應用越來越廣泛。IT主流使得采用自動語音識別在全球商業中變得更為關鍵,尤其是近年來互聯網協議(VoIP)平臺的擴散刺激了企業對語音識別技術的采用。以支持應用程序開始,語音識別解決方案已經演變成滲透包括航空公司、銀行、倉儲、庫存管理和安全券商等多個行業的核心應用程序,并已經成為差異化服務和建立客戶關系的工具。甚至醫療中心、醫院、制藥公司和其他醫療保健行業參與者也紛紛采用自助語音解決方案,因為這不僅能降低運營成本,同時也提高了客戶的隱私度。
消費者對自動語音識別技術的應用程序范圍從基本的依靠語音啟動的報警系統和手機上的語音撥號,到智能手機應用中的語音股票報價和基于語音的電子郵件,以及更多的有針對性的解決方案,如互動娛樂和語音身份驗證等。同時,自動語音識別也是汽車導航、遠程信息處理系統和信息跟蹤等的重要組成部分。隨著對支持語言學習的創新應用的需求日益增加,使用自動語音識別技術的計算機輔助語言學習(CALL)系統也越來越受關注。
語音自動轉化為文本 我們都聽過像Apple的Siri一類的可以自動識別我們說什么的系統,并想知道我們能否使用這種“自動語音識別”技術來替代手工轉錄口述內容的繁瑣過程。
自動語音識別的一個流行應用是語音自動轉錄為文本,比如將講話轉錄成手機短信、自動數據輸入、直接語音輸入和制備結構化文檔等。日本議會的轉錄系統就使用了自動語音識別。在這種應用下,聲音用電子方式被轉換成文本,并創建會議記錄或者報告草稿等。然后會議記錄或者報告草稿被格式化,編輯修正翻譯、標點或語法中的錯誤,并且檢查一致性和任何可能的錯誤。在有標準化術語的領域工作的轉錄員——比如放射學或病理學領域中——更有可能會遇到語音識別技術。在醫療界,醫療轉錄機可以聽醫生和其他專業醫療保健人員的錄音,并把它們轉錄到醫療報告、信件和其他行政材料中。這一應用具有提高工作輸出效率并改善訪問和控制各種計算機應用的潛力。通過使用語音輸入,自動語音識別應用程序繞過或盡量減少傳統的手動輸入方法(例如鍵盤、鼠標),因此也使它成為有嚴重的肢體或神經運動障礙人士的一種替代輸入法。
同聲傳譯 目前同聲傳譯設備雖然尚未完善,但達到基本上可用的要求卻是指日可待。2012年夏天,倫敦發明家Will Powell展示了一個進行英語和西班牙語即時互譯的系統。對話雙方都戴著與手機相連的耳機,而他們佩帶的特制的眼鏡可以像字幕一樣把翻譯的文字顯示出來。這款即時互譯系統在只要有手機信號的地方就能工作,但目前此系統需要耳機、云服務和筆記本電腦的支持,也就意味著它目前還只能是個設計原型。
2012年11月,日本最大的移動電話運營商NTT DoCoMo推出了一項可以將電話中的日語與英語、中文或韓語互譯的服務。通話的每一方都連續說話,然后該公司的計算機在幾秒鐘內將聽到的內容翻譯到所要求的語言,并將結果視情況適當地用男聲或女聲輸出。
在同聲傳譯領域最誘人的成果可能來自Microsoft。2012年10月,當該公司的首席研究官Rick Rashid出席天津的一個會議時,他的英語演講現場就被翻譯成了普通話,先是以字幕的形式顯示在大屏幕上,接著以電腦合成的聲音讀出。最引人注目的是,Rashid先生的中文版演講與他的英文版演講具有相同的語氣和音調。Microsoft認為,如果以說話者自己的聲音傳遞譯文,聽眾對錯誤的容忍度會提高,比如Rashid先生演講的即時中文翻譯雖然偶有錯誤,但仍收到熱烈的掌聲。
自動語音翻譯技術和智能手機中的應用目前可用的視頻和音頻數據量正在以指數級飛速增長,遠遠超過了人工翻譯的承受力。當人工翻譯不可行時,自動語音翻譯可以發揮重要的作用,它不僅讓通信成為可能,而且可以幫助從海量的數據中找出重要信息。自動語音識別和機器翻譯能讓會議跨越國界和語言地高效舉行。
不僅是技術的進步支持自動語音識別的采用,商業趨勢也如此。在各個行業中,對最新移動技術的需求與日俱增。為順應這一趨勢,許多語音翻譯技術都可以裝在智能手機應用或平板電腦上使用。
不可否認,基于互聯網的解決方案有巨大的優勢,因為當人們說話時他們的數據可以被收集和分析,而識別準確率的一個主要因素是訓練聲學模型的數據量。越多的人對Google Search和Siri說話,這些系統的性能就會越好。但是如果一個系統只能聯網使用,那旅行者的使用就會受限。而英國的一家叫Nouvaris的公司于2012年開發的Nova Search不需要連接到互聯網就能使用。因此,當沒有3G或無線網信號時,你仍然能讓智能手機或計算機通過數據庫進行搜索或回答問題。而當如果有互聯網連接時,該技術可以在幾秒鐘之內就從龐大的數據庫中完成篩選,到目前為止,它已對高達2.45億條的列表起作用。由于是在智能手機上而不是互聯網上解碼語音,Nova Search可以更快速地完成語音指令的數據庫搜索。
Google和Siri基本上是將語音轉換為單詞流輸入到網絡搜索或人工智能口譯員。而Nova Search不同是因為它直接用語音輸入搜索自定義數據庫,它會產生拼音符號流,并將其用在一個非常快的已獲得專利的搜索技術中。通過使用以拼音為基礎的方法,該軟件可以一次搜索整個詞組,而不是只搜索個別單詞。雖然該軟件仍然是在搜索互聯網時最有用,但能在本地使用設備的語音識別功能仍具有一些關鍵的優勢,因為需要發送的數據大大減少,而且很快,要知道語音是一種非常昂貴的信號發送。該軟件的應用包括對智能手機或電腦說出目的地,然后它會幫你找到公共交通路線等。
語音識別驗證 在興起的所有類型的生物特征識別應用中,基于語音的身份驗證是用戶排斥較小的安全驗證,它是一種非接觸式、非侵入式且易于使用的方法。使用說話人的語音進行驗證可以有許多應用。例如,當倉庫中員工在工作中走來走去時,可以給他們配備可穿戴/便攜式語音數據收集系統使其進入倉庫;可以對因酒后駕車而定罪的罪犯方便地進行遠程酒精測試。結合移動定位系統,語音驗證還可以用于跟蹤保安人員,以確保他們自己在正常巡邏,而不是讓他們的朋友在幫他們巡邏。另外,語音驗證也可作為多安全系統用來控制過境。比如在Montana州的Scobey,氣溫有時會降至零度以下,于是大多數其他形式的生物識別技術不再可行,而語音驗證裝置卻可以照常工作。
在金融方面,語音驗證也開始有了應用。Nuance公司2013年5月的調查數據顯示,有85%的人對當前的身份驗證方法不滿,因為要登錄到銀行帳戶、旅行網站或其他個人帳戶時,必須要記住許多個人識別碼、密碼、安全問題及其答案;數據還顯示,如果能有相同高的安全級別的話,90%的人希望能使用語音識別解決方案來代替傳統的身份驗證方法,因為語音識別技術可以通過每個人獨特的聲音來標識他,從而消除了要記住和鍵入密碼、個人識別碼的麻煩,讓身份驗證過程變得快速而簡單。
2013年5月,Barclays財富投資管理部署了Nuance的Free Speech語音識別方案,成為第一家在呼叫中心將被動的語音識別技術部署為主要客戶驗證手段的金融服務公司。自推出以來,超過84%的Barclays客戶已在Nuance語音生物識別技術解決方案中注冊,其中有95%的人第一次使用時就成功驗證了身份。更妙的是,客戶與聯系中心的經驗反饋也有所改進,93%的客戶對新的身份驗證系統就速度、易用性和安全性的評分至少為90分。Nuance的語音生物識別技術讓象Barclays銀行這樣的組織通過更直觀、更透明的認證方式重新定義它們的客戶服務經驗,減輕了客戶和服務的負擔。
汽車上的應用 技術的發展一日千里,這極大影響了現代汽車中的駕駛員界面。先進的駕駛員輔助系統、自動泊車制動系統和無鑰匙點火等創新從根本上改變了駕駛員界面的構成。這些新的舒適性、信息和娛樂系統要求駕駛員處置大量的按鈕、旋鈕和屏幕,并且這一需求還在不斷增加。移動智能手機和平板電腦也被越來越多地納入汽車中,以滿足駕駛員在行車中對連接和新服務的需求。對駕駛員來說,這顯然帶來了駕駛干擾和信息超載的風險,尤其是這些主要車輛控制還只是冰山一角。而最有前景的解決方案似乎是語音控制,并且這早已是汽車行業的愿望。2013年現代的下一代汽車將有自然語言的語音啟動電話撥號、消息聽寫、目的地輸入等,并能在車內或在線音樂服務中搜索音樂。然而需要認識到的是,即使有語音控制,駕駛員分神的風險依然存在。
自動語音識別的其他應用 移動廣告是數字廣告中增長最快的領域之一。根據eMarketer的數據,2012年全球移動廣告支出達84.1億美元,是2011年的40億美元的兩倍以上,并且預計到2013年達到近370億美元。作為創新性的新的移動廣告格式,語音廣告是游戲規則改變者,它可以讓人們與他們喜歡的品牌有動人有趣的雙向對話,品牌可以通過讓消費者在廣告中暢所欲言而令其對品牌產生持久的印象。在以前,從來沒有一個品牌能夠有超過10億用戶的個人對話,而這正是品牌一直渴求的與公眾的親密關系。目前Nuance VoiceAds已經完全可以做到這一點。
2013年,松下新的高清智能電視SMARTVIERA采用Nuance配備的Dragon TV系統,人們可以坐著通過語音來查找內容、搜索網頁、控制音量等, 創造了更多的互動和智能電視體驗。
另一個更為有趣的應用發生在俄羅斯,該國最大的零售銀行聯邦儲蓄銀行(Sber bank)開發了一種使用語音識別來測謊的自動提款機。該機器通過將客戶對一些問題的反應與一個記錄審訊中說謊人的數據庫比較,從而確定客戶是否說謊。
自動語音識別的未來
除了從事自動語音識別的研究和開發的科學家和技術人員,大多數人考慮自動語音識別時低估了它的復雜性。它不僅是自動的文本到語音,復雜的識別任務的一個必要條件是自動語音識別需要有大的數據容量和存儲器的快速計算機,并且需要語音科學家、語言學家、計算機科學家、數學家和工程師的參與。這些參與者應用神經網絡、心理聲學、語言學、言語感知、人工智能、聲學語音學等領域的知識,為實現人類和機器之間的自然會話這一最終目標共同努力。
過去三十多年來,語音識別研究的特點是小改進的穩步積累。由于語音識別性能的提高和更快計算機的可用,商業研究和其他學術研究繼續把重點放在日益難以解決的問題上。其中一個關鍵領域是提高語音識別性能的強健耐用性,這不僅是指抗噪音方面,也包括在所有可能導致性能大幅下降的情況下的強健耐用性。另一個關鍵領域關注的是一個機會,而不是一個問題,因為這項研究嘗試利用許多應用中的大量高達數百萬小時的可用語音數據。如果靠人來把這些語音轉錄成文本,成本相當高昂,因此研究關注的是開發一種新的機器學習的方法,使之能有效地利用大量未標記的數據。還有一個研究領域是更好地理解人的能力,并使用這種理解來提高機器識別性能。
篇3
1語音識別系統設計的技術依據
近年來國內教育信息化趨勢更加明顯,英語教學活動建立信息化平臺是師生所需,改變了早期英語課堂模式的不足之處。語音識別是計算機翻譯軟件不可缺少的一部分,如圖1,主要針對不同語言進行識別處理,幫助學生快速地理解英語知識內涵。語音識別技術主要包括:特征提取技術、模式匹配技術、模型訓練技術等三大技術,也是系統設計需考慮的重點。
1)特征提取技術。一般來說,語音識別系統輔助功能涉及到收錄、處理、傳遞等三個環節,這也是語音識別系統設計的關鍵所在。計算機語言與自然語言之間存在極大的差異性,如何準確識別兩種語言的差異性,這是翻譯軟件識別時必須解決的問題。特征提取技術是語音識別系統的基本構成,主要負責對英語語言特征進行提取,向翻譯器及時提供準確的語言信號,提高計算機翻譯工作的準確系數。
2)模式匹配技術。語音識別系統要匹配對應的功能模塊,以輔助師生在短時間內翻譯出語言含義,避免人工翻譯語言失誤帶來的不便。模式匹配技術采用智能識別器,由翻譯器錄入語音之后自主化識別、分析,減小了人工翻譯語句的難度。例如,計算機軟件建立匹配模型,按照英語字、詞、句等結構形式,自動選擇相配套的翻譯模式,執行程序命令即可獲得最終的語言結果,給予學生語音識別方面的幫助。
3)模型訓練技術。設計語音識別系統是為了實現教育信息化,幫助教師解決英語課堂教學中遇到的翻譯難題,加深學生們對英語知識的理解能力。語音識別結束之后,翻譯器會自動執行模擬訓練操作,為學生創建虛擬化的語音訓練平臺,這也是軟件識別系統比較實用的功能。模擬訓練技術采用人機一體化設計思想,把翻譯器、語音識別器等組合起來執行訓練方式,快速地識別、判斷英語發聲水平,指導學生調整語音方式。
2英語翻譯器語音識別系統設計及應用
英語翻譯器是現代化教學必備的操作工具,教師與學生借助翻譯器功能可準確地理解英語含義,這對語音識別系統設計提出了更多要求。筆者認為,設計語音識別系統要考慮翻譯器具體的工作流程,事先編排一套符合翻譯軟件工作的方案,如圖2,從而提高人機語言轉換速率。語音識別系統設計及應用情況:
1)識別模塊。語音識別方法主要是模式匹配法,根據不同翻譯要求進行匹配處理,實現英語翻譯的精準性。一是在訓練階段,用戶將詞匯表中的每一詞依次說一遍,并且將其特征矢量作為模板存入模板庫;二是在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。
2)前端模塊。前端處理是指在特征提取之前,先對原始語音進行處理,這是預處理操作的主要作用。語音識別系統常受到外界干擾而降低了翻譯的準確性,設計前段處理模塊可消除部分噪聲和不同說話人帶來的影響,使處理后的信號更能反映語音的本質特征。例如,比較常用的前端處理有端點檢測和語音增強。
3)聲學模塊。語音識別系統的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節概率的計算和音節到字概率的計算。聲學特征的提取與選擇是語音識別的一個重要環節,這一步驟直接關系到翻譯器的工作效能,對英語語音識別與學習有很大的影響。因此,聲學模塊要注重人性化設計,語音設定盡可能符合自然語言特點。
4)搜索模塊。英語語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。本次所設計的搜索模塊中,其前端是一個語音識別器,識別產生的N-best候選或詞候選網格,由語法分析器進行分析獲取語義信息,再由對話管理器確定應答信息,由語音合成器輸出。由于目前的系統往往詞匯量有限,也可以用提取關鍵詞的方法來獲取語義信息。
5)執行模塊。實際應用中,語言識別系統憑借執行模塊完成操作,對英語語言識別方式進行優化擇取,以最佳狀態完成英語翻譯工作。目前,就英語教學中使用情況,聽寫及、對話系統等是語音識別執行的兩種方式,充分展現了翻譯器在語言轉換方面的應用功能。(1)聽寫機。大詞匯量、非特定人、連續語音識別系統通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模型參數,識別時,將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉移概率,形成循環結構,用Viterbi算法進行解碼。(2)對話系統。用于實現人機口語對話的系統稱為對話系統,英語翻譯器中完成了人機對話、語言轉換等工作,全面提升了翻譯器操控的性能系數。受目前技術所限,對話系統往往是面向一個狹窄領域、詞匯量有限的系統,其題材有旅游查詢、訂票、數據庫檢索等,隨著語音數據庫資源的優化配置,對話系統功能將全面升級。
3翻譯器使用注意事項
語音識別系統就是讓機器通過識別和理解過程,把語音信號轉變為相應的文本或命令的高科技。隨著高校教學信息化建設時期到來,計算機軟件輔助教學活動是一種先進的模式,徹底改變了傳統人工教學模式的不足。翻譯軟件采用數字化元器件為硬件平臺,配合遠程互聯網建立多元化傳輸路徑,滿足了英語翻譯數據處理與傳輸的應用要求。但是,未來英語教學內容越來越復雜,翻譯器語音識別系統承載的數據范圍更廣,學校必須實施更新翻譯軟件產品,才能進一步提升英語智能化翻譯水平。
4結論
篇4
目前,語言識別技術已經被大量應用于企業的呼叫中心領域。大部分的電腦查詢服務都會采用自動語音識別技術,用來處理客戶的各種需求,從而減少人工服務的數量,節約人力資源。然而,在經歷過冗長、復雜的自助服務互動體驗后,客戶更加期待實用性高的語音互動應用,使得他們能夠在撥打了第一通電話后就輕松將問題解決。這也讓自動語音識別的準確性成為衡量語音識別軟件的一個重要標準。對于語言識別技術供應商來說,其產品應當包括對自然語言與噪音處理的功能,以及支持多種語言版本和方言。
Nuance是最早從事自動語音識別技術研究的公司之一,在其最新推出的語音識別應用平臺中,已經能夠有效地過濾噪聲背景,適度提高語音辨析率,并在無線、免提和嘈雜的環境下提高準確率。目前的語音識別應用系統還可以自動適應每種特別的部署環境,并具體套用于各種方言、區域口音和電話線路特性的聲學模型中。
排除噪音干擾是語音識別技術的一項關鍵性挑戰。為了能在本質上展現高效處理各種噪音的能力,提供更高的識別準確度,服務商通常與學術界和數據收集單位保持密切關系,廣泛且準確地使用這些聲學和語言學的數據。在目前的語音識別系統中,其聲學模型通常采用大量來自現實世界的數據整合而成,包括各種噪音環境,從而具有較高的噪聲適應性。
以Nuance公司為例,依靠其先進的端點和語音檢測公式,系統能夠精確地將語音內容和背景噪音分離開來,即使是在極其嘈雜的移動環境中,新的端點檢測技術也能夠讓系統自行判斷語音何時開始、何時結束,從而更準確地轉錄。事實上,相較于之前的傳統語音識別產品,Nuance公司在嘈雜環境中展現了更優越的偵測準確度,識別準確率平均提升了45%以上。
據筆者了解,現在最新的語音識別平臺還具有非常準確的自然語言處理能力,以高效處理開放式的語音輸入以及主動對話等狀況。系統能夠根據來電者提供的資料,讓對話變得更加靈活。比如說,來電者可在通話中一次提出好幾個問題, 或者通過提示來修正系統。因此,語音自助服務應用能夠帶來更好的結果,提高自動化率,縮短電話客服處理時間,降低客戶掛機的頻率,帶給客戶更有價值的互動體驗。
以雅芳公司為例,它是最大的直銷公司之一,每天要處理來自全球各處的客戶問題。在還沒應用自動語音識別技術以前,雅芳客服中心每年有1200萬個電話需要處理,企業承擔的成本高達1500萬美元。
篇5
一、小學生單詞語音識別技能培養的意義
(一)單詞語音識別技能是小學生單詞學習的加速器
單詞的掌握一般包括知道一個單詞的音、形、義、用法和使用等五個方面。掌握單詞的讀音是單詞學習的一項重要內容。通常小學生讀出一個單詞一般通過以下三種途徑:第一,跟讀與記憶單詞發音;第二,通過單詞的音標讀出單詞;第三,通過拼讀能力讀出單詞。通過教師示范朗讀或聽音視頻的方式不斷跟讀,從而建立單詞詞形與整詞聲音的連接。這是一種不對詞匯作任何區分的、基于機械記憶的學習形式。面對少量單詞還可以應付,對于深入的、大量的單詞學習是十分不利的,是一種低效的英語單詞學習方式。而通過音標讀單詞需要一個前提條件,那就是兒童必須首先學習并掌握音標系統。這對于小學生來說是十分困難而耗時的,可能會嚴重抑制小學生英語學習的興趣。而拼讀法作為21世紀初英、美、澳等英語國家政府強制或建議使用于幼兒園和小學低年級英語教學中的方法(于海靜,郭滿庫,2015),是通過建立字母與字母音之間的音形對應關系為基礎來培養單詞解碼能力(包括單詞語音與語義識別技能),從而可以讀出所見的書面詞匯。由此可見,以拼讀教學為途徑發展的單詞語音識別技能能夠有效地擺脫單詞讀音的機械記憶,從而加速小學生詞匯學習的進程。
(二)?未視鏌羰侗鵂寄蓯切?生閱讀學習的重要前提
英語閱讀能力是英語素養的核心成分,它不但是英語語言學習的內容,也是英語語言學習的手段,其重要性不言而喻。而對于學習閱讀的小學生來說,語音與語義識別是學習閱讀的主要策略。對于學習閱讀的人來說,完成形音義的整體獲得需要一個過程。英語作為拼音文字,其語音加工決定詞匯通達(林永海,錢琴珍,張必隱,2003),在閱讀中的語音激活早于語義激活(陳寶國,彭聃齡,2001)。單詞形和義的聯系需要語音為中介。另外,閱讀認知的核心操作系統――工作記憶以語音環節為基本機制,使得閱讀學習的首要任務是建立單詞形音的聯結,并以此為基礎發展閱讀理解能力。研究表明,單詞認讀與閱讀理解相關度極高,在控制一般認知能力作用的條件下,單詞認讀仍可顯著解釋閱讀理解的變異(陶沙,彭鵬,2010:230)。
研究表明,單詞識別與解碼技能的不足是造成閱讀學習困難的主要問題所在(Vellutino,2004)。我國一項研究說明,英語語音加工技能缺陷與閱讀困難存在顯著相關,漢語視覺加工模式和經驗制約英語字形與語音間的對應轉錄,進而對英文閱讀中語義加工造成直接影響(林新事,2008:94)。上述研究側面反映了單詞語音識別技能對閱讀能力發展的重要影響。因此,為了高效地提升小學生英語素養,打通語言輸入與習得的途徑,培養單詞語音識別技能便成為小學生有效閱讀學習的必要條件。
二、小學生單詞語音識別技能培養的核心內容
(一)字母與字母音對應及單音節單詞語音識別
建立字母與字母音之間的聯結是小學生單詞語音識別的基礎。英語共有26個字母,其中元音字母5個,分別是a, e, i, o, u,輔音字母20個,分別是b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, z,最后一個為半元音字母y。對于5個元音字母,學生應該掌握它們的兩種對應關系,即分別作為短元音和作為長元音的字母音與元音字母的對應。對于輔音字母來說,可以將它們分成兩組:一組為只有一種字母與字母音對應的字母,如b, f, h, j, k等等;另外一組為有兩種字母音的字母,如c, g等等。它們形成特殊而一致的規則,即the C Rule 和the G Rule。也就是說,當元音字母a, e 或u跟在輔音字母c后,這時字母c發字母k的字母音,如cake, cute等等。當元音字母e, i或y跟在字母c后時,字母c發字母s的字母音,如cell, city, cycle等等。對于字母y,要作為輔音和元音字母分別對待。
在形成字母與字母音的對應后,小學生應該學習字母的組合音,這些組合音以極高的頻率一同出現在單詞開頭和結尾部分,掌握這些輔音、元音和元輔音字母組合是發展小學生的“頭韻-韻腳”意識,從而完成單音節單詞的語音識別。常見的輔音、元音和元輔音字母組合內容與例詞見表1。教師在逐漸呈現與練習字母音、字母組合音時,應該不斷嘗試合成與分解單詞,再分解與合成單詞,不斷訓練,達到規則的自動化,從而掌握單音節單詞的語音識別技能。
表1 常見的輔音、元音和元輔音字母音組合內容
[輔音字母音組合 bl,cl,fl,gl,pl;
br,cr,dr,gr,pr,tr;
sc,sk,sl,sn,sm,sp,st,sw;
sh,ch,th,wh,kn,ng,ph;
sh:ash,ish,ush;ell,ip,op,ut;mp,ft;nt,lk,lt;
ch:ick,eck,in,op,ess,ip;
each;tch:atch;
th:ing,umb,ink,ick;ath,oth,eeth;
wh:eel,eat,en,ich. 元音字母音組合 ai:ail,aid,ain,ait;
ee:eed,eep,eet;
ea:ead,ean,eat,eal;
oa:oat,oad,oap,oak,oast,oal,oaf;
oo:ook,ood,oon,oose;
ou:ound;ow:own;
oi,oy. 元輔音字母音組合 am,ad,at,an,ap,ab,ag,ack,ant,ang,ank,amp;
ed,en,ell,eg,et,ess,end,ent,est,eck;
id,ig,ill,it,im,in,ing,ink,ish,ick;
ox,ot,op,ob,od,og,om,ock;
ug,un,ut,ub,um,uck,unch;qu,tw;
ar:ark,ard,arn,arm;er;ir:irt;or:ork,ord,orn,orm;
ur:urse,urn;
a-e:ake,ame,ane,ate;
e-e:eve,ete;
i-e:ite,ike,ine;
o-e:oke,ole,ose,ome;
u-e:use,ute.
]
(二)?p音節、多音節單詞語音識別
小學生能夠正確地讀出雙音節或多音節單詞需要兩個條件:第一,能夠解碼單詞中的單個音節;第二,能夠將兩個或多個音節合成一個單詞。因此,解碼雙音節或多音節單詞中的單個音節,并合成兩個或多個音節的單詞,便是雙音節或多音節單詞語音識別的主要學習內容。具體來說,兒童的訓練可以從四種拼讀形式開始,即CVC,-y, le, r-controlled vowels。練習區分單詞的單個音節,然后練習將兩個單音節合成讀出。例如,教師可以為學生提供pencil, happy, little, market, letter等詞,通過舉例講解音節的區分與合成,然后根據四種拼讀形式提供更多的雙音節或多音節單詞進行變式練習。
接下來,引導學生區分開音節與閉音節,從而應對正確解碼雙音節或多音節單詞中元音字母的長、短兩種發音問題。開音節包括直接以元音字母結尾和以不發音字母“e”結尾兩種。教師須重新明確在這兩種情況下五個元音字母發字母音,如在paper(pa-per),baby(ba-by),hotel(ho-tel),return(re-turn),exercise(exer-cise),excuse (ex-cuse),conversation(con-ver-sa-tion)等單詞中。閉音節指以元音字母加一個或幾個輔音字母(r除外)結尾的重讀音節,如basket(bas-ket),rabbit(rab-bit),lesson(les-son),dentist(den-tist),similar(si-mi-lar)等等。
(三)特殊單詞語音識別
在單詞語音識別過程中,教學內容的安排要遵循由簡到難、由一般到特殊的順序。因此,在教授字母與字母音對應及符合規律的單音節與多音節單詞識別后,或從符合規則的雙音節單詞解碼后便可以適當引入一些特殊單詞的語音識別學習。例如,非重讀央元音/?/便是英語中最常出現的元音音素之一,如高頻詞about,another中的第一字母。因為該音素出現在非重讀音節中,其教學顯然不能出現在單詞識別的最早階段。
三、小學生單詞語音識別技能培養的方法
(一)兒童單詞語音識別技能培養方法使用的現狀
有學者認為(程曉堂,2010),我國小學生學習英語單詞以整體認讀為主,也有少數英語教師嘗試使用自然拼讀法拼讀單詞。筆者認為,還有一些教師嘗試教授小學生國際音標,然后通過單詞對應的國際音標轉換讀出單詞。目前,這種形式經常用于小學高年級或初一年段英語教學之中。然而,筆者認為,根據記憶的整體認讀法和國際音標注音法均非最適合小學生單詞語音識別的方法,尤其是小學低年級學生。而英、美、澳等英語國家通過研究證明對幼兒園及小學生有效的單詞解碼方式為拼讀法教學,有利于提升其閱讀能力。鑒于我國英語教學中拼讀法使用較少的現狀,拼讀法作為一種可選擇的方法,應該在理論上加深探究,在實踐中更多嘗試與探索。
拼讀法教學旨在培養兒童英語閱讀能力,但小學生學習閱讀的首要任務是實現單詞的語音加工,從而通達詞匯,如此方可實現單詞形與義的語音轉錄。這樣,最基本的單詞閱讀方可發生。拼讀法就是以英語字母與其獨特的發音相匹配為基礎解碼單詞的。英語共有26個字母,對應44個音,大致以70種最基本的拼寫形式存在。對于拼讀法來說,有綜合拼讀法(synthetic phonics approach)與分析拼讀法(analytic phonics approach)、直接拼讀法(explicit phonics approach)與間接拼讀法(implicit phonics approach)、系統拼讀法(systematic phonics approach)與附帶拼讀法(incidental phonics approach)之別,但其無非體現兩種不同的取向。一種認為系統的、直接的、綜合的學習更有效,而另一種認為間接的、偶發的、分析的學習更好。筆者認為,對于外語學習者來說,系統的、直接的、綜合的學習是十分必要的,對于初學者更是必不可少。而對于復雜的和個例的單詞解碼可以在漸進的學習中以間接的、偶發的、分析的方法持續教授。
(二)直接拼讀法在小學生單詞語音識別技能培養中的使用
系統拼讀法強調系統地設計與安排拼讀教學內容,以直接法有序教學。而附帶拼讀法則相反,其要求教師不要遵循有序的拼讀內容教學,而是在文本中對偶遇的個別拼讀內容進行學習。綜合拼讀法指將單詞中字母或字母組合對應的音讀出,然后再將它們整合起來讀出整個單詞。例如,在教授小學生解碼cat這個單詞時,教師指導學生將cat這個單詞區分出三個字母,即c,a,t,然后讓學生讀出三個字母的字母音/k, ?, t/,最后將這個三個字母音混合讀出形成單詞的讀音。分析拼讀法則不會孤立地讀出字母或字母組合的讀音。通常,要求學生分析一組含有共同音素的單詞。例如,教師引導學生討論cat, fat, sad三個單詞的相似之處,從而學生可以推論出三個詞共同含有字母a,對應的讀音為/?/。通過上面例子不難發現,就算學生可以發現三個單詞共同含有字母a,但在教師沒有教授或讀出字母a對應的字母音/?/時,學生是無法提取預教的字母音的。由此可見,直接教授字母或字母組合與字母音的對應是單詞語音識別不可逾越的前提。
直接拼讀法要求首先完成字母和字母音的一一對應,然后再將它們混合形成詞匯的語音解碼。直接法拼讀教學的關鍵環節是將孤立的字母或字母組合音混合并完成整個單詞的發音。間接拼讀法與分析拼讀法持有相同觀點,即不能孤立地教授字母與字母音的對應。可笑的是,分析拼讀法恰恰假設學生已經形成了字母與字母音的對應。對于直接拼讀教學來說,口語詞匯的語音識別要基于準確的孤立的單音,而對于教師和學生來說學得或習得標準的個別字母和字母組合音是十分必要的,否則不準確的孤立音將成為聽覺詞匯解碼的阻礙。因此,在拼讀教學中教師要利用各種條件幫助學生獲得標準的或更加近似的音。
四、小學生單詞語音識別技能培養的具體建議
(一) 全面發展單詞識別技能,為兒童閱讀學習奠定堅實基礎
單詞識別能力既包含單詞語音識別技能,也包含單詞語義識別技能。因此,在小學生單詞識別技能教學時要將兩者結合起來,兩者不可偏廢。盡管英語單詞的解碼需要語音通達語義,但是在單詞語音解碼教學中可以始終以間接或直接的方式進行單詞語義的滲透或學習。另外,值得一提的是初學者高頻詞匯的解碼也應該在起始階段進行學習。高頻詞匯的教學應該分成兩組來分別對待,對于符合拼讀規律的單音節單詞應該先學習,而對于符合規律的多音節和特殊的高頻詞可以隨著學生單詞識別技能的提升而漸進地學習。高頻詞的解碼與熟練認讀是小學生能夠流利閱讀的重要條件。
單詞識別技能不僅有利于兒童詞匯學習,更重要的是單詞識別與解碼技能是小學生閱讀學習的主要策略(Aaron,1999:221-244)。在英語早期閱讀教學中拼讀法備受親賴的一個重要原因是:它是作為培養初學者英語閱讀的一種重要方法。而拼讀教學的立身的根本便是,形成字母形音對應,從而實現單詞的解碼,進而提升與改善學生的閱讀學習。盡管拼讀法在英語作為母語的教學中經歷了曲折的發展,但21世紀伊始它的價值被重新準確定位。由此可見,在進行單詞識別技能培養中要始終以促進學生閱讀學習為最終目的,也就是說,除了關注單詞識別技能本身的發展外,還要兼顧有利于閱讀學習發展的其他因素,如語音意識、閱讀理解、流利度等。
(二)整合課內外資源,合理安排英語課程與教學
篇6
飛康CDP成功救災基金公司業務系統
日前,國內某基金公司的IT管理人員發現,由于前一天的誤操作,導致其清算系統已經全面故障,嚴重地影響到了當天下午的清算業務。清算系統是這家基金公司生產系統中最為核心的系統之一,發生故障將直接影響到前臺的業務交易正常運行。因此,IT管理人員決定啟用CDP災備系統,將系統恢復到誤操作前的最近時間點,以最快的速度恢復系統正常運行。在飛康技術人員的協助下,該公司利用飛康CDP的全回滾和生產磁盤增量同步技術,在1小時內就將出現故障的清算系統全面恢復了正常運行,避免了不可估計的業務、資產及名譽損失。
博科降低虛擬化IT環境中的網絡復雜性
日前,博科公司宣布推出Brocade ServerIron ADX 4000系列擴展產品,其中包括高性價比的入門級機箱解決方案ServerIron ADX 4000 ASM-4捆綁包,能夠提供業界領先的4~7層交換功能,以幫助客戶實現按需、自動化數據中心計算的承諾。專為中型市場企業環境而設計的ASM-4捆綁包使客戶能夠體驗模塊化平臺的靈活性和可擴展性優勢。ASM-4模塊可以通過許可證激活的方式按需擴展,使客戶能夠采用“按需付費”的投資方式,在不增加硬件或從網絡移除交換機的情況下,使吞吐量翻一番,構建面向未來的負載均衡網絡。
篇7
關鍵詞 語音識別;硬件系統;硬件模塊;系統設計
中圖分類號TP242 文獻標識碼A 文章編號 1674-6708(2011)38-0202-01
1 語音智能識別原理概述
語音識別是建立在對人類語言的交互與判斷上的,這是一種多維度的識別過程,一般可以分為兩個階段,即信息匯集和識別。具體的識別過程包括了語音信號的前期處理、語音特征提取、建立語音模型庫、進行模型的匹配、后期處理等主要的環節。機器人的語音識別實際上一種仿生式的模式,即將語音轉化為一直可以對別的語音特征,然后與儲存的信息進行對比,并形成對其含義的判斷,人類對語音的含義的判斷也是這樣的過程,只不過人類使用的是大腦而機器人利用的是數據庫和芯片,目前占有主導地位的語音識別技術的技術基礎是統計模式的識別理論。
2 機器人語音識別系統的硬件設計
2.1 硬件系統的整體構成
語音識別的硬件系統中體的構成應當為了兩個大系統構成,即發射端和接收端,即利用主要的芯片系統來接收語音信號,并進行計算和識別,然后利用信號輸出端口將形成的指令傳輸給接收端的執行系統,并以此控制機器人的各個電機和肢體部件,來完成整個語音指令的執行。在這個系統中主要的硬件系統有:微處理器、音頻模塊、電機驅動模塊、避障系統、機器人系統、電源控制模塊。具體的系統構成如圖1。
2.2 硬件系統的設計
在具有語音識別功能的機器人硬件系設計中應當對前面提到的各種功能模塊進行單獨的設計和實現,然后利用線路和端口將整個系統連接起來,這樣就實現了機器人硬件系統的搭建。
1)電子芯片(微處理器)。在這里應用的是SPCE061A單機芯片。這種語音識別的專業芯片來構建機器人的語音識別和控制系統可以實現機器人的自動運行。這種語音系統的硬件基礎就是SPCE061A控制器為核心的語音識別平臺。這種SPCE061A是一種具有語音特色的16位控制器,采用的是模塊化的結構,內部集成了在線仿真處理器,閃存、靜態內存、通用的端口、定時和計數器、中斷控制器、通道轉換器、電壓監控等模塊。另外其數據處理核心能夠為其提供較高的處理速度,這樣就可使其完成16位的運算、DSP內積率波運算、復雜數字型號處理,但同時不需要進行額外接入專用的語音控制芯片輔助其進行語音的編碼和解碼。因此可以單獨完成語音識別和控制,具有體積小、擴展能力強、集成度高、性能可靠、中斷處理功能完備,價格低廉等,即節省了成本也降低了設計難度。因此,微處理模塊采用了這種單機芯片,并以此為核心開展硬件設計;
2)音頻處理模塊。音頻處理模塊的構成是麥克風輸入電路和音頻輸出電路組成。其中麥克風音頻采集電路采用的是MICP和MICN,這種設計可以通過MIC形成的波形變化在兩個端口位置形成相反的波形,通過兩級放大電路的處理,將放大的語音信號傳輸給ADC進行數字處理。這個數字信號也就是語音訓練和進行識別的語音輸入源,音頻輸出模塊對識別后的結果節能型輸出,采用的是SPY0030音頻放大電路,同時播放提示語音,以便于實現智能化的語音控制,以此完成了人與機器人的交互訓練;
3)電機驅動系統。在一般的設計中多采用ULN2803集成放大矩陣模塊來完成對電動機的驅動,這樣可以實現對機器人內部多個電機的正向和反向運行。這個模塊有高度集成、簡單可靠等優勢,為了實現避障功能的實現提供了較好的硬件基礎和很好的驅動能力。因為機器人使用的電機都需要實現正反向運行,并且使用的電機數量較多,因此需要一個穩定而功能強大的電機驅動模塊。同時也必須可以與微處理芯片和其他系統進行良好的配合;
4)紅外線避障控制模塊。利用紅外線原理構建的紅外線避障模塊具有紅外線發射和接收二極管為核心,發射管所產生的定頻紅外線信號,接收二極管則負責接收這一頻率的信號。當紅外線信號基礎到前面遇到障礙的時候,紅外線所形成的反射信號就被接收管接收,并進行處理,然后通過數字傳感器將信號傳輸到控制主機,然后由主機進行判斷并動作。目前設計中的紅外線避障模塊多采用多為HARP所生產的紅外線傳感器GP2D12,這種設備的控制范圍是10cm~80cm,設備的接口為標準的三線口,適用于智能化機器人;
5)系統電源模塊。在以SPCE061A芯片為核心的語音控制系統其電壓的要求為3.3V,而I/O端口的電壓則在3.3V~5.0V之間。因此在控制板上將出現兩種電壓,即5.0V和3.3V。系統可以采用3節電池來進行供電,4.5V的直流電源可以通過穩壓裝置降低到3.3V,為整個系統提供4.5V和3.3V的工作電壓。
3 結論
機器人的語音識別功能需要最佳的硬件組合才能夠實現較好的控制效果,其中單機芯片是其控制的核心,因此選擇SPCE061A這樣比較成熟的芯片來作為語音識別硬件系統的核心是有著明顯優勢的。同時配合其他硬件模塊的合理選擇就可以實現較理想的控制效果。
參考文獻
篇8
關鍵詞:Mel頻率倒譜系數;支持向量機;語音識別;特征提取
中圖分類號:TP399 文獻標識碼:A 文章編號:1672-7800(2012)003-0153-02
作者簡介:李玲俐(1977-),女,湖北洪湖人,碩士,廣東司法警官職業學院講師,研究方向為數據挖掘與模式識別。
0 引言
語音識別是一種模式識別,就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的技術。語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術3個方面。目前一些語音識別系統的適應性比較差,主要體現在對環境依賴性強,因此要提高系統魯棒性和自適應能力。支持向量機(Support Vector Machine,SVM)是基于統計學理論發展起來的新的機器學習方法,采用將數據從低維空間映射到高維空間的思想,由支持向量來決定最優分割線,SVM先自動找出對分類有較好區分能力的支持矢量,然后構造出分類器來最大化類與類的間隔,因此有較好的適應能力和較高的分準率。
本文在現有語音識別技術基礎上,提出一種MFCC(Mel Frequency Cepstrum Coefficients,Mel頻率倒譜系數)+SVM的語音識別方法,實現對幾種英文單詞的分類。實驗結果表明,該識別方法具有較高的準確率。
1 語音識別系統
語音識別過程一般分為3個階段:信號處理、特征提取和模式識別,如圖1所示。
1.1 MFCC特征提取
特征提取是數據挖掘和模式識別中的一個重要步驟。其目的是從原有特征數據中提取出與特定任務,如分類、壓縮、識別等密切相關的新特征(或特征子集),以有效地完成特定任務或進一步減少計算量。
研究者通常使用經典的特征提取技術,如MFCC、連續小波變換(Continuous Wavelet Transform,CWT)和短時傅里葉變換(Short-Time Fourier Transform,STFT)來提取語音片段的特征。Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應關系。MFCC則是利用它們之間的這種關系,計算得到的Hz頻譜特征。由于MFCC具有良好的識別性能和抗噪能力,在語音識別中得到廣泛的使用,而且研究人員仍在對MFCC的各種參數進行實驗和調整,并通過同其它模型的協同工作來找出提高識別率的方法。
MFCC參數的提取包括以下幾個步驟(如圖2所示):
(1)預加重。通過一個一階有限激勵響應高通濾波器,使信號的頻譜變得平坦,不易受到有限字長效應的影響。
(2)分幀。根據語音的短時平穩特性,語音可以以幀為單位進行處理。n為每一幀語音采樣序列的點數,本系統取n=256。
(3)加窗。為了減小語音幀的截斷效應,降低幀兩端的坡度,使語音幀的兩端不引起急劇變化而平滑過渡,需要讓語音幀乘以一個窗函數。目前常用的窗函數是Hamming窗。
(4)對每幀序列s(n)進行預加重、分幀加窗后,然后經過離散FFT變換,將s(n)取模的平方得到離散功率譜S(n)。
(5)計算S(n)通過M個濾波器Hm(n)后所得的功率譜,即計算S(n)和Hm(n)在各離散頻率點上的乘積之和,得到M個參數Pm,m=0,1,…,M-1。
(6)計算Pm的自然對數,得到Lm,m=0,1,…,M-1。
(7)對L0,L1,…,Lm-1計算其離散余弦變換,得到Dm,m=0,1,…,M-1。
(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作為MFCC參數。
1.2 SVM分類器設計
在線性可分的情況下,SVM構造一個超平面H,設線性可分樣本集為(xi,yi),i=1,2,…,n,U∈{+1,-1} 是類別標號。所有在這個超平面上的點x滿足:
w?x+b=0
其中:w為權重向量,b為分類閾值。根據結構風險最小化原則,在保證分類間隔最大,即尋找最優分類面的條件下,w和b必須滿足如下條件:
yi[(w?xi)+b]≥1
xi為訓練樣本,在此約束下,求解最優超平面問題可以轉換為求函數:Φ(w)=12w2=12(w?w)的最小值。最優問題的解由Lagrange函數的極值點給出:
L(w,b,α)=12w2-∑li=1αi{yi[(w?xi)+b]-1}
αi為Lagrange乘子,對w和b求偏導,并令所求式為零,求得:
∑li=1yiαi=0
對于線性不可分的情況,可以通過非線性變換轉化為某個高維空間中的線性問題。即將SVM中的內積x?y由核函數K(x,y)所取代。常用的核函數有:
(1)多項式核函數K(x,xi)=[(x?xi)+b]d,其中d是多項式的階數。
(2)Gauss核函數K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函數的寬度。
(3)Sigmoid核函數K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置參數。
由經驗觀察可知,Gauss核函數比其它兩種核函數優越,所以本文選用Gauss核函數,對于給定的核函數。最優分類函數為:
yi=sgn∑xi∈wiyik(xi,xj)+
2 實驗設置及結果分析
本實驗使用的語音信號采用Windows自帶的錄音軟件錄制,錄音背景為普通環境,錄制的語音以Wave 格式保存,采樣頻率為8KHz,16bit量化,單聲道。對10(5男5女)個人進行錄音,語音樣本分別為6個單詞,并且每個人每個詞發音9遍,得到540個采樣數據。隨機抽取2/3的采樣作為訓練樣本集,1/3作為測試樣本集。
由上述語音識別系統得到每一種語音的正確分類的樣本數,并采用
識別準確率=正確識別的樣本數樣本總數×100%
得到表1所示的識別結果,包括每種待識別單詞以及總計得到的正確識別數和識別準確率。
3 結束語
本文提出了一種采用MFCC特征提取參數,以SVM作為分類器識別幾種容易混淆的單詞的方法,結果表明,該語音識別方法具有結構簡單、高識別精度的特點,可以在語音識別系統中得到實際應用。當然,今后的工作中還要考慮將SVM理論和其它分類方法結合起來,如SVM和隱馬爾可夫模型(HMM)相結合、將多類SVM等綜合方法應用于更多的語音識別領域。
參考文獻:
\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.
\[2\] 陳剛,陳莘萌.一種考慮類別信息的音頻特征提取方法\[J\].計算機研究與發展,2006(11).
篇9
關鍵詞:動態時間歸整算法;隱馬爾可夫算法;語音識別
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1007-9599 (2012) 11-0000-02
隨著人們對人機交流技術的要求越來越高,語音識別技術應運而生。語音識別是將語音信號轉換成相應文本的高技術,是一種重要的人機交互技術[1]。在近二十年,越來越多高水平的研究機構和企業加入到語音識別的研究領域,并開始向市場上提品。其中具有代表性的產品有微軟的Whisper系統,Google的Word Search系統,蘋果的Siri系統等。
語音識別最重要的性能指標就是識別率,而識別率十分依賴特征參數的訓練和識別模型。常用的模式匹配和模型訓練技術主要有動態時間歸整算法和隱馬爾可夫算法。文中就這兩種算法特點進行了分析和改進,對基于改進后的算法建立的語音識別系統進行了性能評估和對比。
一、語音識別算法
(一)動態時間歸整算法
發音具有隨機性,同一個人在不同時間,不同場合對同一個字的發音長度都不是完全一樣的。在語音識別的模版匹配中,這些長度不一的發音將降低系統的識別率。為了解決這一問題,我們引入動態時間歸整算法(Dynamic Time Warping,DTW)。在語音識別中,DTW算法是較早出現,較為經典的算法,它是基于動態規劃(DP)的[2]。
提取參考語音信號的特征參數存入特征模板庫建立參考模板,提取待識別語音號的特征參數建立測試模板。DTW算法就是計算參考模板和測試模板各幀矢量之間的距離之和,總距離越小說明相似度越高,最后選取最小的總距離作為匹配結果。
這種識別算法雖然較為簡單、有效,但是計算量大,存儲空間占用多,響應時間長。因此,文中對該算法進行改進,以避免以上缺點。
改進后的DTW算法將歸整函數限制在一個平行四邊形中(其中兩條邊的斜率為1/2,另外兩條邊的斜率為2)。在計算總距離時只需計算平行四邊形之內各交點的匹配距離和累積距離,這樣減少了計算量,提高了系統的反應速度,節省了存儲空間。
(二)隱馬爾可夫算法
隱馬爾可夫模型是在馬爾可夫鏈基礎上發展起來的一種語音信號統計模型,自從用來描述語音信號后,該模型迅速發展,使得HMM理論逐漸成為語音研究中的熱點,語音識別的主流技術。
隱馬爾可夫模型HMM是一個雙重隨機過程,一重是可直接觀測的馬爾可夫鏈,用于描述狀態的轉移;另一重是隱含在觀察序列中的隨機過程,用于描述狀態和觀察值之間的統計對應關系。
將HMM用于語音識別系統前,必須解決三個基本問題[3]:
1.模型評估
已知一個觀察序列和一個HMM模型,如何計算由此模型產生此觀察符號序列的輸出概率。
2.最優狀態序列搜索
已知一個觀察序列和一個HMM模型,如何確定一個最佳狀態序列,使之產生的觀察序列的概率最大。
3.模型訓練
已知一個觀察序列和一個HMM模型,如何根據觀察序列來確定模型的參數。
針對以上三個問題,可分別用前向-后向算法,Viterbi算法和Baum-Welch算法改進,改進后的HMM算法較傳統算法在識別率方面有了明顯的提高。
(三)算法比較
基于模版匹配技術的DTW算法和基于隨機過程理論的HMM算法是比較有代表性的孤立詞識別算法。DTW算法應用動態規劃的方法解決了語音信號特征參數序列時間對準問題,克服了語速的差異。DTW算法適用于訓練樣本較少的情況下,訓練過程簡單,識別過程較復雜,多用于特定人孤立詞語音識別系統。
HMM算法HMM運用狀態序列描述觀測向量的時間邏輯,通過多變量混合高斯分布表現觀測向量序列的空間分布[4]。為了獲得高識別率,HMM算法需要大量的訓練樣本和存儲量,訓練過程要耗費較多時間,識別過程較簡單,多用于連續大詞匯量語音識別系統。
二、系統設計實現
語音識別系統由預處理、特征提取、模型庫和模式匹配等四個基本單元構成。系統的基本結構如圖1所示:
(一)預處理
通過話筒將語音信號變成電信號輸入到語音識別系統中。首先對信號進行一系列的預處理,包括采樣、量化、加窗、端點檢測、預加重等。
采樣和量化就是將離散信號分別在時間上和幅度上轉化成離散形式。為了濾除低頻干擾,提升信號高頻部分,對信號進行預加重處理。由于系統對信號的處理都是以短時為前提的,這就要將信號分割成許多語音段,即對語音信號分幀、加窗處理。原始語音信號往往包含無音段和有音段,端點檢測就是運用數字處理技術來判斷各語音段的起點和終點,從而找到有用的語音成分。文中使用基于短時能量和短時平均過零率的檢測方法判定語音信號的起始點和終止點,即雙門限比較法。
(二)提取特征參數
經過預處理的語音信號中并不是所有信息都是有用的,這就需要將語音信號經過一次變換,去掉冗余部分,提取代表語音本質的特征參數。文中采用近年來運用比較廣泛的Mel頻率倒譜參數,先將頻譜轉變為美爾頻標的非線性頻譜,接著再轉換到倒譜域上[6]。MFCC參數充分考慮了人耳的聽覺特性,有很高的穩健性和抗噪性能。
(三)模式匹配算法
篇10
關鍵詞:英語口語;語音識別;英文朗讀;評分機制
語音識別技術使人與機器的交流成為現實,它開創了口語移動學習的全新教育方式,受到越來越多的關注。借助互聯網,移動學習以其學習時間靈活,學習內容豐富、精煉且片段化等特點,開辟了學習的新理念,讓口語學習真正擺脫了時間和空間的限制,使任何人在任何時間、任何地點根據需要進行自主學習成為可能。目前,已有的基于PC的智能英語學習軟件,能提供基于計算機的輔助技術,讓學習者及時得到發音質量評分的智能化功能,但是基于手機端的口語學習應用不多。
本終端是一款基于Android系統開發的,進行英語口語學習的安卓語音軟件。產品結合Google語音識別技術,使用GPRS或WiFi進行移動終端與Google云服務端之間的數據交流,并通過對語音識別結果的處理,最終設計成一個可以進行英語口語專線訓練和自主訓練的應用Oral Storm。
1 研究基礎
Android平臺自底層向上由四個層次組成:Linux內核層、Android運行時庫與其他庫層、應用框架層、應用程序層。它采用軟件堆層(software stack),又名軟件疊層的構架,主要分為3部分:底層以Linux內核工作為基礎,由C語言開發,只提供基本功能;中間層包括函數庫Library和虛擬機(virtual machine),用C++開發,最上層是各種應用軟件。
2 應用架構及功能說明
專項訓練模塊主要是對英語口語比較重要的四個發音類別進行系統訓練,這4個發音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進入訓練界面之前,有對各類發音方法和技巧的介紹,利于用戶方便快速地學習口語的正確發音。我們將每種發音訓練模式中的單詞都分成10個小組,這些單詞都是由學校專業英語教師挑選的有代表性的詞,適合用于英語口語基礎訓練。用戶在進行完每個小組的單詞訓練后,系統都會對用戶的發音作出評價和打分,對經常出現發音錯誤的單詞,用戶可以選擇保存,用于以后專門的訓練。
自主學習模塊是用戶根據自身實際需求進行訓練的板塊。用戶先輸入想要訓練的單詞或語句,如果不知道如何發音,可以求助于應用中的英文朗讀功能。英文朗讀功能是將文本轉換成語音信號,幫助用戶輕松方便地學習每一個英語發音。用戶還可以選擇性地保存輸入的學習內容,方便以后復習使用。
總之,專項訓練模塊針對學生英語學習中的四大類發音難題設計,通過專題式的學習、測試和智能評分,給用戶提供隨身的英語單詞學習和測試環境;自主訓練模塊則專注于為用戶提供可定制的英語單詞學習專題,通過學習內容的自定義給用戶最大限度的學習自由度。
3 研究技術
應用功能的實現主要使用了兩大技術,獲取語音識別技術和語音合成技術。
3.1 獲取語音識別技術
單詞發音練習需要使用Google語音搜索服務,因此必須判斷當前用戶手機是否支持該服務,所采用的方法是通過queryIntentActivities()方法,查詢Android系統所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應用程序,點擊后能啟動該應用。
在Android語音識別應用研究與開發的同時,Google語音服務需要網絡支持,所以也需要判斷當前用戶的網絡連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網絡是否連接正常。
3.2 語音合成技術
語音合成技術,是一種將文本轉換為語音輸出的技術,其主要工作是將文本按字或詞分解為音素,然后將音素生成的數字音頻用揚聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。
Android手機平臺,綁定了英文語音引擎,對英文語音提供內置的支持。要將文本轉換為語音,首先要檢查TTS數據可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結果為真,表明TTSEngine可以使用。除此之外,還有語音數據損壞和缺少發音數據等原因導致TTSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設置發音語言引擎setLanguage(Locale.US)、發音音量Len(Volume)等。在這個過程中,還需要檢測設置的發音語言類型是否可用。
4 結束語
我們開發的口語學習軟件Oral Storm,可為訓練單詞發音提供專業、智能及終端化的一體化學習和測試環境,專題分類科學、全面,涵蓋了爆破音、摩擦音等發音難點,可在專題學習后提供智能評分和語音糾正。用戶使用這款應用,可以方便快速地學習英語口語的正確發音。
參考文獻
[1] 邢銘生,朱浩,王宏斌.語音識別技術綜述[J].科協論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動學習的理論研究和實踐探索[J].中國電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應用的研究與開發[J].廣東通信技術,2013,33(4):15-18.
[4] 涂惠燕,陳一寧.基于語音識別和手機平臺的英語口語發音學習系統[J].計算機應用與軟件,2011,28(9):64-66.