語音識(shí)別研究論文
時(shí)間:2022-09-21 04:53:00
導(dǎo)語:語音識(shí)別研究論文一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:語音識(shí)別技術(shù)是一門涉及面很廣的交叉學(xué)科。隨著新理論的提出和應(yīng)用,語音識(shí)別技術(shù)取得了很大的進(jìn)步,許多產(chǎn)品已經(jīng)得以實(shí)際的應(yīng)用,但在其進(jìn)一步的發(fā)展進(jìn)程中,還有許多棘手的問題有待解決。
關(guān)鍵詞:語音識(shí)別;動(dòng)態(tài)時(shí)間規(guī)整算法;人工神經(jīng)元網(wǎng)絡(luò)
1背景介紹
語言是人類特有的功能,是人們思維最重要的寄托體,是人類交流最主要的途徑。語音是語言的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段。語言和語音與人類社會(huì)科學(xué)文化發(fā)展緊密相連。
語音識(shí)別技術(shù)是讓機(jī)器接收,識(shí)別和理解語音信號(hào),并將其轉(zhuǎn)換成相應(yīng)的數(shù)字信號(hào)的技術(shù)。它是一門交叉學(xué)科,涉及到語音語言學(xué)、數(shù)理統(tǒng)計(jì)、計(jì)算機(jī)、信號(hào)處理等一系列學(xué)科。
2發(fā)展歷史
1952年貝爾實(shí)驗(yàn)室的Davis等人研制成功了能識(shí)別十個(gè)英文數(shù)字發(fā)音的Audry系統(tǒng),標(biāo)志著語音識(shí)別技術(shù)研究工作開始。20世紀(jì)60年代計(jì)提出了動(dòng)態(tài)規(guī)劃(Dynamicprogramming)和線性預(yù)測(cè)分析技術(shù)(LinerPredictive)等重要成果。20世紀(jì)70年代,語音識(shí)別領(lǐng)域取得了突破。實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立語音識(shí)別系統(tǒng)。20世紀(jì)80年代語音識(shí)別研究進(jìn)一步走向深入,基于特定人孤立語音技術(shù)的系統(tǒng)研制成功,隱馬爾可夫模型和人工神經(jīng)元網(wǎng)絡(luò)(ArtificialNeuralNetwork)在語音識(shí)別中的成功應(yīng)用。進(jìn)入20世紀(jì)90年代后語音識(shí)別系統(tǒng)開始從實(shí)驗(yàn)室走向?qū)嵱谩N覈鴮?duì)語音識(shí)別的研究開始于20世紀(jì)80年代,近年來發(fā)展迅速,并取得了一系列的成果。
3具體應(yīng)用
隨著計(jì)算機(jī)技術(shù)、模式識(shí)別等技術(shù)的發(fā)展,適應(yīng)不同場(chǎng)合的語音識(shí)別系統(tǒng)相繼被開發(fā)出來,語音識(shí)別及處理技術(shù)已經(jīng)越來越突現(xiàn)出其強(qiáng)大的技術(shù)優(yōu)勢(shì)。近三十年來,語音識(shí)別在計(jì)算機(jī)、信息處理、通信與電子系統(tǒng)、自動(dòng)控制等領(lǐng)域的應(yīng)用越來越廣泛。
在許多政府部門、商業(yè)機(jī)構(gòu),語音識(shí)別技術(shù)的應(yīng)用,可免除大量操作人員的重復(fù)勞動(dòng),既經(jīng)濟(jì)又方便。如:語音郵件、IP電話和IP傳真、電子商務(wù)、自動(dòng)語音應(yīng)答系統(tǒng)、自動(dòng)語音信箱、基于IP的語音、數(shù)據(jù)、視頻的CTI系統(tǒng)、綜合語音、數(shù)據(jù)服務(wù)系統(tǒng)、自然語音識(shí)別系統(tǒng)、專家咨詢信息服務(wù)系統(tǒng)、尋呼服務(wù)、故障服務(wù)、秘書服務(wù)、多媒體綜合信息服務(wù)、專業(yè)特別服務(wù)號(hào)(168自動(dòng)信息服務(wù)系統(tǒng),112、114、119等信息查詢系統(tǒng))等。許多特定環(huán)境下,如工業(yè)控制方面,在一些工作環(huán)境惡劣、對(duì)人身有傷害的地方(如地下、深水及輻射、高溫等)或手工難以操作的地方,均可通過語音發(fā)出相應(yīng)的控制命令,讓設(shè)備完成各種工作。
當(dāng)今,語音識(shí)別產(chǎn)品不僅在人機(jī)交互中,占到的市場(chǎng)比例越來越大,而且在許多領(lǐng)域都有了廣闊的應(yīng)用前景,在人們的社會(huì)生活中起著舉足輕重的作用。
4語音識(shí)別系統(tǒng)原理
語音識(shí)別一般分為兩個(gè)步驟:學(xué)習(xí)階段和識(shí)別階段。學(xué)習(xí)階段的任務(wù)是建立識(shí)別基本單元的聲學(xué)模型以及語言模型。識(shí)別階段是將輸入的目標(biāo)語音的特征參數(shù)和模型進(jìn)行比較,得到識(shí)別結(jié)果。
語音識(shí)別過程如圖所示。下面對(duì)該流程作簡(jiǎn)單介紹:
(1)語音采集設(shè)備如話筒、電話等將語音轉(zhuǎn)換成模擬信號(hào)。
(2)數(shù)字化一般包括預(yù)濾波、采樣和A/D變換。該過程將模擬信號(hào)轉(zhuǎn)變成計(jì)算機(jī)能處理的數(shù)字信號(hào)。
(3)預(yù)處理一般包括預(yù)加重、加窗分幀。經(jīng)預(yù)處理后的信號(hào)被轉(zhuǎn)換成了幀序列的加窗的短時(shí)信號(hào)。
(4)參數(shù)分析是對(duì)短時(shí)信號(hào)進(jìn)行分析,提取語音特征參數(shù)的過程,如時(shí)域、頻域分析,矢量量化等。
(5)語音識(shí)別是目標(biāo)語音根據(jù)特征參數(shù)與模型庫中的參數(shù)進(jìn)行匹配,產(chǎn)生識(shí)別結(jié)果的過程。一般有模板匹配法、隨機(jī)模型法和神經(jīng)網(wǎng)絡(luò)等。
(6)應(yīng)用程序根據(jù)識(shí)別結(jié)果產(chǎn)程預(yù)定動(dòng)作。
(7)該過程是語音模型的學(xué)習(xí)過程。5現(xiàn)有算法介紹
語音識(shí)別常用的方法有:模板匹配法、人工神經(jīng)網(wǎng)絡(luò)法。
(1)模板匹配法是語音識(shí)別中常用的一種相似度計(jì)算方法。模板匹配法一般將語音或單詞作為識(shí)別單元,一般適用于詞匯表較小的場(chǎng)合。在訓(xùn)練階段,對(duì)用戶語音進(jìn)行特征提取和特征維數(shù)的壓縮,這個(gè)過程常用的方法是采用矢量量化(VQ)技術(shù)。然后采用聚類方法或其他方法,針對(duì)每個(gè)模式類各產(chǎn)生一個(gè)或幾個(gè)模板。識(shí)別階段將待識(shí)別的語音模式的特征參數(shù)與各模板進(jìn)行相似度的計(jì)算,將最高相似者作為識(shí)別結(jié)果。但由于用戶在不同時(shí)刻發(fā)同一個(gè)音的時(shí)間長度有較大隨意性,所以識(shí)別時(shí)必須對(duì)語音時(shí)間進(jìn)行伸縮處理。研究表明,簡(jiǎn)單的線性伸縮是不能滿足要求的。由日本學(xué)者板倉在70年代提出的動(dòng)態(tài)時(shí)間伸縮算法(DTW)很好的解決了這一問題。DTW算法能夠較好地解決小詞匯量、孤立詞識(shí)別時(shí)說話速度不均勻的難題。DTW算法示意圖如圖所示。
設(shè)測(cè)試的語音參數(shù)共有M幀矢量,而參考模板有N幀矢量,且M≠N,則DTW就是尋找一個(gè)時(shí)間歸整函數(shù)tn=f(tm),它將測(cè)試矢量的時(shí)間軸tm非線性地映射到模板的時(shí)間軸tn上,并使該函數(shù)滿足第k幀(k=1,2,…M)測(cè)試矢量I和第f(k)幀(f(k)=1,2…N)模板矢量J之間的距離測(cè)度之和最小:
另外,在實(shí)際識(shí)別系統(tǒng)中,語音的起點(diǎn)或終點(diǎn)由摩擦音構(gòu)成,環(huán)境噪聲也比較大,語音的端點(diǎn)檢測(cè)會(huì)存在較大的誤差。DTW算法起點(diǎn)點(diǎn)可以固定在(tm,tn)=(1,1),稱為固定起點(diǎn);也可以選擇在(1,2)、(2,1)等點(diǎn),稱為松馳起點(diǎn)。同樣,中止點(diǎn)可以選擇在(M,N)點(diǎn),稱為固定終點(diǎn);也可以選擇在(N一1,M)、(N,M一1)等點(diǎn),稱為松弛終點(diǎn)。松弛的DTW算法的起始點(diǎn)從(1,1)、(1,2)、(2,1)等點(diǎn)中選擇一最小值,終止點(diǎn)從(M,N)、(M,N-1)、(M-1,N)等點(diǎn)中選擇一最小值,兩語音樣本之間的相互距離在相應(yīng)的點(diǎn)放松后選擇一最小距離。松弛DTW可以克服由于端點(diǎn)檢測(cè)不精確引起的誤差,但運(yùn)算量加大。
(2)人工神經(jīng)網(wǎng)絡(luò)法。現(xiàn)實(shí)世界的語音信號(hào)會(huì)隨著許多特征如:說話人語速、語調(diào)以及環(huán)境的變化而動(dòng)態(tài)變化的,想要用傳統(tǒng)的基于模板的方法建立一個(gè)適應(yīng)動(dòng)態(tài)變化的語音識(shí)別系統(tǒng)是非常困難的。因此需要設(shè)計(jì)一個(gè)帶有自學(xué)習(xí)能力的自適應(yīng)識(shí)別系統(tǒng),以便可以適應(yīng)語音的動(dòng)態(tài)變化。
人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元、網(wǎng)絡(luò)拓樸和學(xué)習(xí)方法構(gòu)成。人工神經(jīng)網(wǎng)絡(luò)拓樸結(jié)構(gòu)可分為反饋型和非反饋型(前饋型)。學(xué)習(xí)方法可分為監(jiān)督型和非監(jiān)督型。各種人工神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用得最典型的是采用反向傳播(BackPropagation)學(xué)習(xí)算法的多層前饋網(wǎng)絡(luò)。多層前饋型網(wǎng)絡(luò)如圖所示。
除上述介紹的幾種常用的方法外,還有許多其它的識(shí)別方法以及改進(jìn)算法。
6尚未解決的問題及值得研究的方向
(1)就算法模型方面而言,需要有進(jìn)一步的突破。聲學(xué)模型和語言模型是聽寫識(shí)別的基礎(chǔ)。目前使用的語言模型只是一種概率模型,還沒有用到以語言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算機(jī)確實(shí)理解人類的語言,就必須在這一點(diǎn)上取得進(jìn)展。
(2)語音識(shí)別的自適應(yīng)性也有待進(jìn)一步改進(jìn)。同一個(gè)音節(jié)或單詞的語音不僅對(duì)隨著的講話者的不同而變化,而且對(duì)同一個(gè)講話者在不同場(chǎng)合,不同上下文環(huán)境中也會(huì)發(fā)生變化。這意味著對(duì)語言模型的進(jìn)一步改進(jìn)。
(3)語音識(shí)別技術(shù)還需要能排除各種環(huán)境因素的影響。目前,對(duì)語音識(shí)別效果影響最大的就是環(huán)境雜音或噪音。要在嘈雜環(huán)境中使用語音識(shí)別技術(shù)必須有特殊的抗噪麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶來說是不現(xiàn)實(shí)的。在公共場(chǎng)合中,如何讓語音識(shí)別技術(shù)能有摒棄環(huán)境嗓音并從中獲取所需要的特定聲音是一個(gè)艱巨的任務(wù)。
雖然在短期內(nèi)還不可能造出具有和人相比擬的語音識(shí)別系統(tǒng),但在未來幾年內(nèi),語音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛,各種語音識(shí)別系統(tǒng)產(chǎn)品將陸續(xù)進(jìn)入我們的生活。語音識(shí)別各個(gè)方面的技術(shù)正在不斷地進(jìn)步,一步步朝著更加智能化的方向發(fā)展。
參考文獻(xiàn)
[1]楊尚國,楊金龍.語音識(shí)別技術(shù)概述[J].福建電腦,2006,(8).
[2]孫寧,孫勁光,孫宇.基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2006.
[3]PhilWoodland.SpeechRecognition.SpeechandLanguageEngineering-StateoftheArt(Ref.No.1998/499).
[4]Morgan,N..Bourlard,H.A.Neuralnetworksforstatisticalrecognitionofcontinuousspeech.ProceedingsoftheIEEEVolume83,Issue5,May1995Page(s):742-772.
- 上一篇:國慶60周年演講材料
- 下一篇:工商干部紀(jì)念建國六十周年演講稿