首頁 > 精品范文 > 語音識別技術(shù)
時間:2023-03-17 18:04:01
序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇語音識別技術(shù)范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
關(guān)鍵詞: 語音識別; 識別原理; 聲學(xué)建模方法; 多維模式識別系統(tǒng)
中圖分類號: TN912.3?34 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2013)13?0043?03
Summary of speech recognition technology and its application
YU Lin?lin
(Naval Aviation Military Representative Office Stationed in Beijing, Beijing 100041, China)
Abstract: As a key technology of human?computer interface in information technology, speech recognition has great research significance and broad application value. the development history of speech recognition technology is introduced, the basic knowledge of speech recognition is expounded, such as concept, basic principle, the acoustic modeling approach. The application of speech recognition technology in various fields are briefly introduced.
Keywords: speech recognition; recognition principle; acoustic modeling approach; multi?dimension pattern recognition system
0 引 言
語言是人類相互交流最常用、最有效、最重要和最方便的通信形式,語音是語言的聲學(xué)表現(xiàn),與機(jī)器進(jìn)行語音交流是人類一直以來的夢想。隨著計算機(jī)技術(shù)的飛速發(fā)展,語音識別技術(shù)也取得突破性的成就,人與機(jī)器用自然語言進(jìn)行對話的夢想逐步接近實(shí)現(xiàn)。語音識別技術(shù)的應(yīng)用范圍極為廣泛,不僅涉及到日常生活的方方面面,在軍事領(lǐng)域也發(fā)揮著極其重要的作用。它是信息社會朝著智能化和自動化發(fā)展的關(guān)鍵技術(shù),使人們對信息的處理和獲取更加便捷,從而提高人們的工作效率。
1 語音識別技術(shù)的發(fā)展
語音識別技術(shù)起始于20世紀(jì)50年代。這一時期,語音識別的研究主要集中在對元音、輔音、數(shù)字以及孤立詞的識別。
20世紀(jì)60年代,語音識別研究取得實(shí)質(zhì)性進(jìn)展。線性預(yù)測分析和動態(tài)規(guī)劃的提出較好地解決了語音信號模型的產(chǎn)生和語音信號不等長兩個問題,并通過語音信號的線性預(yù)測編碼,有效地解決了語音信號的特征提取。
20世紀(jì)70年代,語音識別技術(shù)取得突破性進(jìn)展?;趧討B(tài)規(guī)劃的動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)技術(shù)基本成熟,特別提出了矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型(Hidden Markov Model,HMM)理論[1]。
20世紀(jì)80年代,語音識別任務(wù)開始從孤立詞、連接詞的識別轉(zhuǎn)向大詞匯量、非特定人、連續(xù)語音的識別,識別算法也從傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的方法轉(zhuǎn)向基于統(tǒng)計模型的方法。在聲學(xué)模型方面,由于HMM能夠很好的描述語音時變性和平穩(wěn)性,開始被廣泛應(yīng)用于大詞匯量連續(xù)語音識別(Large Vocabulary Continous Speech Recognition, LVCSR)的聲學(xué)建模[2?3];在語言模型方面,以N元文法為代表的統(tǒng)計語言模型開始廣泛應(yīng)用于語音識別系統(tǒng)[4]。在這一階段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模方法開始廣泛應(yīng)用于LVCSR系統(tǒng),語音識別技術(shù)取得新突破。
20世紀(jì)90年代以后,伴隨著語音識別系統(tǒng)走向?qū)嵱没Z音識別在細(xì)化模型的設(shè)計、參數(shù)提取和優(yōu)化、系統(tǒng)的自適應(yīng)方面取得較大進(jìn)展[5]。同時,人們更多地關(guān)注話者自適應(yīng)、聽覺模型、快速搜索識別算法以及進(jìn)一步的語言模型的研究等課題[6]。此外,語音識別技術(shù)開始與其他領(lǐng)域相關(guān)技術(shù)進(jìn)行結(jié)合,以提高識別的準(zhǔn)確率,便于實(shí)現(xiàn)語音識別技術(shù)的產(chǎn)品化。
2 語音識別基礎(chǔ)
2.1 語音識別概念
語音識別是將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程[7]。語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支。語音識別的研究涉及微機(jī)技術(shù)、人工智能、數(shù)字信號處理、模式識別、聲學(xué)、語言學(xué)和認(rèn)知科學(xué)等許多學(xué)科領(lǐng)域,是一個多學(xué)科綜合性研究領(lǐng)域[8]。
根據(jù)在不同限制條件下的研究任務(wù),產(chǎn)生了不同的研究領(lǐng)域。這些領(lǐng)域包括:根據(jù)對說話人說話方式的要求,可分為孤立字(詞)、連接詞和連續(xù)語音識別系統(tǒng);根據(jù)對說話人的依賴程度,可分為特定人和非特定人語音識別系統(tǒng);根據(jù)詞匯量的大小,可分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。
2.2 語音識別基本原理
從語音識別模型的角度講,主流的語音識別系統(tǒng)理論是建立在統(tǒng)計模式識別基礎(chǔ)之上的。語音識別的目標(biāo)是利用語音學(xué)與語言學(xué)信息,把輸入的語音特征向量序列[X=x1,x2,…,xT]轉(zhuǎn)化成詞序列[W=w1,w2,…,wN]并輸出?;谧畲蠛篁?yàn)概率的語音識別模型如下式所示:
[W=argmaxW{P(W|X)}=argmaxWP(W|X)P(W)P(X)=argmaxW{P(X|W)P(W)}=argmaxW{logP(X|W)+λlogP(W)}]
上式表明,要尋找的最可能的詞序列[W],應(yīng)該使[P(X|W)]與[P(W)]的乘積達(dá)到最大。其中,[P(X|W)]是特征矢量序列[X]在給定[W]條件下的條件概率,由聲學(xué)模型決定。[P(W)]是[W]獨(dú)立于語音特征矢量的先驗(yàn)概率,由語言模型決定。由于將概率取對數(shù)不影響[W]的選取,第四個等式成立。[logP(X|W)]與[logP(W)]分別表示聲學(xué)得分與語言得分,且分別通過聲學(xué)模型與語言模型計算得到。[λ]是平衡聲學(xué)模型與語言模型的權(quán)重。從語音識別系統(tǒng)構(gòu)成的角度講,一個完整的語音識別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。語音識別系統(tǒng)本質(zhì)上是一種多維模式識別系統(tǒng),對于不同的語音識別系統(tǒng),人們所采用的具體識別方法及技術(shù)不同,但其基本原理都是相同的,即將采集到的語音信號送到特征提取模塊處理,將所得到的語音特征參數(shù)送入模型庫模塊,由聲音模式匹配模塊根據(jù)模型庫對該段語音進(jìn)行識別,最后得出識別結(jié)果[9]。
語音識別系統(tǒng)基本原理框圖如圖1所示,其中:預(yù)處理模塊濾除原始語音信號中的次要信息及背景噪音等,包括抗混疊濾波、預(yù)加重、模/數(shù)轉(zhuǎn)換、自動增益控制等處理過程,將語音信號數(shù)字化;特征提取模塊對語音的聲學(xué)參數(shù)進(jìn)行分析后提取出語音特征參數(shù),形成特征矢量序列。語音識別系統(tǒng)常用的特征參數(shù)有短時平均幅度、短時平均能量、線性預(yù)測編碼系數(shù)、短時頻譜等。特征提取和選擇是構(gòu)建系統(tǒng)的關(guān)鍵,對識別效果極為重要。
圖1 語音識別基本原理框圖
由于語音信號本質(zhì)上屬于非平穩(wěn)信號,目前對語音信號的分析是建立在短時平穩(wěn)性假設(shè)之上的。在對語音信號作短時平穩(wěn)假設(shè)后,通過對語音信號進(jìn)行加窗,實(shí)現(xiàn)短時語音片段上的特征提取。這些短時片段被稱為幀,以幀為單位的特征序列構(gòu)成語音識別系統(tǒng)的輸入。由于梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)能夠從人耳聽覺特性的角度準(zhǔn)確刻畫語音信號,已經(jīng)成為目前主流的語音特征。為補(bǔ)償幀間獨(dú)立性假設(shè),人們在使用梅爾倒譜系數(shù)及感知線性預(yù)測系數(shù)時,通常加上它們的一階、二階差分,以引入信號特征的動態(tài)特征。
聲學(xué)模型是語音識別系統(tǒng)中最為重要的部分之一。聲學(xué)建模涉及建模單元選取、模型狀態(tài)聚類、模型參數(shù)估計等很多方面。在目前的LVCSR系統(tǒng)中,普遍采用上下文相關(guān)的模型作為基本建模單元,以刻畫連續(xù)語音的協(xié)同發(fā)音現(xiàn)象。在考慮了語境的影響后,聲學(xué)模型的數(shù)量急劇增加,LVCSR系統(tǒng)通常采用狀態(tài)聚類的方法壓縮聲學(xué)參數(shù)的數(shù)量,以簡化模型的訓(xùn)練。在訓(xùn)練過程中,系統(tǒng)對若干次訓(xùn)練語音進(jìn)行預(yù)處理,并通過特征提取得到特征矢量序列,然后由特征建模模塊建立訓(xùn)練語音的參考模式庫。
搜索是在指定的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,尋找最優(yōu)詞序列的過程。搜索的本質(zhì)是問題求解,廣泛應(yīng)用于語音識別、機(jī)器翻譯等人工智能和模式識別的各個領(lǐng)域。它通過利用已掌握的知識(聲學(xué)知識、語音學(xué)知識、詞典知識、語言模型知識等),在狀態(tài)(從高層至底層依次為詞、聲學(xué)模型、HMM狀態(tài))空間中找到最優(yōu)的狀態(tài)序列。最終的詞序列是對輸入的語音信號在一定準(zhǔn)則下的一個最優(yōu)描述。在識別階段,將輸入語音的特征矢量參數(shù)同訓(xùn)練得到的參考模板庫中的模式進(jìn)行相似性度量比較,將相似度最高的模式所屬的類別作為識別中間候選結(jié)果輸出。為了提高識別的正確率,在后處理模塊中對上述得到的候選識別結(jié)果繼續(xù)處理,包括通過Lattice重打分融合更高元的語言模型、通過置信度度量得到識別結(jié)果的可靠程度等。最終通過增加約束,得到更可靠的識別結(jié)果。
2.3 聲學(xué)建模方法
常用的聲學(xué)建模方法包含以下三種:基于模式匹配的動態(tài)時間規(guī)整法(DTW);隱馬爾可夫模型法(HMM);基于人工神經(jīng)網(wǎng)絡(luò)識別法(ANN)等。
DTW 是較早的一種模式匹配的方法。它基于動態(tài)規(guī)劃的思想,解決孤立詞語音識別中的語音信號特征參數(shù)序列比較時長度不一的模板匹配問題。在實(shí)際應(yīng)用中,DTW通過計算已預(yù)處理和分幀的語音信號與參考模板之間的相似度,再按照某種距離測度計算出模板間的相似度并選擇最佳路徑。
HMM是對語音信號的時間序列結(jié)構(gòu)所建立的統(tǒng)計模型,是在馬爾可夫鏈的基礎(chǔ)上發(fā)展起來的,它是一種基于參數(shù)模型的統(tǒng)計識別方法。HMM可模仿人的言語過程,可視作一個雙重隨機(jī)過程:一個是用具有有限狀態(tài)數(shù)的馬爾可夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機(jī)過程,另一個是與馬爾可夫鏈的每一個狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程[10]。
ANN以數(shù)學(xué)模型模擬神經(jīng)元活動,將人工神經(jīng)網(wǎng)絡(luò)中大量神經(jīng)元并行分布運(yùn)算的原理、高效的學(xué)習(xí)算法以及對人的認(rèn)知系統(tǒng)的模仿能力充分運(yùn)用到語音識別領(lǐng)域,并結(jié)合神經(jīng)網(wǎng)絡(luò)和隱含馬爾可夫模型的識別算法,克服了ANN在描述語音信號時間動態(tài)特性方面的缺點(diǎn),進(jìn)一步提高了語音識別的魯棒性和準(zhǔn)確率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估計音素或狀態(tài)的后驗(yàn)概率。2011年,微軟以深度神經(jīng)網(wǎng)絡(luò)替代多層感知機(jī)形成的混合模型系統(tǒng)大大提高了語音識別的準(zhǔn)確率。
3 語音識別的應(yīng)用
語音識別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。在語音輸入控制系統(tǒng)中,它使得人們可以甩掉鍵盤,通過識別語音中的要求、請求、命令或詢問來作出正確的響應(yīng),這樣既可以克服人工鍵盤輸入速度慢,極易出差錯的缺點(diǎn),又有利于縮短系統(tǒng)的反應(yīng)時間,使人機(jī)交流變得簡便易行,比如用于聲控語音撥號系統(tǒng)、聲控智能玩具、智能家電等領(lǐng)域。在智能對話查詢系統(tǒng)中,人們通過語音命令,可以方便地從遠(yuǎn)端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)信息,享受自然、友好的數(shù)據(jù)庫檢索服務(wù),例如信息網(wǎng)絡(luò)查詢、醫(yī)療服務(wù)、銀行服務(wù)等。語音識別技術(shù)還可以應(yīng)用于自動口語翻譯,即通過將口語識別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相結(jié)合,可將一種語言的語音輸入翻譯為另一種語言的語音輸出,實(shí)現(xiàn)跨語言交流[11]。
語音識別技術(shù)在軍事斗爭領(lǐng)域里也有著極為重要的應(yīng)用價值和極其廣闊的應(yīng)用空間。一些語音識別技術(shù)就是著眼于軍事活動而研發(fā),并在軍事領(lǐng)域首先應(yīng)用、首獲成效的,軍事應(yīng)用對語音識別系統(tǒng)的識別精度、響應(yīng)時間、惡劣環(huán)境下的頑健性都提出了更高的要求。目前,語音識別技術(shù)已在軍事指揮和控制自動化方面得以應(yīng)用。比如,將語音識別技術(shù)應(yīng)用于航空飛行控制,可快速提高作戰(zhàn)效率和減輕飛行員的工作負(fù)擔(dān),飛行員利用語音輸入來代替?zhèn)鹘y(tǒng)的手動操作和控制各種開關(guān)和設(shè)備,以及重新改編或排列顯示器上的顯示信息等,可使飛行員把時間和精力集中于對攻擊目標(biāo)的判斷和完成其他操作上來,以便更快獲得信息來發(fā)揮戰(zhàn)術(shù)優(yōu)勢。
4 結(jié) 語
語音識別的研究工作對于信息化社會的發(fā)展,人們生活水平的提高等方面有著深遠(yuǎn)的意義。隨著計算機(jī)信息技術(shù)的不斷發(fā)展,語音識別技術(shù)將取得更多重大突破,語音識別系統(tǒng)的研究將會更加深入,有著更加廣闊的發(fā)展空間。
參考文獻(xiàn)
[1] 馬志欣,王宏,李鑫.語音識別技術(shù)綜述[J].昌吉學(xué)院學(xué)報,2006(3):93?97.
[2] RABINER L R, JUANG B H. An introduction to hidden Markov models [J]. IEEE ASSP Magazine, 1986, 3(1): 4?16.
[3] GALES M, YOUNG S. The application of hidden Markov models in speech recognition [J]. Foundations and Trends in Signal Processing, 2008, 1(3): 195?304.
[4] JELINEK F. Continuous speech recognition by statistical methods [J]. Proceedings of the IEEE, 1976, 64(4): 532?556.
[5] 倪崇嘉,劉文舉,徐波.漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J].中文信息學(xué)報,2009,23(1):112?123.
[6] 顧亞強(qiáng).非特定人語音識別關(guān)鍵技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2009.
[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T21023?2007 中文語音識別系統(tǒng)通用技術(shù)規(guī)范[S].北京:中國標(biāo)準(zhǔn)出版社,2007.
[8] 王文慧.基于ARM的嵌入式語音識別系統(tǒng)研究[D].天津:天津大學(xué),2008.
[9] 何湘智.語音識別的研究與發(fā)展[J].計算機(jī)與現(xiàn)代化,2002(3):3?6.
關(guān)鍵詞:嵌入式系統(tǒng);語音識別;隱馬爾可夫;智能家居
中圖分類號:TP316.9
文獻(xiàn)標(biāo)識碼:A
DOI:10.3969/j.issn.1003-6970.2015.07.021
0 引言
隨著計算機(jī)的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)家居設(shè)備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對智能家居的便利程度提出了更高的要求,同時語音識別技術(shù)也進(jìn)一步的發(fā)展,但是語音在智能家居中的應(yīng)用還是相對較少,一般還要依靠遙控、手機(jī)等中控設(shè)備。語言是信息交流的重要手段,語音識別可以用聲音來控制設(shè)備完成一些特定的命令,減少用戶如手機(jī),遙控等中控設(shè)備的依賴,使生活更加方便。
本文通過對語音識別技術(shù)與嵌入式控制技術(shù)的研究,用語音命令實(shí)現(xiàn)直接管控從而可以取代以往利用手機(jī)或者遙控方式來控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實(shí)現(xiàn)語音采集,并采用當(dāng)今語音識別領(lǐng)域的主流技術(shù)一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實(shí)現(xiàn)對人語音命令的識別主要是進(jìn)行模型訓(xùn)練和匹配。實(shí)驗(yàn)證明在多個語音樣本對系統(tǒng)的訓(xùn)練識別下,系統(tǒng)在非特定人、孤立詞語識別上具有良好的效果。
1 語音識別與智能家居
1.1 語音識別技術(shù)
語音識別技術(shù)本質(zhì)上是一種模式匹配識別的過程,是機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變成相應(yīng)的文本文件或命令的技術(shù)。根據(jù)模式匹配過程語音識別系統(tǒng)可以如下圖表示。語音識別系統(tǒng)可以分為:特定人和非特定人的識別、獨(dú)立詞和連續(xù)詞的識別等,無論哪種識別系統(tǒng)識別過程都主要包括了語音信號預(yù)處理、特征提取、訓(xùn)練等。分別通過對信號的預(yù)處理分析和計算建立模板,當(dāng)對語音進(jìn)行識別時,需要將輸入的語音與系統(tǒng)中存放的語音進(jìn)行比較從而得到識別結(jié)果。
1.2 語音識別算法
人的言語過程是一個雙重隨機(jī)過程。因?yàn)檎Z音信號本身是一個可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語需要和語法知識狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實(shí)驗(yàn)表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號的產(chǎn)生過程。隱馬爾可夫模型是對語音信號的時間序列結(jié)構(gòu)建立統(tǒng)計模型,將之看作一個數(shù)學(xué)上的雙重隨機(jī)過程,采用HMM進(jìn)行語音識別,實(shí)質(zhì)上是一種概率運(yùn)算,根據(jù)訓(xùn)練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結(jié)果。一階離散馬爾可夫模型可表示為:有N個狀態(tài),Sl,S2... SN,存在一個離散的時間序列t=0,t=1…在每個時刻t,系統(tǒng)只能處于唯一一個狀態(tài)qt,下一個時刻所處的狀態(tài)是隨機(jī)出現(xiàn)的,當(dāng)前狀態(tài)qt只與前面相鄰的一個狀態(tài)qt-l有關(guān), 與其他狀態(tài)無關(guān),用表達(dá)式
HMM語音識別的一般過程:
1.前向后向算法計算
已知觀測序列 和模型 ,如何有效的計算在給定模型條件下產(chǎn)生觀測序列O的概率
2.Baum-Welch算法求出最優(yōu)解 :
(1)初始化
(2)迭代計算
(3)最后計算
3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列:
已知觀測序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。
(1)初始化
(2)迭代計算:
4.根據(jù)最佳狀態(tài)序列對應(yīng)的九給出候選音節(jié)或聲韻母
5.通過語言模型形成詞和句子
2 基于NL6621嵌入式硬件設(shè)計
語音識別的硬件平臺主要包括中央處理器NL6621,可讀寫存儲器,聲卡芯片vs1003以及一些設(shè)備,硬件體系結(jié)構(gòu)如圖2所示。
主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護(hù)設(shè)置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進(jìn)行的。它集成了麥克風(fēng)輸入接口,音頻輸出接口,對話筒輸入或者線路輸入進(jìn)行IMA ADPCM編碼,能有效的接受和播放音頻信息。
硬件電路實(shí)現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來確認(rèn)是哪一個接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來接收NL6621的控制命令和數(shù)據(jù),通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復(fù)位、暫停、音量控制、播放時間的讀取等,均是通過SCI口寫入特定寄存器實(shí)現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號判斷上一次處理是否完成。
3 基于NL6621嵌入式軟件設(shè)計
軟件設(shè)計主要包括兩部分實(shí)現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術(shù)的語音識別算法編寫,基本的軟件架構(gòu)如圖3所示。
針對嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應(yīng)用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉(zhuǎn)化、程序編寫完成后需要用燒寫工具進(jìn)行燒寫。系統(tǒng)啟動后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語音輸入設(shè)備MIC采集語音,并通過聲卡VS1003輸入語音。當(dāng)系統(tǒng)監(jiān)聽到語音輸入,開始語音識別,判斷識別是否正確,若正確,將命令發(fā)送給執(zhí)行設(shè)備,入耳不正確,給出相應(yīng)
的錯誤提示,不執(zhí)行語音命令。判斷識別是否結(jié)束,如果結(jié)束則退出,否則繼續(xù)下一輪的識別。基于HMM技術(shù)的語音識別算法編寫,還包括了語音預(yù)處理,特征值提取和匹配識別的部分。主要的原理如圖4所示,輸入語音經(jīng)過預(yù)處理后,語音信號的特征被提取出來,首先在此基礎(chǔ)上建立所需的模板,這個建立模板的過程稱為訓(xùn)練過程。根據(jù)語音識別整體模型,將輸入的語音信號特征與存在的語音模板(參考模式)進(jìn)行比較,找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后,根據(jù)此模板號的定義,通過查表就可以給出計算機(jī)的識別結(jié)果。采用HMM進(jìn)行語音識別,實(shí)質(zhì)上是一種概率運(yùn)算。根據(jù)訓(xùn)練集數(shù)據(jù)計算得出模型參數(shù)后,測試集數(shù)據(jù)只需分別計算各模型的條件概率(Viterbi算法),取此概率最大者即為識別結(jié)果。除訓(xùn)練時需運(yùn)算量較大外,識別時的運(yùn)算量僅有模式匹配法的幾分之一。
【關(guān)鍵詞】語音識別技術(shù);語言實(shí)驗(yàn)室
語音識別技術(shù)是使用計算機(jī)能識別和理解的語言,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的過程。語音識別是一門涉及到語音語言學(xué)、信號處理、模式識別、人工智能的多學(xué)科交叉技術(shù),也是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。隨著語音識別技術(shù)的發(fā)展,在傳統(tǒng)的數(shù)字化語言實(shí)驗(yàn)室中其可以作為一種新的外語輔助教學(xué)的手段,完善現(xiàn)有的數(shù)字化語音室的功能。
一、語音識別技術(shù)
語音識別技術(shù)是一種讓計算機(jī)能夠聽懂人的語音命令的技術(shù)。對使用者來說,這種人機(jī)交互的途徑是最自然的一種方式。早在三四十年前,美國的一些大學(xué)和實(shí)驗(yàn)室就開始了語音識別技術(shù)的研究,50年代的AT&T Bell實(shí)驗(yàn)室研發(fā)的Audry系統(tǒng)第一個實(shí)現(xiàn)了可識別十個英文數(shù)字。60和70年代,提出了線性預(yù)測分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實(shí)現(xiàn)特定人孤立語音識別系統(tǒng);80 年代和90年代是語音識別技術(shù)應(yīng)用研究方向的,HMM 模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語音識別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時代的來臨,微軟,Apple 等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語音識別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query(電話語音識別)引擎等。近二三十年來,語音識別在交通、軍事、工業(yè)、醫(yī)學(xué)等諸多方面,特別是在計算機(jī)、通信與電子系統(tǒng)、信息處理、自動控制等領(lǐng)域中有著非常廣泛的應(yīng)用。目前,語音識別技術(shù)產(chǎn)品在人機(jī)交互應(yīng)用中己經(jīng)占到越來越大的比例。例如,在聲控應(yīng)用中,計算機(jī)可識別輸入的語音內(nèi)容,并根據(jù)內(nèi)容來執(zhí)行相應(yīng)的動作,這包括了聲控語音撥號系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、賓館服務(wù)、家庭服務(wù)、股票查詢服務(wù)和工業(yè)控制等。也可用于基于微型機(jī)的辦公、教學(xué)、娛樂等智能多媒體軟件,如語言學(xué)習(xí)、教學(xué)軟件、語音玩具、語音書籍等。語音識別技術(shù)作為語音控制的主體,在應(yīng)用領(lǐng)域中正成為一個具有競爭力的技術(shù)。
語音識別的開發(fā)平臺現(xiàn)已逐步成熟,在windows下有微軟的SAPI語音識別開發(fā)平臺,在Unix/Linux下有IBM的ViaVoice和開源的Xvoice開發(fā)平臺。它們都是相當(dāng)優(yōu)秀音識別開發(fā)系統(tǒng),提供了良好的開發(fā)接口,使語音識別應(yīng)用程序開發(fā)能夠不需要對現(xiàn)有系統(tǒng)做大規(guī)模的修改,以較少投入、較短周期、以組件方式加入到當(dāng)前的語言實(shí)驗(yàn)室中。
二、語音識別技術(shù)在語言實(shí)驗(yàn)室中的應(yīng)用
1.有聲圖書
可以將一些由外籍專家錄制的有聲圖書加入到語言實(shí)驗(yàn)室的資料庫中。標(biāo)準(zhǔn)的美式或英式發(fā)音,結(jié)合文本,逐字逐句的朗讀,讓學(xué)生可以在閱讀英語圖書的同時聆聽到原汁原味的英語。所有圖書都支持自動播放,可以一次聽完整本書,學(xué)生也可以選擇單獨(dú)播放某個句子,并鼓勵學(xué)生模仿標(biāo)準(zhǔn)的語音語調(diào)朗讀圖書。從而對學(xué)生的閱讀、聽力、口語進(jìn)行全方位的提高。
2.口述作文
影響語音識別系統(tǒng)輔助學(xué)生口述作文的最為關(guān)鍵技術(shù)是識別率和糾錯能力,從某種意義上說,只要這兩個關(guān)鍵的技術(shù)得到了提高,則其輔助寫作的有效性就會得到較大提高。近幾年,隨著多媒體技術(shù)和人工智能技術(shù)的進(jìn)步,不僅語音識別系統(tǒng)的識別率得到很大提高,而且多語言的語音識別產(chǎn)品也大為豐富。目前國際商業(yè)機(jī)器(IBM)公司推出的語音識別軟件具有非特定人,無限詞匯量,連續(xù)語音識別,高識別率,專業(yè)文章智能分析、理解等強(qiáng)大的語音功能。該軟件通過對個人話語進(jìn)行測試與分析來適應(yīng)說話者,適應(yīng)后的語音識別正確率可以達(dá)到95%以上。與過去相比,其識別率提高了很多,已經(jīng)完全可以接受。語音識別系統(tǒng)除了識別率目前已有很大提高,其智能糾錯能力也大為提高。一是糾錯的操作更加方便和容易,目前的語音識別系統(tǒng),可以有三種糾錯方式:①通過鍵盤輸入方式;②系統(tǒng)智化地產(chǎn)生錯誤詞的相近詞列出,供修改者選擇;③還可以通過重讀來糾錯。二是通過糾錯,可讓語音識別系統(tǒng)更進(jìn)一步地熟悉說話者的聲音,而非常有效地提高系統(tǒng)識別率。隨著信息技術(shù)的迅速發(fā)展,今后的語音識別系統(tǒng)必將是功能更加強(qiáng)大,智能化程度更高,兼容性更強(qiáng),抗噪音能力更強(qiáng)的系統(tǒng),其輔助口述作文的有效性也會更強(qiáng)。
3.英語口語糾正系統(tǒng)
語音識別技術(shù)的應(yīng)用使得軟件可以具有發(fā)音評測的功能,能夠幫助學(xué)習(xí)者及時發(fā)現(xiàn)和糾正發(fā)音的錯誤,避免重復(fù)錯誤形成習(xí)慣,從而極大提高了學(xué)習(xí)者的學(xué)習(xí)效率。英語口語學(xué)習(xí)中語音識別技術(shù)遇到的難點(diǎn)主要有:①語音識別選取基元的問題。一般地,欲識別的詞匯量比較多時,所用基元應(yīng)該越小越好;②端點(diǎn)檢測。語音信號的端點(diǎn)檢測是語音識別的關(guān)鍵。據(jù)研究表明,即便是在安靜的環(huán)境下,語音識別系統(tǒng)也會有一半以上的識別錯誤源自端點(diǎn)檢測器。提高端點(diǎn)檢測技術(shù)的關(guān)鍵所在是尋找穩(wěn)定的語音參數(shù);③找出反映發(fā)音質(zhì)量的性能指標(biāo)。主要是對發(fā)音段(指一段發(fā)音的語速、韻律、語調(diào)以及重音等)的研究;④對給定的發(fā)音進(jìn)行錯誤檢測和糾正,尋找合理的評分機(jī)制。
由于語音識別在理論與技術(shù)方面的復(fù)雜性,現(xiàn)有的口語糾正軟件仍有很大限制范圍,但隨著語音技術(shù)的發(fā)展相信其在外語語言學(xué)習(xí)中的應(yīng)用會越來越廣泛。
三、結(jié)束語
語音識別技術(shù)作為一種逐漸成熟的計算機(jī)技術(shù),是計算機(jī)輔助外語教學(xué)中的一種重要虛擬現(xiàn)實(shí)手段。而人機(jī)交互是數(shù)字語音室的一個發(fā)展方向,也是外語網(wǎng)絡(luò)教學(xué)的核心內(nèi)容。所以,語音識別技術(shù)會是未來語言實(shí)驗(yàn)室的建設(shè)中的一個重要方向。
參考文獻(xiàn):
[1]夏晴.ARS和TTS技術(shù)在外語口語教學(xué)中的應(yīng)用研究[J].外語電化教學(xué),2006(2)
[2]周英.語音識別技術(shù)發(fā)展趨勢的分析[J].計算機(jī)光盤軟件與應(yīng)用,2012(19)
[3]孔菊芳.基于語音識別技術(shù)的英語學(xué)習(xí)網(wǎng)站分析[J].哈爾濱職業(yè)技術(shù)學(xué)院學(xué)報,2012(5)
關(guān)鍵詞:英語口語;語音識別;英文朗讀;評分機(jī)制
語音識別技術(shù)使人與機(jī)器的交流成為現(xiàn)實(shí),它開創(chuàng)了口語移動學(xué)習(xí)的全新教育方式,受到越來越多的關(guān)注。借助互聯(lián)網(wǎng),移動學(xué)習(xí)以其學(xué)習(xí)時間靈活,學(xué)習(xí)內(nèi)容豐富、精煉且片段化等特點(diǎn),開辟了學(xué)習(xí)的新理念,讓口語學(xué)習(xí)真正擺脫了時間和空間的限制,使任何人在任何時間、任何地點(diǎn)根據(jù)需要進(jìn)行自主學(xué)習(xí)成為可能。目前,已有的基于PC的智能英語學(xué)習(xí)軟件,能提供基于計算機(jī)的輔助技術(shù),讓學(xué)習(xí)者及時得到發(fā)音質(zhì)量評分的智能化功能,但是基于手機(jī)端的口語學(xué)習(xí)應(yīng)用不多。
本終端是一款基于Android系統(tǒng)開發(fā)的,進(jìn)行英語口語學(xué)習(xí)的安卓語音軟件。產(chǎn)品結(jié)合Google語音識別技術(shù),使用GPRS或WiFi進(jìn)行移動終端與Google云服務(wù)端之間的數(shù)據(jù)交流,并通過對語音識別結(jié)果的處理,最終設(shè)計成一個可以進(jìn)行英語口語專線訓(xùn)練和自主訓(xùn)練的應(yīng)用Oral Storm。
1 研究基礎(chǔ)
Android平臺自底層向上由四個層次組成:Linux內(nèi)核層、Android運(yùn)行時庫與其他庫層、應(yīng)用框架層、應(yīng)用程序?qū)?。它采用軟件堆層(software stack),又名軟件疊層的構(gòu)架,主要分為3部分:底層以Linux內(nèi)核工作為基礎(chǔ),由C語言開發(fā),只提供基本功能;中間層包括函數(shù)庫Library和虛擬機(jī)(virtual machine),用C++開發(fā),最上層是各種應(yīng)用軟件。
2 應(yīng)用架構(gòu)及功能說明
專項(xiàng)訓(xùn)練模塊主要是對英語口語比較重要的四個發(fā)音類別進(jìn)行系統(tǒng)訓(xùn)練,這4個發(fā)音類別分別是清輔音、濁輔音、摩擦音和爆破音。在進(jìn)入訓(xùn)練界面之前,有對各類發(fā)音方法和技巧的介紹,利于用戶方便快速地學(xué)習(xí)口語的正確發(fā)音。我們將每種發(fā)音訓(xùn)練模式中的單詞都分成10個小組,這些單詞都是由學(xué)校專業(yè)英語教師挑選的有代表性的詞,適合用于英語口語基礎(chǔ)訓(xùn)練。用戶在進(jìn)行完每個小組的單詞訓(xùn)練后,系統(tǒng)都會對用戶的發(fā)音作出評價和打分,對經(jīng)常出現(xiàn)發(fā)音錯誤的單詞,用戶可以選擇保存,用于以后專門的訓(xùn)練。
自主學(xué)習(xí)模塊是用戶根據(jù)自身實(shí)際需求進(jìn)行訓(xùn)練的板塊。用戶先輸入想要訓(xùn)練的單詞或語句,如果不知道如何發(fā)音,可以求助于應(yīng)用中的英文朗讀功能。英文朗讀功能是將文本轉(zhuǎn)換成語音信號,幫助用戶輕松方便地學(xué)習(xí)每一個英語發(fā)音。用戶還可以選擇性地保存輸入的學(xué)習(xí)內(nèi)容,方便以后復(fù)習(xí)使用。
總之,專項(xiàng)訓(xùn)練模塊針對學(xué)生英語學(xué)習(xí)中的四大類發(fā)音難題設(shè)計,通過專題式的學(xué)習(xí)、測試和智能評分,給用戶提供隨身的英語單詞學(xué)習(xí)和測試環(huán)境;自主訓(xùn)練模塊則專注于為用戶提供可定制的英語單詞學(xué)習(xí)專題,通過學(xué)習(xí)內(nèi)容的自定義給用戶最大限度的學(xué)習(xí)自由度。
3 研究技術(shù)
應(yīng)用功能的實(shí)現(xiàn)主要使用了兩大技術(shù),獲取語音識別技術(shù)和語音合成技術(shù)。
3.1 獲取語音識別技術(shù)
單詞發(fā)音練習(xí)需要使用Google語音搜索服務(wù),因此必須判斷當(dāng)前用戶手機(jī)是否支持該服務(wù),所采用的方法是通過queryIntentActivities()方法,查詢Android系統(tǒng)所有具備RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的應(yīng)用程序,點(diǎn)擊后能啟動該應(yīng)用。
在Android語音識別應(yīng)用研究與開發(fā)的同時,Google語音服務(wù)需要網(wǎng)絡(luò)支持,所以也需要判斷當(dāng)前用戶的網(wǎng)絡(luò)連接狀況,在類中寫一方法check--NetWorkStatus()引用ConnectivityManager cwjManager來判斷網(wǎng)絡(luò)是否連接正常。
3.2 語音合成技術(shù)
語音合成技術(shù),是一種將文本轉(zhuǎn)換為語音輸出的技術(shù),其主要工作是將文本按字或詞分解為音素,然后將音素生成的數(shù)字音頻用揚(yáng)聲器播放或者保存為聲音文件,然后通過多媒體軟件播放。
Android手機(jī)平臺,綁定了英文語音引擎,對英文語音提供內(nèi)置的支持。要將文本轉(zhuǎn)換為語音,首先要檢查TTS數(shù)據(jù)可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回結(jié)果為真,表明TTSEngine可以使用。除此之外,還有語音數(shù)據(jù)損壞和缺少發(fā)音數(shù)據(jù)等原因?qū)е耇TSEngine不能使用,這些因素都要考慮。之后是初始化TTS接口,這部分要設(shè)置發(fā)音語言引擎setLanguage(Locale.US)、發(fā)音音量Len(Volume)等。在這個過程中,還需要檢測設(shè)置的發(fā)音語言類型是否可用。
4 結(jié)束語
我們開發(fā)的口語學(xué)習(xí)軟件Oral Storm,可為訓(xùn)練單詞發(fā)音提供專業(yè)、智能及終端化的一體化學(xué)習(xí)和測試環(huán)境,專題分類科學(xué)、全面,涵蓋了爆破音、摩擦音等發(fā)音難點(diǎn),可在專題學(xué)習(xí)后提供智能評分和語音糾正。用戶使用這款應(yīng)用,可以方便快速地學(xué)習(xí)英語口語的正確發(fā)音。
參考文獻(xiàn)
[1] 邢銘生,朱浩,王宏斌.語音識別技術(shù)綜述[J].科協(xié)論壇:下半月,2010(3):62-63.
[2] 詹青龍,張靜然,邵銀娟.移動學(xué)習(xí)的理論研究和實(shí)踐探索[J].中國電化教育,2010(3):1-7.
[3] 周麗嫻,梁昌銀,沈澤.Android語音識別應(yīng)用的研究與開發(fā)[J].廣東通信技術(shù),2013,33(4):15-18.
[4] 涂惠燕,陳一寧.基于語音識別和手機(jī)平臺的英語口語發(fā)音學(xué)習(xí)系統(tǒng)[J].計算機(jī)應(yīng)用與軟件,2011,28(9):64-66.
關(guān)鍵詞:Speech SDK;語音識別;Voyager-IIA旅行家二號;教學(xué)平臺
中圖分類號:TP319 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2013)005-0096-02
0、引言
教學(xué)技術(shù)的進(jìn)步關(guān)鍵在于構(gòu)建一個良好的輔助教學(xué)支撐平臺,通過該平臺教師可以方便地展示教學(xué)課程信息,學(xué)生利用該教學(xué)平臺可以進(jìn)行科學(xué)實(shí)驗(yàn)和工程實(shí)踐,以獲取真實(shí)的實(shí)驗(yàn)數(shù)據(jù)。
機(jī)器人學(xué)作為一門綜合了機(jī)械、電子、計算機(jī)及人工智能、仿生等諸多專業(yè)的新興學(xué)科,在工程研究和應(yīng)用領(lǐng)域得到了越來越廣泛的重視。我國各大高等院校也紛紛開設(shè)與機(jī)器人相關(guān)的課程,這對普及機(jī)器人知識和加強(qiáng)其產(chǎn)業(yè)化進(jìn)程無疑會起到重要的作用。
基于這種理念,設(shè)計了基于ARM11的智能語音識別機(jī)器人教學(xué)平臺。
1、語音識別機(jī)器人教學(xué)平臺現(xiàn)狀
教學(xué)技術(shù)平臺是開展各科教學(xué)的必要條件,是現(xiàn)代教育教學(xué)開展的基礎(chǔ)。從近年發(fā)展的情況看,各種教學(xué)平臺的設(shè)計與運(yùn)用在教學(xué)過程中起著越來越重要的作用。如何設(shè)計滿足現(xiàn)代學(xué)習(xí)者需要的教學(xué)平臺?如何將計算機(jī)技術(shù)、通信技術(shù)、機(jī)器人技術(shù)發(fā)展優(yōu)勢同現(xiàn)代教學(xué)的需求結(jié)合起來?這是現(xiàn)在教學(xué)平臺發(fā)展至關(guān)重要的方面。現(xiàn)代教學(xué)平臺在技術(shù)發(fā)展驅(qū)動和現(xiàn)代教育應(yīng)用形態(tài)發(fā)展需求下,出現(xiàn)了許多不同的個性化教學(xué)技術(shù)平臺。
隨著人們對現(xiàn)代教育認(rèn)識的加深和對傳統(tǒng)教育的反思,人們的知識觀和教育觀發(fā)生了很大變化。高校課程改革大舉推進(jìn),高等教育更要突出實(shí)踐、突出創(chuàng)新。高校課程要突出沉浸感、交互性、自主性等特征。教學(xué)平臺本身將從以教學(xué)機(jī)構(gòu)為中心逐步走向以學(xué)生為中心,教學(xué)平臺從提供教學(xué)內(nèi)容、教學(xué)產(chǎn)品轉(zhuǎn)向?yàn)閷W(xué)習(xí)服務(wù)的功能。
國內(nèi)外許多高等院校都已開展了機(jī)器人教學(xué)工作。麻省理工學(xué)院開設(shè)了認(rèn)知機(jī)器人學(xué)、機(jī)器人學(xué)導(dǎo)論、自控機(jī)器人設(shè)計競賽和機(jī)器人編程競賽等課程,分別在航空航天學(xué)、機(jī)械工程學(xué)和電氣工程與計算機(jī)科學(xué)專業(yè)中開設(shè);北京郵電大學(xué)為本科生開設(shè)了工業(yè)機(jī)器人技術(shù),相應(yīng)的實(shí)驗(yàn)課為機(jī)器人系統(tǒng)綜合性試驗(yàn);浙江大學(xué)自動控制系為本科生開設(shè)了機(jī)器人學(xué),在校內(nèi)組織了多種形式的機(jī)器人競賽活動,包括FIRA小型足球機(jī)器人競賽、開放性公共目標(biāo)機(jī)器人競賽等??傊瑖鴥?nèi)外高校廣泛開展了以機(jī)器人為對象的教學(xué)平臺建設(shè),開設(shè)機(jī)器人技術(shù)課程、開展本科畢業(yè)設(shè)計的機(jī)器人實(shí)踐活動以及多層次機(jī)器人競賽活動。
2、語音識別技術(shù)基本方法
語音識別技術(shù)目前的主流算法,主要有傳統(tǒng)的基于動態(tài)時間規(guī)整(DynamicTimeWarping,簡稱DTW)算法、基于非參數(shù)模型的矢量量化(Vector Quantization,簡稱VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(Hidden Markov Mod—els,簡稱HMM)方法和基于人工神經(jīng)網(wǎng)絡(luò)(Artificial NeuralNetwork,簡稱ANN)等語音識別方法。
3、語音識別機(jī)器人教學(xué)平臺研究與設(shè)計
3.1 設(shè)計思路
語音識別機(jī)器人教學(xué)平臺,將Windows CE6.O系統(tǒng)定制和移植到以ARM11為處理器的核心板上,并且在Windows CE6.O系統(tǒng)上實(shí)現(xiàn)對機(jī)器人的語音控制,從而擺脫基于PC機(jī)控制的不便。在實(shí)現(xiàn)過程中,將應(yīng)用微軟公司開發(fā)的Speech SDK5.1為平臺,通過調(diào)用微軟的SpeechSDK語音識別引擎,使用開發(fā)板串口連接并驅(qū)動機(jī)器人執(zhí)行一些簡單的行為動作。
3.2 語音識別機(jī)器人教學(xué)平臺系統(tǒng)架構(gòu)
本教學(xué)系統(tǒng)采用的$3C6410是一款基于ARM11內(nèi)核的微控制器,其主頻達(dá)667MHz,并具有豐富的接口。本控制器(如圖1)的硬件主要包括采用ARM11內(nèi)核的$3C6410微處理器、機(jī)器人驅(qū)動器、電源、串口、麥克風(fēng)、揚(yáng)聲器等。
本語音識別機(jī)器人,主要由開發(fā)板的麥克風(fēng)接口進(jìn)行語音信號的采集,通過控制器擴(kuò)展板進(jìn)行語音信號的處理,處理時調(diào)用微軟的語音識別引擎進(jìn)行語音信號的識別與合成,然后通過內(nèi)部編程由擴(kuò)展板的串口向機(jī)器人發(fā)送相關(guān)的指令來驅(qū)動電機(jī)的轉(zhuǎn)動,從而實(shí)現(xiàn)機(jī)器人的左轉(zhuǎn)、右轉(zhuǎn)、前進(jìn)、后退、停止等語音控制。
3.3 教學(xué)平臺系統(tǒng)移植模型
系統(tǒng)移植模型(如圖2)協(xié)助WindowsCE實(shí)現(xiàn)廣泛的硬件支持,同樣使用了工具和軟件接口技術(shù)整合的形式。這一層的可移植性主要在3個層面:CSP支持不同的處理器系統(tǒng)結(jié)構(gòu);BSP支持不同的硬件主機(jī)板(I/0、總線等等);驅(qū)動程序支持不同的。從工具的角度看,開發(fā)工具主要是以指導(dǎo)手冊的形式協(xié)助開發(fā)者配置修改一個具體的OAL。驅(qū)動模型被包括在Windows CE的類別驅(qū)動程序中,這些類別驅(qū)動程序一般由Windows CE操作系統(tǒng)提供。
3.4 語音識別類封裝及算法實(shí)現(xiàn)流程
語音識別過程是將自然語言轉(zhuǎn)換為數(shù)據(jù)信息的過程,語音識別技術(shù)也可以簡單描述成Speech-to-Text的識別。該語音識別系統(tǒng)的處理過程是:學(xué)習(xí)者通過語音輸入設(shè)備輸入語音信號,然后通過語音接收器接收語音數(shù)據(jù)轉(zhuǎn)化為數(shù)字信號,傳入語音識別引擎進(jìn)行處理,語音識別引擎處理完成后傳遞給相關(guān)語音識別程序去處理相關(guān)應(yīng)用,從而達(dá)到利用語音來實(shí)現(xiàn)某種控制的效果。本系統(tǒng)的語音識別類封裝和語音識別算法實(shí)現(xiàn)流程如圖3所示。
14年前,志在語音識別的科大訊飛在合肥悄然成立,當(dāng)時還被外界譏笑為“草臺班子”的這家本土創(chuàng)業(yè)公司,如今已經(jīng)發(fā)展成為亞太地區(qū)最大的語音上市公司。作為中國語音識別的“領(lǐng)頭羊”,科大訊飛的這個標(biāo)簽還能貼多久?在科大訊飛副總裁兼創(chuàng)始人之一江濤看來,科大訊飛的突破點(diǎn)在于,提供語音識別的技術(shù)和服務(wù),解放人們的雙手。
“草臺班子”的摸索
創(chuàng)業(yè)之初,科大訊飛希望改變?nèi)祟愂褂秒娔X的方式。但事實(shí)證明,時候未到。
上世紀(jì)90年代末,語音識別技術(shù)已經(jīng)在全球范圍內(nèi)掀起了一波熱潮,科大訊飛也是順著這股熱潮成立的?!氨藭r,IBM、英特爾等幾大主流科技公司也早已開始語音識別技術(shù)的研發(fā)和商業(yè)探索?!苯瓭嬖V《二十一世紀(jì)商業(yè)評論》(以下簡稱《21CBR》)。1998年IBM了第一個基于語音識別技術(shù)的產(chǎn)品。第二年全球科技十件大事之一便是IBM的語音識別技術(shù),計算機(jī)第一次能夠進(jìn)行語音輸入。除了IBM,英特爾、摩托羅拉、松下等很多國外巨頭也都開始在國內(nèi)設(shè)立語音研發(fā)中心,希望在人機(jī)交互和信息錄入領(lǐng)域搶占先機(jī)。
“但是在后來證明,這個技術(shù)和產(chǎn)品在當(dāng)時的條件下是不成熟的?!苯瓭J(rèn)為有兩個方面原因:一個是當(dāng)時的語音針對PC,而PC相對于鍵盤和鼠標(biāo)這些交互設(shè)備比較成熟,語音的需求并不夠迫切。另外,“當(dāng)時整個云計算、移動互聯(lián)網(wǎng)的環(huán)境和體系還沒有形成。全是單機(jī),在一臺機(jī)器上安裝一個語音識別系統(tǒng)需要鍛煉很久,使用成本太高?!?/p>
即便如此,直到2000年前后,中國的語音技術(shù)基本都掌握在IBM等大公司手中。而像科大訊飛這樣的本土創(chuàng)業(yè)公司,空有實(shí)驗(yàn)室技術(shù),在當(dāng)時的環(huán)境下不知道該如何面向市場,面向用戶。“我們一直到2004年才盈虧平衡,在這個過程中我們沒有錢,也不知道該怎么開拓市場,所有人都是技術(shù)出身,都沒有產(chǎn)業(yè)經(jīng)驗(yàn)?!苯瓭f。
創(chuàng)業(yè)之初,科大訊飛希望改變?nèi)祟愂褂秒娔X的方式?!拔覀儺?dāng)時做了一個叫做‘暢言2000’的產(chǎn)品。口號是把鍵盤輸入的準(zhǔn)確性、語音輸入的方便性、手寫輸入的隨意性融合在一起,它可以打開瀏覽器,打開Word,然后配合手寫板輸入內(nèi)容?!边@是科大訊飛的第一個產(chǎn)品,一套軟件當(dāng)時的定價是1000多元人民幣?!暗侨ツ睦锿茝V,怎么做推廣,我們完全不知道?!?/p>
隨著“暢言2000”以失敗告終,苦于推廣無門的科大訊飛第一次參加了當(dāng)年的高交會?!爱?dāng)時華為等一些做電信設(shè)備的廠商公司發(fā)現(xiàn)了我們,在他們的呼叫中心智能網(wǎng)中間有需要使用語音的地方,比如說語音合成,呼叫中心的語音播報,智能網(wǎng)中間的信息播報等。”很快,迅飛便跟華為、中興等一些大的廠商對接上,成為它們的語音技術(shù)提供商。
“我們后來一想也是這樣,一個創(chuàng)業(yè)團(tuán)隊(duì)沒有市場經(jīng)驗(yàn),也沒有市場能力,沒有資金,不可能去做‘2C’的市場,那個時候的條件也不具備。做‘2B’的市場,做自己擅長的部分,把技術(shù)提供給合作伙伴,然后合作伙伴去做對應(yīng)的應(yīng)用更可行?!苯瓭f。這是科大迅飛的第一桶金,也是第一個商業(yè)模式?!耙揽窟@個模式,我們實(shí)現(xiàn)了盈虧平衡。到2004年,我們已經(jīng)是中國最大的語音技術(shù)提供商?!?/p>
在嘗到了做“技術(shù)提供商”的甜頭后,2004年,手機(jī)彩鈴被引進(jìn)中國,“在沒有智能手機(jī)的時代,面對幾十萬首歌,用戶在電話里怎么選?”江濤說,為此,迅飛開發(fā)了針對音樂的語音搜索,“想下載誰的彩鈴,聽誰的歌,直接在電話里面語音搜索。”在這個基礎(chǔ)上,迅飛進(jìn)一步把技術(shù)應(yīng)用到跟音樂、彩鈴下載和搜索相關(guān)的其他領(lǐng)域?!艾F(xiàn)在聯(lián)通、電信,還有移動,相關(guān)于音樂的語音搜索技術(shù)全部由訊飛提供。”江濤說。
基于同樣的思路,迅飛開始把語音識別技術(shù)擴(kuò)展到教育領(lǐng)域?!皬募夹g(shù)上看,針對這兩個領(lǐng)域,迅飛所做的事情主要是語音合成,把語音轉(zhuǎn)換成文字?!苯瓭嬖V《21CBR》,雖然在當(dāng)時這個技術(shù)事實(shí)上已經(jīng)沒有門檻,但迅飛的優(yōu)勢在于做“技術(shù)提供商”的商業(yè)模式和針對細(xì)分領(lǐng)域提供的服務(wù)。目前,針對音樂和教育領(lǐng)域的收入依然是迅飛營收的主要來源之一。“現(xiàn)在音樂領(lǐng)域每年的收入大概在一個億左右?!?/p>
從技術(shù)到服務(wù)
語音識別不是完全靠算法能解決的,時間和數(shù)據(jù)積累才是最大的壁壘。
2008年前后,中國開始發(fā)放3G牌照,以蘋果、安卓為代表的智能機(jī)逐步興起?!拔覀冇X得這個時候語音技術(shù)真正的機(jī)會才出現(xiàn),因?yàn)橹悄苁謾C(jī)相對于PC來說,屏幕更小,輸入更不方便,語音在人機(jī)交互過程中顯得更有價值?!苯瓭f。目前,訊飛所開發(fā)的手機(jī)應(yīng)用訊飛語音已擁有超過2億用戶。
“我們現(xiàn)在最大的挑戰(zhàn)還是用戶的習(xí)慣,尤其是中國人覺得對著手機(jī)說話太傻了。”江濤說。好在隨著蘋果、谷歌加上騰訊的微信正在不斷地教育用戶的使用習(xí)慣,越來越多的人開始適應(yīng)這種跟機(jī)器的交流方式。
科大訊飛在移動互聯(lián)網(wǎng)領(lǐng)域的另一個產(chǎn)品是訊飛輸入法?!拔覀儚?011年開始做這個產(chǎn)品,當(dāng)時訊飛沒有任何知名度,沒有品牌,完全靠用戶口碑來推廣?!苯瓭f。目前,訊飛輸入法的用戶超過8000萬。
盡管移動互聯(lián)網(wǎng)來勢洶洶,江濤和他的團(tuán)隊(duì)還是希望把自己定位為“語音服務(wù)提供商”?!拔覀円环矫孢€會持續(xù)面向電視機(jī)、汽車、地圖等合作伙伴提供語音技術(shù),另外一方面也會以輸入法這些產(chǎn)品為代表,面向用戶提供直接的交互服務(wù)和終端產(chǎn)品。”江濤告訴《21CBR》記者。目前,康佳、海爾、創(chuàng)維、海信等電視廠商都采用了迅飛語音識別技術(shù)和開發(fā)平臺。訊飛也與國內(nèi)主要汽車電子廠商及車廠等建立了合作,包括奇瑞、江淮、上汽、奧迪、德爾福、大陸電子、哈曼等,但這一領(lǐng)域?qū)緺I收的貢獻(xiàn)微乎其微。
從技術(shù)的角度來看,語音識別在過去20年的發(fā)展和進(jìn)化過程中早已不再擁有高門檻。在外界看來,科大訊飛缺乏足夠?qū)拸V的護(hù)城河——掌握互聯(lián)網(wǎng)入口的企業(yè)百度、騰訊等巨頭,都在覬覦語音識別領(lǐng)域。而隨著3G網(wǎng)絡(luò)和智能終端的普及,這些條件又為語音識別打開了一扇新的大門。江濤也認(rèn)為:“目前,就技術(shù)上的發(fā)展來講,語音識別的門檻的確不高,大數(shù)據(jù)云計算帶來了更加開闊的技術(shù)可能性和便利?!?/p>
上面這段并非筆者杜撰,而是著名的語音和圖像解決方案提供商N(yùn)uance公司研發(fā)工程總監(jiān)張亞昕為大家描述的語音識別技術(shù)在車載系統(tǒng)中的應(yīng)用情景。
其實(shí),語音識別技術(shù)早已有之,1998年,飛利浦和摩托羅拉就將語音識別技術(shù)引入手機(jī),但并沒有引起人們的關(guān)注,直到去年蘋果iphone 4里的Siri出現(xiàn),才讓人們真正開始關(guān)注語音識別。張亞昕認(rèn)為,這主要是因?yàn)橐郧暗募夹g(shù)只能進(jìn)行特定詞匯的語音識別,而如今的語音識別技術(shù)可以識別自然語言,真正讓用戶體會到了流暢自然的人機(jī)交互體驗(yàn)。
也許是因?yàn)槠噧?nèi)安全駕駛的重要性吧,語音識別技術(shù)特別受到了汽車市場的青睞。越來越多的汽車制造商開始在汽車中裝入語音識別接口,用于管理移動連接;同時提高駕駛安全系數(shù)。Strategy Analytics的統(tǒng)計表明,到2012年,中國原始設(shè)備制造商(OEM)所提供的具備語音人機(jī)接口的信息娛樂和車載信息通信系統(tǒng)(telematics)的出貨量將達(dá)到300萬臺,并預(yù)期在2018年達(dá)到20009萬臺。
但是,語音識別是非常耗費(fèi)資源的一項(xiàng)工作,在目前的應(yīng)用中,用戶接口依賴于通用型硬件和軟件,一般采用通用的應(yīng)用處理器,語音識別只是眾多應(yīng)用中的一個程序,系統(tǒng)硬件無法為語音處理做出優(yōu)化,限制了處理速度和處理精度。例如,在車載GPS應(yīng)用中,地圖軟件的運(yùn)行就會占據(jù)處理器很多資源,這種情況下,啟用語音識別將會給CPU帶來很大負(fù)擔(dān),處理能力上的不足會影響語音識別的速度和準(zhǔn)確度,讓用戶體驗(yàn)大打折扣。