時(shí)間:2022-03-30 13:23:18
開(kāi)篇:寫(xiě)作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇語(yǔ)音識(shí)別技術(shù),希望這些內(nèi)容能成為您創(chuàng)作過(guò)程中的良師益友,陪伴您不斷探索和進(jìn)步。
【關(guān)鍵詞】語(yǔ)音識(shí)別 語(yǔ)言模型 聲學(xué)模型 人工智能
使用智能手機(jī)的朋友們都會(huì)對(duì)語(yǔ)音助手產(chǎn)生極大的興趣,不管是微軟的Cortana,還是蘋(píng)果的Siri,都是將語(yǔ)音識(shí)別融入現(xiàn)代技術(shù)的典范。Z音識(shí)別是解決機(jī)器“聽(tīng)懂”人類語(yǔ)言的一項(xiàng)技術(shù),也是人工智能重要部分。
語(yǔ)音識(shí)別技術(shù)(speech recognition),也被稱為自動(dòng)語(yǔ)音識(shí)別 (ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說(shuō)話人識(shí)別及說(shuō)話人確認(rèn)不同,后者嘗試識(shí)別或確認(rèn)發(fā)出語(yǔ)音的說(shuō)話人而前者的目標(biāo)是語(yǔ)音中所包含的詞匯內(nèi)容。
探究語(yǔ)音識(shí)別技術(shù)的框架、應(yīng)用與發(fā)展有利于全面了解語(yǔ)音識(shí)別。本文將從語(yǔ)音識(shí)別簡(jiǎn)介、主流語(yǔ)言識(shí)別框架以及語(yǔ)言識(shí)別近年來(lái)的發(fā)展三個(gè)方面探究語(yǔ)音識(shí)別。
1 語(yǔ)音識(shí)別簡(jiǎn)介
1.1 傳統(tǒng)語(yǔ)言識(shí)別技術(shù)發(fā)展
對(duì)語(yǔ)音識(shí)別技術(shù)的研究可以追述到上世紀(jì)五十年代,1952年貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),開(kāi)創(chuàng)了語(yǔ)音識(shí)別的先河。上世紀(jì)六十年代,人工神經(jīng)網(wǎng)絡(luò)被引入了語(yǔ)音識(shí)別。上世紀(jì)七十年代以后,大規(guī)模的語(yǔ)音識(shí)別在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。傳統(tǒng)語(yǔ)音識(shí)別技術(shù)最大突破是隱式馬爾可夫模型的應(yīng)用,這一模型極大提高了語(yǔ)音識(shí)別的準(zhǔn)確率[1]。
1.2 語(yǔ)言識(shí)別的應(yīng)用
作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別一直受到各國(guó)科學(xué)界的廣泛關(guān)注。如今,隨著語(yǔ)音識(shí)別技術(shù)的研究的突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。在現(xiàn)實(shí)生活中,語(yǔ)音識(shí)別技術(shù)的應(yīng)用相當(dāng)廣泛,它改變了人與計(jì)算機(jī)交互的方式,使計(jì)算機(jī)更加智能。和鍵盤(pán)輸入相比,語(yǔ)音識(shí)別更符合人的日常習(xí)慣;使用語(yǔ)言控制系統(tǒng),相比手動(dòng)控制,語(yǔ)音識(shí)別更加方便快捷,可以用在工業(yè)控制、智能家電等設(shè)備;通過(guò)智能對(duì)話查詢系統(tǒng),企業(yè)可以根據(jù)用戶的語(yǔ)音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)檢索服務(wù)。
2 語(yǔ)音識(shí)別框架
目前主流的語(yǔ)音識(shí)別框架可以分為以下幾個(gè)模塊:信號(hào)處理,特征提取,聲學(xué)模型,語(yǔ)言模型,解碼器。
2.1 信號(hào)處理
信號(hào)處理模塊是對(duì)語(yǔ)音文件進(jìn)行預(yù)處理。聲音是一種縱波,在識(shí)別語(yǔ)音時(shí),輸入為WMV,MP3等格式的文件會(huì)被轉(zhuǎn)換成非壓縮的純波文件wav格式。然后在進(jìn)行語(yǔ)音識(shí)別前,需要檢測(cè)該文件中的語(yǔ)音信號(hào),該技術(shù)被稱之為語(yǔ)音活性檢測(cè)[2]。使用語(yǔ)言活性檢測(cè)技術(shù)可以有效降低噪音,去除非語(yǔ)音片段,提高語(yǔ)音識(shí)別的準(zhǔn)確率。經(jīng)典的語(yǔ)音活性檢測(cè)算法由如下步驟組成:
(1)使用spectral subtraction等方法對(duì)語(yǔ)言序列進(jìn)行降噪。(2)將輸入信號(hào)的分成區(qū)塊并提取特征。(3)設(shè)計(jì)分類器判斷該區(qū)塊是否為語(yǔ)音信號(hào)。
2.2 特征提取
特征提取目的是提取出語(yǔ)音文件的特征,以一定的數(shù)學(xué)方式表達(dá),從而可以參與到后續(xù)模塊處理中。在這一模塊,首先要將連續(xù)的聲音分成離散的幀。每一幀的時(shí)間既要足夠長(zhǎng),使得我們能夠判斷它屬于哪個(gè)聲韻母的信息,若過(guò)短則包含信息過(guò)少;每一幀時(shí)間也要盡量短,語(yǔ)音信號(hào)需要足夠平穩(wěn),能夠通過(guò)短時(shí)傅里葉分析進(jìn)行特征提取,過(guò)長(zhǎng)則會(huì)使信號(hào)不夠平穩(wěn)。分幀時(shí)使用如下改進(jìn)技術(shù)可以有效提高識(shí)別準(zhǔn)確率:相鄰的兩幀有所重疊減少分割誤差,將與臨近幀之間的差分作為額外特征,將多個(gè)語(yǔ)音幀堆疊起來(lái)。通過(guò)分幀處理,連續(xù)的語(yǔ)音被分為離散的小段,但還缺乏數(shù)學(xué)上的描述能力,因此需要對(duì)波形作特征提取。常見(jiàn)的方法是根據(jù)人耳的生理特征,把每一幀波形變換成一個(gè)多維向量。因此,這些向量包含了這些語(yǔ)音的內(nèi)容信息。該過(guò)程被稱為聲學(xué)特征提取,常見(jiàn)的聲學(xué)特征有MFCC、CPE、LPC等。
MFCC是目前最常用、最基本的聲學(xué)特征,提取MFCC特征可以分為如下四個(gè)步驟:首先對(duì)每一幀進(jìn)行傅里葉變換,取得每一幀的頻譜。再把頻譜與圖1中每個(gè)三角形相乘并積分,求出頻譜在每一個(gè)三角形下的能量,這樣處理可以減少數(shù)據(jù)量,并模仿人耳在低頻處分辨率高的特性。然后取上一步得到結(jié)果的對(duì)數(shù),這可以放大低能量處的能量差異。最后對(duì)得到的對(duì)數(shù)進(jìn)行離散余弦變換,并保留前12~20個(gè)點(diǎn)進(jìn)一步壓縮數(shù)據(jù)。通過(guò)特征提取,聲音序列就被轉(zhuǎn)換為有特征向量組成的矩陣。
2.3 聲學(xué)模型
聲學(xué)模型是語(yǔ)音識(shí)別中最重要的組成部分之一,其用于語(yǔ)音到音節(jié)概率的計(jì)算。目前主流的方法多數(shù)采用隱馬爾科夫模型,隱馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī)。
隱馬爾可夫模型HMM如圖2所示,是指這一馬爾可夫模型的內(nèi)部狀態(tài)x1,x2,x3外界不可見(jiàn),外界只能看到各個(gè)時(shí)刻的輸出值y1,y2,y3。對(duì)語(yǔ)音識(shí)別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征,輸入是由特征提取模塊提取的特征。用HMM刻畫(huà)語(yǔ)音信號(hào)需作出兩個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值Y只與當(dāng)前狀態(tài)X(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低了模型的復(fù)雜度。HMM的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、維特比算法和前向后向算法。
早期的聲學(xué)模型使用矢量量化(Vector Quantification)的方法,使其性能受到VQ算法的極大影響。對(duì)于連續(xù)取值的特征應(yīng)當(dāng)采用連續(xù)的概率分布如高斯混合模型或混合拉普拉斯模型等。為了解決模型參數(shù)過(guò)多的問(wèn)題,可以使用某些聚類方法來(lái)減小模型中的參數(shù)數(shù)量,提高模型的可訓(xùn)練性。聚類可以在模型層次,狀態(tài)層次乃至混合高斯模型中每個(gè)混合的層次進(jìn)行。
2.4 語(yǔ)言模型
語(yǔ)言模型音節(jié)到字概率的計(jì)算。 語(yǔ)言模型主要分為規(guī)則模型和統(tǒng)計(jì)模型兩種。相比于統(tǒng)計(jì)模型,規(guī)則模型魯棒性較差,對(duì)非本質(zhì)錯(cuò)誤過(guò)于嚴(yán)苛,泛化能力較差,研究強(qiáng)度更大。因此主流語(yǔ)音識(shí)別技術(shù)多采用統(tǒng)計(jì)模型。統(tǒng)計(jì)模型采用概率統(tǒng)計(jì)的方法來(lái)揭示語(yǔ)言單位內(nèi)在的統(tǒng)計(jì)規(guī)律,其中N-Gram簡(jiǎn)單有效,被廣泛使用。
N-Gram基于如下假設(shè):第N個(gè)詞的出現(xiàn)只與前面N-1個(gè)詞相關(guān),而與其它任何詞都不相關(guān),整句的概率即為各個(gè)詞出現(xiàn)概率的乘積。詞與詞之間的概率可以直接從語(yǔ)料中統(tǒng)計(jì)N個(gè)詞同時(shí)出現(xiàn)的次數(shù)得到。考慮計(jì)算量和效果之間的平衡,N取值一般較小,常用的是二元的Bi-Gram和三元的Tri-Gram。
2.5 解碼器
解碼器是語(yǔ)音識(shí)別系統(tǒng)的核心之一,其任務(wù)是對(duì)輸入信號(hào),根據(jù)聲學(xué)、語(yǔ)言模型及詞典,尋找能夠以最大概率輸出該信號(hào)的詞串。在實(shí)踐中較多采用維特比算法[3]搜索根據(jù)聲學(xué)、語(yǔ)言模型得出的最優(yōu)詞串。
基于動(dòng)態(tài)規(guī)劃的維特比算法在每個(gè)時(shí)間點(diǎn)上的各個(gè)狀態(tài),計(jì)算解碼狀態(tài)序列對(duì)觀察序列的后驗(yàn)概率,保留概率最大的路徑,并在每個(gè)節(jié)點(diǎn)記錄下相應(yīng)的狀態(tài)信息以便最后反向獲取詞解碼序列。維特比算法在不喪失最優(yōu)解的條件下,同時(shí)解決了連續(xù)語(yǔ)音識(shí)別中HMM模型狀態(tài)序列與聲學(xué)觀察序列的非線性時(shí)間對(duì)準(zhǔn)、詞邊界檢測(cè)和詞的識(shí)別,從而使這一算法成為語(yǔ)音識(shí)別搜索的基本策略。
維特比(Viterbi)算法的時(shí)齊特性使得同一時(shí)刻的各條路徑對(duì)應(yīng)于同樣的觀察序列,因而具有可比性,Beam搜索在每一時(shí)刻只保留概率最大的前若干條路徑,大幅度的剪枝提高了搜索的效率。Viterbi-Beam算法是當(dāng)前語(yǔ)音識(shí)別搜索中最有效的算法。
3 語(yǔ)音識(shí)別技術(shù)的發(fā)展
近幾年來(lái),特別是2009年以來(lái),借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展,以及大數(shù)據(jù)語(yǔ)料的積累,語(yǔ)音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。
在模型方面,傳統(tǒng)語(yǔ)音識(shí)別模型逐步被神經(jīng)網(wǎng)絡(luò)替代,使用神經(jīng)網(wǎng)絡(luò)可以更好地提取特征,擬合曲線。使用人工神經(jīng)網(wǎng)絡(luò)來(lái)提高語(yǔ)音識(shí)別性能的概念最早在80年代就提出了,但當(dāng)時(shí)高斯混合模型在大詞匯語(yǔ)音識(shí)別上表現(xiàn)得更好,因此人工神經(jīng)網(wǎng)絡(luò)并沒(méi)有進(jìn)行商業(yè)應(yīng)用。隨著相關(guān)技術(shù)的進(jìn)一步發(fā)展,微軟研究院利用深度神經(jīng)網(wǎng)絡(luò)建立了數(shù)千個(gè)音素的模型,比傳統(tǒng)方法減少了16%的相對(duì)誤差。其在建立起有超過(guò)660萬(wàn)神經(jīng)聯(lián)系的網(wǎng)絡(luò)后,將總的語(yǔ)音識(shí)別錯(cuò)誤率降低了30%,實(shí)現(xiàn)了語(yǔ)音識(shí)別巨大的突破[4]。
同時(shí)目前多數(shù)主流語(yǔ)言識(shí)別解碼器采用了基于有限狀態(tài)機(jī)的解碼網(wǎng)絡(luò),該網(wǎng)絡(luò)將語(yǔ)音模型、詞典、聲學(xué)共享音字集統(tǒng)一為大的解碼網(wǎng)絡(luò),大幅度提高了解碼速度。
在數(shù)據(jù)量上,由于移動(dòng)互聯(lián)網(wǎng)的急速發(fā)展,從多個(gè)渠道獲取的海量語(yǔ)言原料為聲學(xué)模型和語(yǔ)言模型的訓(xùn)練提供了豐富的資源,不斷提升語(yǔ)音識(shí)別的準(zhǔn)確率。
4 結(jié)語(yǔ)
語(yǔ)音是人們工作生活中最自然的交流媒介,所以語(yǔ)音識(shí)別技術(shù)在人機(jī)交互中成為非常重要的方式,語(yǔ)音識(shí)別技術(shù)具有非常廣泛的應(yīng)用領(lǐng)域和非常廣闊的市場(chǎng)前景。而隨著深度神經(jīng)網(wǎng)絡(luò)發(fā)展,硬件計(jì)算能力的提高,以及海量數(shù)據(jù)積累,語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率和實(shí)用性將得到持續(xù)提高。
參考文獻(xiàn):
[1]S基百科編者.語(yǔ)音識(shí)別[G/OL].維基百科,2016(20160829)[2016-08-29].
[2]維基百科編者.語(yǔ)音活性檢測(cè)[G/OL].維基百科,2016(20160629)[2016-06-29].
[3]維基百科編者.維特比算法[G/OL].維基百科,2016(20160920)[2016-09-20].
[4] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1):30-42.
[摘要]各個(gè)部門(mén)和領(lǐng)域?qū)φZ(yǔ)音識(shí)別系統(tǒng)的需求不同,使得語(yǔ)音識(shí)別系統(tǒng)的特性和指標(biāo)表現(xiàn)出的差異性非常大,所以語(yǔ)音識(shí)別系統(tǒng)要依據(jù)特定的指標(biāo)和需求進(jìn)行相關(guān)的設(shè)計(jì)。本文就語(yǔ)音識(shí)別系統(tǒng)相關(guān)的技術(shù)進(jìn)行了分析,供大家借鑒與參考。
[關(guān)鍵詞]語(yǔ)音識(shí)別系統(tǒng);差異性;指標(biāo)需求
一、引言
語(yǔ)音作為語(yǔ)言的聲學(xué)體現(xiàn),也是人類進(jìn)行信息交流最自然、和諧的手段。與機(jī)械設(shè)各進(jìn)行語(yǔ)音的溝通,讓機(jī)器可以明白人類在說(shuō)什么,并理解這是人類長(zhǎng)期的夢(mèng)想。語(yǔ)音識(shí)別技術(shù),也被稱為自動(dòng)語(yǔ)音識(shí)別Automatic Speech Recognition,(ASR),其目標(biāo)是將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語(yǔ)音識(shí)別技術(shù)的應(yīng)用包括語(yǔ)音撥號(hào)、語(yǔ)音導(dǎo)航、室內(nèi)設(shè)備控制、語(yǔ)音文檔檢索、簡(jiǎn)單的聽(tīng)寫(xiě)數(shù)據(jù)錄入等。語(yǔ)音識(shí)別技術(shù)與其他自然語(yǔ)言處理技術(shù)如機(jī)器翻譯及語(yǔ)音合成技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜的應(yīng)用,語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。
二、語(yǔ)音信號(hào)分析與特征提取
1.基于發(fā)音模型的語(yǔ)音特征。(1)發(fā)音系統(tǒng)及其模型表征。其發(fā)聲過(guò)程就是由肺部進(jìn)行收縮,并進(jìn)行壓縮氣流由支氣管通過(guò)聲道和聲門(mén)引起的音頻振蕩所發(fā)生的。氣流通過(guò)聲門(mén)時(shí)使得聲帶的張力剛好使聲帶發(fā)生比較低的頻率的振蕩,從而形成準(zhǔn)周期性的空氣脈沖,空氣脈沖激勵(lì)聲道便會(huì)產(chǎn)生一些濁音;聲道的某處面積比較小,氣流沖過(guò)時(shí)便會(huì)產(chǎn)生湍流,會(huì)得到一種相似噪聲的激勵(lì),對(duì)應(yīng)的則是摩擦音;聲道完全閉合并建立起相應(yīng)的氣壓,突然進(jìn)行釋放就是爆破音。(2)語(yǔ)音信號(hào)線性預(yù)測(cè)倒譜系數(shù)。被廣泛應(yīng)用的特征參數(shù)提取技術(shù)的就是線性預(yù)測(cè)分析技術(shù),很多成功的應(yīng)用系統(tǒng)都是選用基于線性預(yù)測(cè)技術(shù)進(jìn)而提取的LPC倒譜系數(shù)作為應(yīng)用系統(tǒng)的特征。LPC倒譜就是復(fù)倒譜。復(fù)倒譜就是信號(hào)通過(guò)z進(jìn)行變換以后再取其對(duì)數(shù),求反z變換所得到的譜。線性預(yù)測(cè)分析方法其實(shí)就是一種譜的估計(jì)方法,所以其聲道模型系統(tǒng)函數(shù)H(z)反映的就是聲道頻率激勵(lì)和信號(hào)的譜包絡(luò),對(duì)IHg(z)作反z變換就可以得出其復(fù)倒譜系數(shù)。改復(fù)倒譜系數(shù)是依據(jù)線性預(yù)測(cè)模型直接獲得的,而又被稱為L(zhǎng)PC倒譜系數(shù)(LPCC)。
2.基于聽(tīng)覺(jué)模型的語(yǔ)音特征。(1)聽(tīng)覺(jué)系統(tǒng)模型。一是人類的聽(tīng)覺(jué)系統(tǒng)對(duì)于聲音頻率高低和聲波實(shí)際的頻率高低不是線性的關(guān)系,它對(duì)不同聲音頻率信號(hào)的敏感度是不一樣的,也可看成是對(duì)數(shù)關(guān)系。二是關(guān)于掩蔽效應(yīng)指的就是聲音A感知的閉值因?yàn)榱硗獾纳碛暗某霈F(xiàn)出現(xiàn)增大的現(xiàn)象。其生理依據(jù)主要是頻率群,對(duì)頻率群進(jìn)行劃分會(huì)出現(xiàn)許多的很小的部分,每一個(gè)部分都會(huì)對(duì)應(yīng)一個(gè)頻率群,掩蔽效應(yīng)就發(fā)生在這些部分過(guò)程中。所以在進(jìn)行相應(yīng)的聲學(xué)測(cè)量時(shí),頻率刻度一般取非線性刻度。語(yǔ)音識(shí)別方面,主要的非線性頻率刻度有Mel刻度、對(duì)數(shù)刻度和Kon~nig刻度。其中Mel刻度被廣泛的應(yīng)用,其是最合理的頻率刻度。(2)語(yǔ)音信號(hào)Mcl頻率倒譜系數(shù)。Mel頻率倒譜系數(shù)利用人們耳朵的聽(tīng)覺(jué)特性,在頻域?qū)㈩l率軸變換為Mcl頻率刻度,再變換到倒譜域得到倒譜系數(shù)。MFCC參數(shù)的計(jì)算過(guò)程:
一是對(duì)語(yǔ)音信號(hào)進(jìn)行相應(yīng)的預(yù)加重,從而確定了每一幀的語(yǔ)音采樣的長(zhǎng)度,語(yǔ)音信號(hào)通過(guò)離散FFT變換得到其頻譜。二是求頻譜幅度的平方,得到能量譜,并選用一組三角濾波器在頻譜域?qū)δ芰窟M(jìn)行帶通濾波。帶通濾波器中心頻率一般是按照Mcl頻率刻度排列的(間隔為150Mel,帶寬為300Mel),其每個(gè)三角形濾波器的兩個(gè)底點(diǎn)頻率和相鄰的兩個(gè)濾波器的中心頻率相等,頻率響應(yīng)之和為l。濾波器的個(gè)數(shù)一般和臨界帶數(shù)比較相近,設(shè)濾波器數(shù)是M,濾波后得到的輸出為:X(k),k=1,2,…,M。
3.語(yǔ)音的端點(diǎn)檢測(cè)。語(yǔ)音的端點(diǎn)檢測(cè)就是對(duì)語(yǔ)音的起點(diǎn)和終點(diǎn)的確認(rèn),由于漢語(yǔ)語(yǔ)音的聲母是清聲母,有著送氣和不送氣的塞音,和環(huán)境噪聲接近比較進(jìn)行分辨。語(yǔ)音信號(hào)有短時(shí)穩(wěn)定性的特性,可選用平穩(wěn)過(guò)程的分析方法進(jìn)行相應(yīng)的處理,對(duì)語(yǔ)音端點(diǎn)檢測(cè)進(jìn)行分幀的處理,再依次對(duì)每一幀是否正確進(jìn)行處理。每一幀的幀長(zhǎng)如果比較大,計(jì)算量比較小的,可進(jìn)行端點(diǎn)檢測(cè)就比較快,但其誤差會(huì)相應(yīng)的增加。
語(yǔ)音識(shí)別技術(shù)發(fā)展到今天,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)的識(shí)別精度就更高。調(diào)查統(tǒng)計(jì)表明多達(dá)85%以上的人對(duì)語(yǔ)音識(shí)別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。可以預(yù)測(cè)在近五到十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語(yǔ)音識(shí)別系統(tǒng)產(chǎn)品將出現(xiàn)在市場(chǎng)上。人們也將調(diào)整自己的說(shuō)話方式以適應(yīng)各種各樣的識(shí)別系統(tǒng)。在短期內(nèi)還不可能造出具有和人相比擬的語(yǔ)音識(shí)別系統(tǒng),要建成這樣一個(gè)系統(tǒng)仍是人類面臨的一個(gè)大的挑戰(zhàn)。
此外,對(duì)于超聲科等醫(yī)技科室,由于醫(yī)生工作的特殊性,大多通過(guò)“一對(duì)一”聘請(qǐng)專業(yè)錄入員的方式提高檢查報(bào)告錄入效率。有些醫(yī)院為了節(jié)約人力,讓醫(yī)生把給病人檢查時(shí)的語(yǔ)音通過(guò)錄音設(shè)備錄制下來(lái),后續(xù)通過(guò)錄入員測(cè)聽(tīng)音頻文件進(jìn)行轉(zhuǎn)錄,實(shí)現(xiàn)一個(gè)錄入員服務(wù)多個(gè)醫(yī)生,以此在一定程度上節(jié)約人力,但同時(shí)也延長(zhǎng)了輸出檢查報(bào)告的時(shí)間。 在電子文本的錄入過(guò)程中基于模板填寫(xiě)具體信息工作量還是比較大的。
另外,模板僅能解決一些常規(guī)情況的描述,如果完全按照模板填寫(xiě),對(duì)每位患者的情況記錄就缺少了個(gè)性化描述,不利于后續(xù)診斷使用。為提高文本錄入效率,有些醫(yī)生會(huì)使用“復(fù)制”、“粘貼”方式,通過(guò)在相似患者的病歷上進(jìn)行修改完成病歷記錄,但有漏改、漏刪情況,這種方式在很大程度上增加了病歷記錄的出錯(cuò)率,對(duì)醫(yī)療文本錄入的準(zhǔn)確性是一個(gè)比較大的挑戰(zhàn)。
語(yǔ)音識(shí)別技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用越來(lái)越多
語(yǔ)音識(shí)別技術(shù)在歐美國(guó)家醫(yī)療領(lǐng)域已使用將近10年,主要用于節(jié)約醫(yī)生電子文本錄入的時(shí)間,降低文本錄入工作難度,提高醫(yī)生工作滿意度,讓醫(yī)生把更多時(shí)間和精力用在與患者及家俟低交流、為更多患者診斷等事情上。
美國(guó)Nuance公司的英文語(yǔ)音識(shí)別技術(shù)及電腦輔助病歷抄寫(xiě)系統(tǒng),醫(yī)生可使用掌上移動(dòng)型設(shè)備將病患看診狀況口述下來(lái),存成語(yǔ)音檔案,直接傳送到語(yǔ)音識(shí)別服務(wù)器,10小時(shí)的語(yǔ)音可在5分鐘內(nèi)完成轉(zhuǎn)錄,大大縮短音頻文件轉(zhuǎn)錄文本的時(shí)間?;始绎w利浦電子公司推出的面向醫(yī)療領(lǐng)域?qū)崟r(shí)語(yǔ)音識(shí)別的專用麥克風(fēng),表面采用符合醫(yī)療專業(yè)要求的防菌抑菌材質(zhì),并定制了針對(duì)實(shí)時(shí)語(yǔ)音識(shí)別所需的聲學(xué)硬件模塊,使醫(yī)院工作站實(shí)時(shí)語(yǔ)音識(shí)別實(shí)現(xiàn)成功應(yīng)用,并已在歐美醫(yī)院成功推廣。在放射科等文本錄入工作量很大的醫(yī)技科室尤其受到歡迎。
從統(tǒng)計(jì)資料看,美國(guó)臨床中使用語(yǔ)音識(shí)別錄入的應(yīng)用比例已達(dá)到10%~20%,主要用于放射科、病理科、急診室等部門(mén),有效控制電子文本記錄及診斷報(bào)告生成時(shí)間和質(zhì)量,明顯提高工作效率。
語(yǔ)音識(shí)別技術(shù)是理想的人機(jī)交互方式之一,它能夠讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。北京協(xié)和醫(yī)院在國(guó)內(nèi)首先提出使用語(yǔ)音識(shí)別技術(shù)錄入醫(yī)療領(lǐng)域電子文本時(shí),醫(yī)生紛紛表示擔(dān)憂,在國(guó)內(nèi)的醫(yī)療中語(yǔ)音識(shí)別技術(shù)的使用和推廣面臨以下幾個(gè)難點(diǎn)。
目前國(guó)內(nèi)主流的HIS系統(tǒng)已做了大量工作減少醫(yī)生輸入病歷、醫(yī)囑時(shí)的工作量,如提供大量結(jié)構(gòu)化的病歷。醫(yī)生已習(xí)慣這種工作模式。通過(guò)語(yǔ)音識(shí)別來(lái)錄入電子文本,尤其在超聲科、門(mén)診等環(huán)節(jié),醫(yī)生需要一個(gè)熟悉過(guò)程。
國(guó)內(nèi)醫(yī)生的工作環(huán)境較復(fù)雜,口音等問(wèn)題也較國(guó)外更加突出,醫(yī)療特殊單位特殊符號(hào)較多,如何保證識(shí)別的準(zhǔn)確率,讓醫(yī)生用的更加流暢,也是這個(gè)項(xiàng)目面臨的重要挑戰(zhàn)之一。國(guó)內(nèi)移動(dòng)醫(yī)療的趨勢(shì)越來(lái)越明顯,基于移動(dòng)端小屏幕的文本輸入一直是語(yǔ)音識(shí)別應(yīng)用致力于解決的問(wèn)題。如何保障醫(yī)院復(fù)雜環(huán)境下移動(dòng)端的語(yǔ)音識(shí)別效果是需要探討的問(wèn)題之一。
由于醫(yī)療行業(yè)的專業(yè)性較強(qiáng),每個(gè)學(xué)科差異較大,所使用的信息化系統(tǒng)也比較分散,如影像科使用PACS,內(nèi)科使用HIS等。需要錄入文字的工作量較大,但使用的信息化系統(tǒng)較多,要求提供的語(yǔ)音錄入文本解決方案,需同時(shí)支持多個(gè)信息化系統(tǒng)使用,且最大限度降低與原有系統(tǒng)的耦合性。
以上問(wèn)題,經(jīng)過(guò)為期1年的醫(yī)療領(lǐng)域語(yǔ)音識(shí)別應(yīng)用探索和實(shí)踐,都得到較好解決,超過(guò)95%的中文醫(yī)療垂直領(lǐng)域語(yǔ)音識(shí)別準(zhǔn)確率已達(dá)到實(shí)用水平,中文醫(yī)療語(yǔ)音識(shí)別技術(shù)探索應(yīng)用方案得到北京協(xié)和醫(yī)院醫(yī)生認(rèn)可。
北京協(xié)和醫(yī)院語(yǔ)音識(shí)別應(yīng)用探索和實(shí)踐
醫(yī)療語(yǔ)音識(shí)別技術(shù)的應(yīng)用,能將醫(yī)生口述的語(yǔ)音轉(zhuǎn)成準(zhǔn)確度高、完全格式化的初步文件,醫(yī)生可快速加以核對(duì)、編輯,每天可節(jié)約1小時(shí)左右時(shí)間。醫(yī)生普遍認(rèn)為語(yǔ)音錄入病歷可提高文字輸入效率,降低工作難度,從總體上提高醫(yī)院收容處理病人的能力,同時(shí)縮短病人的無(wú)效等待時(shí)間,增加病人滿意度。
針對(duì)中文醫(yī)療語(yǔ)音識(shí)別的技術(shù)難點(diǎn),北京協(xié)和醫(yī)院做了很多探索實(shí)踐工作。
一是定制醫(yī)療領(lǐng)域語(yǔ)言模型:針對(duì)各科室業(yè)務(wù)進(jìn)行梳理,整理了超過(guò)30G的醫(yī)療文本資料,并對(duì)這些資料進(jìn)行分類、檢索等處理。使得定制語(yǔ)音模型覆蓋各個(gè)科室常用的病癥、藥品名稱、操作步驟等關(guān)鍵信息,使語(yǔ)音識(shí)別準(zhǔn)確率超過(guò)95%的水平。 二是定制個(gè)性化語(yǔ)言模型:不同科室的醫(yī)生在錄入醫(yī)囑時(shí)說(shuō)的話也不同。北京協(xié)和醫(yī)院語(yǔ)音錄入系統(tǒng)和用戶的賬號(hào)系統(tǒng)綁定。醫(yī)生登錄HIS時(shí)會(huì)加載所在科室的語(yǔ)言模型,這樣就可以有效降低模型大小,提高識(shí)別準(zhǔn)確度。同時(shí)醫(yī)生也可根據(jù)自己的使用習(xí)慣,向系統(tǒng)中添加自己常用的詞匯。 三是一體化私有建設(shè):實(shí)現(xiàn)一套私有化部署的語(yǔ)音云支持多渠道多終端的一體化建設(shè)。除支持HIS、PACS等PC端應(yīng)用,還支持移動(dòng)查房等pad端應(yīng)用,真正實(shí)現(xiàn)跨平臺(tái)的多渠道互聯(lián)互通應(yīng)用,大大降低醫(yī)療信息化建設(shè)成本。 醫(yī)療語(yǔ)音識(shí)別系統(tǒng)采用分布式計(jì)算,具有高健壯性、高度靈活性、高性價(jià)比等特點(diǎn),主要包括操作系統(tǒng)層、引擎層、資源包和管理工具4個(gè)層次。操作系統(tǒng)層提供開(kāi)發(fā)接口,以及開(kāi)發(fā)人員關(guān)注的接口定義、功能和使用方法;引擎層提供核心的語(yǔ)音處理功能,作為應(yīng)用接口的功能實(shí)現(xiàn)者;在引擎層之上提供覆蓋醫(yī)療領(lǐng)域的資源包,為科室提供語(yǔ)音識(shí)別優(yōu)化的功能。同時(shí)系統(tǒng)完美地支持傳統(tǒng)API調(diào)用和手機(jī)APP開(kāi)發(fā),為醫(yī)院原有信息化系統(tǒng)提供了相關(guān)接口和SDK。
北京協(xié)和醫(yī)院醫(yī)療語(yǔ)音識(shí)別應(yīng)用效果初現(xiàn)
據(jù)了解,醫(yī)療語(yǔ)音識(shí)別已在北京協(xié)和醫(yī)院病房、醫(yī)技科室、手術(shù)休息區(qū)進(jìn)行了嘗試使用。為更好地測(cè)試語(yǔ)音識(shí)別效果,北京協(xié)和醫(yī)院組織醫(yī)生進(jìn)行了語(yǔ)音識(shí)別系統(tǒng)測(cè)試和主觀體驗(yàn),隨機(jī)抽樣了135例樣本進(jìn)行精確統(tǒng)計(jì)。
已上線科室使用醫(yī)療語(yǔ)音識(shí)別系統(tǒng)的醫(yī)生表示,該系統(tǒng)的語(yǔ)音識(shí)別效果較好,可以有效提高工作效率,降低工作強(qiáng)度,減輕工作量,尤其對(duì)長(zhǎng)段信息、自由醫(yī)囑錄入的效果明顯。超過(guò)50%的大夫認(rèn)為語(yǔ)音識(shí)別技術(shù)每天可節(jié)約1小時(shí)左右時(shí)間。超過(guò)90%的大夫希望使用語(yǔ)音錄入方式,以提高工作效率。
關(guān)鍵詞:語(yǔ)音識(shí)別;研究趨勢(shì)
一、語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介
語(yǔ)言是人類的基本功能,也是展現(xiàn)思維、進(jìn)行溝通的重要載體。而語(yǔ)音,是由人類人體天賦轉(zhuǎn)化下,所形成一種表達(dá)方式。在科學(xué)視野中,這種天賦的轉(zhuǎn)化,被稱之聲學(xué)表現(xiàn)。然而,不可否認(rèn)的是,雖然語(yǔ)音僅作為一種“天賦表象”,卻是人類目前最為有效的交流手段。
二、語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史
科技引入到聲音的聲學(xué)研究,在人類歷史上發(fā)起較晚,始于上世紀(jì)50年代,研究人員才致力于聲學(xué)和語(yǔ)音學(xué)的基本概念。第一次實(shí)現(xiàn)研究突破是在1952年,學(xué)者AT& T Bell在其實(shí)驗(yàn)室,進(jìn)行了一組當(dāng)前視野來(lái)看,并不復(fù)雜的實(shí)驗(yàn)工作。但最終實(shí)現(xiàn)了一個(gè)單一發(fā)音人,孤立發(fā)音10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng),方法主要是度量每個(gè)數(shù)字的元音音段的共振峰;1956年,RCA Lab 基于Bell的人的研究基礎(chǔ),尋求另一個(gè)方向的實(shí)踐研究工作,力求識(shí)別單一發(fā)音的10個(gè)不同的音節(jié),同樣采用了度量共振峰的方法;1959年,組織University College的研究學(xué)者,以譜分析和模板匹配的方式,借助構(gòu)建音素識(shí)別器的理念,實(shí)現(xiàn)了識(shí)別4個(gè)元音和9個(gè)輔音;1962年,東京大學(xué)相關(guān)研究部門(mén),對(duì)音素識(shí)別器的硬件進(jìn)行實(shí)踐性研究工作。以過(guò)零率方法分離語(yǔ)音信號(hào)的不同部分的識(shí)別方式,成為目前較為理想的研究手段之一;1963年,日本NEC Lab對(duì)數(shù)字進(jìn)行語(yǔ)音識(shí)別技術(shù)進(jìn)行嘗試,并獲得了相對(duì)可靠的研究成果。并創(chuàng)造NEC研究語(yǔ)音識(shí)別的模板,由此開(kāi)創(chuàng)了語(yǔ)音識(shí)別技術(shù)的新領(lǐng)域。值得注意的是,在近四十年來(lái),語(yǔ)音識(shí)別技術(shù)并未出現(xiàn)質(zhì)的突破。但是,上述內(nèi)容60年代所進(jìn)行的研究,卻成為了支撐人類語(yǔ)言識(shí)別技術(shù)近半個(gè)世紀(jì)的基礎(chǔ)。而其最為重要的貢獻(xiàn),便是通過(guò)理論深度研究,于1969年提出時(shí)間歸正法。
三、語(yǔ)音識(shí)別技術(shù)的應(yīng)用及前景
隨著聲學(xué)研究的發(fā)展,語(yǔ)音識(shí)別技術(shù)已然具備了應(yīng)用的基礎(chǔ)。從現(xiàn)狀來(lái)看,中小詞匯量非特定人語(yǔ)音識(shí)別系統(tǒng)識(shí)別精度已經(jīng)大于98%,對(duì)特定人語(yǔ)音識(shí)別系統(tǒng)就更高。隨著科學(xué)技術(shù)的發(fā)展,集成電路的應(yīng)用,幫助以往過(guò)度復(fù)雜的識(shí)別體系,能在更小的空間的內(nèi)實(shí)現(xiàn)。從在西方經(jīng)濟(jì)發(fā)達(dá)國(guó)家來(lái)看,大量的語(yǔ)音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域。包括手機(jī)等移動(dòng)電子設(shè)備,多配備了相對(duì)完善的語(yǔ)音機(jī)制。并且盲人所使用的電子設(shè)備中的語(yǔ)音識(shí)別系統(tǒng),已經(jīng)達(dá)到了以往的軍用標(biāo)準(zhǔn)。用戶將借助移動(dòng)通訊網(wǎng)絡(luò),以語(yǔ)音識(shí)別的口語(yǔ)對(duì)話系統(tǒng),完成日常生活中,如訂購(gòu)票務(wù)、酒店等事宜。據(jù)調(diào)查統(tǒng)計(jì)結(jié)果,目前85%以上的使用者,對(duì)語(yǔ)音識(shí)別信息查詢服務(wù)系統(tǒng)的功能性、準(zhǔn)確性表示滿意。由此,也可以進(jìn)行預(yù)測(cè):在未來(lái)的十年內(nèi),語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用范圍將逐漸擴(kuò)大,而基于各類語(yǔ)言、需求的產(chǎn)品涌現(xiàn),或借助市場(chǎng)調(diào)節(jié)機(jī)制,有效降低此類系統(tǒng)的應(yīng)用成本。由此更進(jìn)一步滿足各類語(yǔ)音需求。但是,以當(dāng)前的技術(shù)來(lái)看,語(yǔ)音識(shí)別系統(tǒng)的局現(xiàn)性,或?qū)⒊蔀樽璧K其發(fā)展的根本原因。
四、語(yǔ)音識(shí)別技術(shù)的系統(tǒng)結(jié)構(gòu)
不可否認(rèn),語(yǔ)音識(shí)別系統(tǒng)是復(fù)雜的。但是,在人類漫長(zhǎng)研究中,不斷的歸納和總結(jié),最終找到可以大范圍區(qū)分的“節(jié)點(diǎn)”。由此,幫助語(yǔ)言識(shí)別系統(tǒng)的構(gòu)成更加清晰化。從相關(guān)研究發(fā)現(xiàn),一個(gè)完整的基于統(tǒng)計(jì)的語(yǔ)音識(shí)別系統(tǒng)可大致分為兩個(gè)部分:
1、語(yǔ)音信號(hào)預(yù)處理與特征提取
語(yǔ)音識(shí)別的基本工作特征,在于識(shí)別單元的選擇,這也是能否獲得識(shí)別結(jié)果的重要基礎(chǔ)。然而,對(duì)于單元的選擇,需要合理的區(qū)分各個(gè)要素,包括單詞(句)、音節(jié)和音素三種。在選擇適合的要素后,才能夠進(jìn)行后續(xù)的識(shí)別工作。
單詞(句)單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不太適合大詞匯系統(tǒng),原因在于模型庫(kù)太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜。故此,看似簡(jiǎn)單識(shí)別通道,卻因?yàn)閺?fù)雜性降低了時(shí)效,最終導(dǎo)致難以準(zhǔn)確的完成識(shí)別任務(wù)。
音節(jié)單元是基于我國(guó)語(yǔ)言特征,所提出的特殊識(shí)別要素。由于漢語(yǔ)言與英語(yǔ)等拉丁語(yǔ)系語(yǔ)種的差異性。我國(guó)發(fā)展語(yǔ)音識(shí)別技術(shù),或難以借助他國(guó)成熟經(jīng)驗(yàn)。但是,由于漢語(yǔ)音節(jié)總數(shù)為1300余個(gè),其中包括408個(gè)無(wú)調(diào)音節(jié),對(duì)比于大量多音節(jié)的拉丁語(yǔ)系,漢語(yǔ)言基礎(chǔ)上的音節(jié)單元要素識(shí)別,將具備更高的時(shí)效性。這也是我國(guó)語(yǔ)音識(shí)別技術(shù)能夠“后發(fā)制人”的關(guān)鍵。
音素的識(shí)別,主要借助線性預(yù)測(cè)(LP)實(shí)現(xiàn)。LP分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型為純數(shù)學(xué)模型,未考慮人類聽(tīng)覺(jué)系統(tǒng)對(duì)語(yǔ)言的處理特點(diǎn)。
2、聲學(xué)模型與模式處理
作為語(yǔ)音識(shí)別系統(tǒng)的第二個(gè)模塊,也是其重要的基底模塊。聲學(xué)模型主要用于搭建聲音體系,并借助特征算法,幫助后續(xù)的模式處理,對(duì)語(yǔ)音進(jìn)行深度識(shí)別。而模式處理的重要性,在于保證識(shí)別結(jié)果的準(zhǔn)確。通常對(duì)語(yǔ)音模型的處理,在理論和數(shù)據(jù)參數(shù)上,已經(jīng)具備良好的基礎(chǔ)。但是,在識(shí)別方面,卻一直難以達(dá)成成效。這也是模式處理能力不足所帶來(lái)的主要困境。從基本理論層面來(lái)看,聲學(xué)模型作為語(yǔ)音識(shí)別系統(tǒng)底層模型,其關(guān)鍵性不言而喻。而聲學(xué)模型存在的意義,在于提供計(jì)算語(yǔ)言的特征矢量序列,以及合理區(qū)分每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元體積對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大影響。
五、語(yǔ)音識(shí)別技術(shù)的發(fā)展障礙
1、技術(shù)智能化不足。例如,同一說(shuō)話者在不同語(yǔ)態(tài)時(shí),語(yǔ)音信息有所差異;即使同一說(shuō)話者以相同方式說(shuō)話時(shí),其語(yǔ)音模式也受長(zhǎng)期時(shí)間變化的影響。
2、缺乏模糊語(yǔ)音處理能力。說(shuō)話者在講話時(shí),不同的語(yǔ)詞可能聽(tīng)起來(lái)很相似。
3、無(wú)法兼顧發(fā)音變化。單詞或單詞的一部分在發(fā)音過(guò)程中其音量、音調(diào)、重音和發(fā)音速度可能不同,使得測(cè)試模式和標(biāo)準(zhǔn)模型不匹配。
4、無(wú)法消除環(huán)境音響。為了提升語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確性,必須提升其收納聲音的范圍。而這樣的選擇,無(wú)疑會(huì)放大環(huán)境因素的影響。原因在于語(yǔ)音識(shí)別系統(tǒng)的聲音基礎(chǔ),是在相對(duì)安靜的環(huán)境中創(chuàng)造。所以,無(wú)法應(yīng)對(duì)自然環(huán)境中的噪聲和干擾。而且,在采用抗干擾模式下,語(yǔ)言識(shí)別和接受能力又會(huì)大幅度下降。這也讓技術(shù)遇到兩難的選擇。
參考文獻(xiàn):
[1] 施超群,陳堅(jiān)剛.淺析語(yǔ)音識(shí)別原理[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011(03):94-96.
語(yǔ)音識(shí)別是指用計(jì)算機(jī)對(duì)人的語(yǔ)音信號(hào)進(jìn)行分析處理,從而得到其對(duì)應(yīng)文字的過(guò)程。其最終目的就是實(shí)現(xiàn)一種自然的人機(jī)交互方式,使機(jī)器能聽(tīng)懂人的語(yǔ)言,辨明話音的內(nèi)容,將人的語(yǔ)音正確地轉(zhuǎn)化為對(duì)應(yīng)的文本,或者根據(jù)語(yǔ)義做出相應(yīng)的動(dòng)作。常見(jiàn)的應(yīng)用系統(tǒng)有語(yǔ)音輸入系統(tǒng)、語(yǔ)音控制系統(tǒng)、智能對(duì)話查詢系統(tǒng)等。而語(yǔ)音識(shí)別評(píng)測(cè)是指針對(duì)語(yǔ)音識(shí)別的某項(xiàng)應(yīng)用,創(chuàng)建評(píng)測(cè)語(yǔ)料庫(kù),提出評(píng)測(cè)指標(biāo)和對(duì)應(yīng)算法,用評(píng)測(cè)語(yǔ)料訓(xùn)練和測(cè)試各參評(píng)系統(tǒng),并對(duì)其識(shí)別結(jié)果進(jìn)行比較和分析的過(guò)程。
實(shí)際上,從1987年起,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局就開(kāi)始組織對(duì)各大學(xué)和公司研發(fā)的語(yǔ)音識(shí)別系統(tǒng)進(jìn)行評(píng)測(cè)。十幾年間,根據(jù)技術(shù)的現(xiàn)狀,組織了多次不同任務(wù)的評(píng)測(cè),促進(jìn)了領(lǐng)域內(nèi)的競(jìng)爭(zhēng)和交流,對(duì)語(yǔ)音識(shí)別技術(shù)的進(jìn)步和發(fā)展起到了巨大的引領(lǐng)和推動(dòng)作用。
當(dāng)前,國(guó)際上知名的語(yǔ)音識(shí)別評(píng)測(cè)主要有: 美國(guó)NIST(國(guó)家標(biāo)準(zhǔn)技術(shù)局)評(píng)測(cè)、歐洲TC-STAR評(píng)測(cè)和中國(guó)的863評(píng)測(cè)。美國(guó)NIST評(píng)測(cè)是開(kāi)展歷史最久、項(xiàng)目設(shè)置最全也最負(fù)盛名的評(píng)測(cè),近20年來(lái),每年都針對(duì)語(yǔ)音識(shí)別方向的熱點(diǎn)技術(shù)組織國(guó)際性評(píng)測(cè),涉及的語(yǔ)言有英語(yǔ)、漢語(yǔ)普通話和阿拉伯語(yǔ),涉及的任務(wù)有孤立詞識(shí)別、關(guān)鍵詞識(shí)別和大詞匯量連續(xù)語(yǔ)音識(shí)別,涉及的語(yǔ)音包括了朗讀語(yǔ)音、自然語(yǔ)音、對(duì)話語(yǔ)音、廣播語(yǔ)音、會(huì)議語(yǔ)音等各種常見(jiàn)的語(yǔ)音類別。TC-STAR語(yǔ)音識(shí)別評(píng)測(cè)是歐盟TC-STAR項(xiàng)目的一部分。該項(xiàng)目主要針對(duì)語(yǔ)音到語(yǔ)音的機(jī)器自動(dòng)翻譯。其語(yǔ)音識(shí)別評(píng)測(cè)任務(wù)為連續(xù)語(yǔ)音識(shí)別,針對(duì)英語(yǔ)、西班牙語(yǔ)和漢語(yǔ)普通話,處理的語(yǔ)音為會(huì)議發(fā)言(英語(yǔ)、西班牙語(yǔ))或新聞廣播(漢語(yǔ))。863語(yǔ)音識(shí)別評(píng)測(cè)是類似NIST評(píng)測(cè)的綜合性評(píng)測(cè),語(yǔ)言以漢語(yǔ)為主,任務(wù)和通道多樣,根據(jù)語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀和發(fā)展趨勢(shì)不斷調(diào)整。
語(yǔ)音識(shí)別的主要技術(shù)
近年來(lái),由于大規(guī)模語(yǔ)料庫(kù)的支持,基于統(tǒng)計(jì)的語(yǔ)音識(shí)別方法逐漸發(fā)展成熟,取得了較好的識(shí)別結(jié)果,成為當(dāng)前語(yǔ)音識(shí)別技術(shù)的主流。基于隱馬爾可夫模型(HMM)的統(tǒng)計(jì)語(yǔ)音識(shí)別在各個(gè)通道,各種任務(wù)的語(yǔ)音識(shí)別中得到了廣泛應(yīng)用。
圖1所示為當(dāng)前大多數(shù)語(yǔ)音識(shí)別系統(tǒng)采用的框架和流程。原始語(yǔ)音經(jīng)前端處理后,從中提取出若干維的特征向量用于識(shí)別。識(shí)別時(shí),聲學(xué)模型和語(yǔ)言模型共同作用,得到使某一概率最大的字串作為識(shí)別結(jié)果。
前端處理是指在特征提取之前,先對(duì)原始語(yǔ)音進(jìn)行處理,部分消除噪聲和不同說(shuō)話人帶來(lái)的影響,使處理后的信號(hào)更能反映語(yǔ)音的本質(zhì)特征。最常用的前端處理有端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)。端點(diǎn)檢測(cè)是指在語(yǔ)音信號(hào)中將語(yǔ)音和非語(yǔ)音信號(hào)時(shí)段區(qū)分開(kāi)來(lái),準(zhǔn)確地確定出語(yǔ)音信號(hào)的起始點(diǎn)。經(jīng)過(guò)端點(diǎn)檢測(cè)后,后續(xù)處理就可以只對(duì)語(yǔ)音信號(hào)進(jìn)行,這對(duì)提高模型的精確度和識(shí)別正確率有重要作用。語(yǔ)音增強(qiáng)的主要任務(wù)就是消除環(huán)境噪聲對(duì)語(yǔ)音的影響。目前通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其他濾波器。
在特征提取階段,一般是把語(yǔ)音信號(hào)切分成幾十毫秒的幀,對(duì)每一幀提取一個(gè)特征向量。但這樣會(huì)丟失幀與幀之間的聯(lián)接信息,無(wú)法反映幀之間的變化過(guò)程,因此,還應(yīng)該加上向量的一階差分和二階差分(相當(dāng)于連續(xù)函數(shù)中的一階導(dǎo)數(shù)和二階導(dǎo)數(shù))共同構(gòu)成特征。
如上文所述,目前主流的語(yǔ)音識(shí)別系統(tǒng)大多基于統(tǒng)計(jì)模式識(shí)別原理,其基礎(chǔ)是由聲學(xué)模型和語(yǔ)言模型共同構(gòu)成的統(tǒng)計(jì)模型。
聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,其目標(biāo)是通過(guò)模型度量,尋找語(yǔ)音特征向量序列對(duì)應(yīng)的發(fā)音。當(dāng)前常用的聲學(xué)模型是隱馬爾可夫模型(HMM)。HMM模型可以看成一個(gè)雙重隨機(jī)過(guò)程,一個(gè)馬爾可夫鏈的各個(gè)狀態(tài)可以產(chǎn)生出各種輸出。這種機(jī)制較合理地模仿了人類語(yǔ)言活動(dòng)的過(guò)程,對(duì)孤立詞和連續(xù)語(yǔ)音識(shí)別來(lái)說(shuō)都是較理想的聲學(xué)模型。
語(yǔ)言模型的作用是通過(guò)提供字或詞之間的上下文信息和語(yǔ)義信息。對(duì)于大詞匯量連續(xù)語(yǔ)音識(shí)別,語(yǔ)言模型是必不可少的關(guān)鍵模塊之一。目前比較成熟的方法是統(tǒng)計(jì)語(yǔ)言模型,當(dāng)前的主流方法是N元文法(N-gram),其主要思想是根據(jù)已知前(N-1)個(gè)字或詞,預(yù)測(cè)第N個(gè)字或詞出現(xiàn)的概率。由于訓(xùn)練語(yǔ)料的限制,目前主要采用三元語(yǔ)法。
訓(xùn)練統(tǒng)計(jì)模型
對(duì)于統(tǒng)計(jì)模型,要想使得它能夠識(shí)別語(yǔ)音,必須對(duì)模型進(jìn)行訓(xùn)練。所謂訓(xùn)練,是指對(duì)大量的訓(xùn)練語(yǔ)料進(jìn)行統(tǒng)計(jì)和處理,計(jì)算和調(diào)整模型的參數(shù),使模型對(duì)未訓(xùn)練過(guò)的數(shù)據(jù)也能達(dá)到理想的識(shí)別結(jié)果。語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練主要包括聲學(xué)模型的訓(xùn)練和語(yǔ)言模型的訓(xùn)練。對(duì)于廣泛采用的HMM聲學(xué)模型,其訓(xùn)練主要是獲取HMM中的狀態(tài)轉(zhuǎn)移概率、各狀態(tài)的輸出概率分布等參數(shù)。常用的方法是基于最大似然估計(jì)原理的迭代算法(如Baum-Welch算法)。對(duì)于基于三元文法的語(yǔ)言模型,其訓(xùn)練主要是從大量的文本中計(jì)算三元組的概率。
當(dāng)模型訓(xùn)練好以后,就可以進(jìn)行識(shí)別了。語(yǔ)音識(shí)別算法的主要思路是在侯選的詞串中搜索使聲學(xué)模型和語(yǔ)言模型的概率乘積最大的詞串。因此,識(shí)別過(guò)程也常稱作搜索(Search)或解碼(Decoding)。當(dāng)前常用的搜索算法是Viterbi算法,其本質(zhì)是一種動(dòng)態(tài)規(guī)劃方法。
當(dāng)前的語(yǔ)音識(shí)別系統(tǒng)大都是說(shuō)話人無(wú)關(guān)(Speaker Independent)系統(tǒng),即事先并不知道要識(shí)別的語(yǔ)音的說(shuō)話人特征。但是,對(duì)于某個(gè)說(shuō)話人,如果能夠適當(dāng)學(xué)習(xí)他(她)的發(fā)音特點(diǎn),調(diào)整模型參數(shù),顯然會(huì)使得識(shí)別效果更好。這就是說(shuō)話人自適應(yīng)的主要原理。所謂說(shuō)話人自適應(yīng),是指對(duì)大訓(xùn)練集上得到的模型參數(shù)進(jìn)行調(diào)整,使之對(duì)當(dāng)前說(shuō)話人產(chǎn)生更好地識(shí)別效果??梢哉f(shuō),說(shuō)話人自適應(yīng)實(shí)際上是希望通過(guò)少量數(shù)據(jù)的增強(qiáng)訓(xùn)練(即所謂的自適應(yīng)過(guò)程),使非特定人系統(tǒng)接近特定人系統(tǒng)的性能。常用的說(shuō)話人自適應(yīng)方法主要有兩種: 最大后驗(yàn)概率(MAP)方法和最大似然線性回歸(MLLR)方法。MPA算法采用基于最大后驗(yàn)概率準(zhǔn)則,具有理論上的最優(yōu)性,因此在小詞表的語(yǔ)音識(shí)別任務(wù)中具有相當(dāng)好的性能。其缺點(diǎn)是對(duì)大詞匯量的任務(wù)自適應(yīng)速度緩慢,無(wú)法滿足應(yīng)用的要求。因此,當(dāng)前的大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)大多采用MLLR方法,或?qū)AP與MLLR結(jié)合。從評(píng)測(cè)結(jié)果來(lái)看,如果有充分的時(shí)間調(diào)整說(shuō)話人自適應(yīng)模型,連續(xù)語(yǔ)音識(shí)別中的字錯(cuò)誤率可以下降1至4個(gè)百分點(diǎn)。
從幾年來(lái)各參評(píng)系統(tǒng)采用的主要技術(shù)來(lái)看,當(dāng)前語(yǔ)音識(shí)別系統(tǒng)中的技術(shù)嚴(yán)重趨同。幾乎所有的參評(píng)系統(tǒng)都采用上述框架和基本模塊,區(qū)別主要在于模塊內(nèi)部的細(xì)化程度,或者把某模塊中的幾種技術(shù)做些組合。例如,采用不同的前端處理方法,對(duì)男女聲和有無(wú)噪聲的語(yǔ)音分類處理,以及同時(shí)采用多種聲學(xué)特征和不同的搜索策略構(gòu)造多個(gè)識(shí)別子系統(tǒng),最后對(duì)各子系統(tǒng)的識(shí)別結(jié)果做一種類似投票的表決(ROVER技術(shù)),得到最終識(shí)別結(jié)果。
由于863語(yǔ)音識(shí)別評(píng)測(cè)并不限制訓(xùn)練數(shù)據(jù)的使用,各單位可以使用自備的所有數(shù)據(jù)。因此,從評(píng)測(cè)結(jié)果及各單位的研討中可以看到,訓(xùn)練數(shù)據(jù)的數(shù)量和質(zhì)量對(duì)系統(tǒng)的性能有很大的影響。為了使評(píng)測(cè)更公平,2005年的評(píng)測(cè)中提供了一定量的統(tǒng)一訓(xùn)練集,但規(guī)模還較小。在以后的評(píng)測(cè)中,將考慮提供大量的訓(xùn)練集,希望能夠避免因訓(xùn)練數(shù)據(jù)不同而造成的性能差異。
863計(jì)劃中語(yǔ)音識(shí)別評(píng)測(cè)
從2003年起,中國(guó)科學(xué)院計(jì)算技術(shù)研究所連續(xù)三年承辦863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè),語(yǔ)音識(shí)別評(píng)測(cè)始終是其中的一個(gè)主要分項(xiàng)。三年間,863語(yǔ)音識(shí)別評(píng)測(cè)受到了國(guó)內(nèi)外語(yǔ)音識(shí)別研究者的關(guān)注,參加單位數(shù)逐年遞增,成為國(guó)內(nèi)語(yǔ)音識(shí)別領(lǐng)域最高級(jí)別的交流平臺(tái),在國(guó)際上也具備了相當(dāng)?shù)挠绊懥Α?/p>
2003年和2004年度語(yǔ)音識(shí)別評(píng)測(cè)采用現(xiàn)場(chǎng)評(píng)測(cè)方式,即各參評(píng)系統(tǒng)的運(yùn)行在評(píng)測(cè)現(xiàn)場(chǎng)同時(shí)進(jìn)行。這種組織形式比較嚴(yán)格,一旦參評(píng)系統(tǒng)運(yùn)行出現(xiàn)故障將無(wú)法繼續(xù)。而且,要求所有參評(píng)單位必須到場(chǎng),其成本也較高。為了避免這些問(wèn)題,2005年的863評(píng)測(cè)采用目前國(guó)際通用的網(wǎng)上評(píng)測(cè)的方法,即在網(wǎng)上數(shù)據(jù),各參評(píng)單位在自己的運(yùn)行環(huán)境上運(yùn)行參評(píng)系統(tǒng)后將識(shí)別結(jié)果通過(guò)網(wǎng)絡(luò)提交給評(píng)測(cè)單位。
863語(yǔ)音識(shí)別評(píng)測(cè)最大的特色在于測(cè)試數(shù)據(jù)的選取。文本語(yǔ)料的選取采用從大規(guī)模原始語(yǔ)料庫(kù)中篩選的方法,充分考慮到了對(duì)各種韻律學(xué)特征(音節(jié)、二音子、三音子、音連關(guān)系等)、語(yǔ)法特征(句型和句法結(jié)構(gòu)等)和各種領(lǐng)域、各種文體(散文、小說(shuō)、實(shí)事新聞等)的覆蓋。錄音時(shí)不是采用實(shí)驗(yàn)室加噪聲,而是在完全真實(shí)的場(chǎng)景中錄制數(shù)據(jù),并且充分考慮到了說(shuō)話人、信噪比等因素的覆蓋,在實(shí)驗(yàn)的基礎(chǔ)上提出了真實(shí)環(huán)境中信噪比的分布模型,并在此模型的指導(dǎo)下錄制數(shù)據(jù)。這種以實(shí)驗(yàn)和理論為依據(jù)、以算法為支撐,控制各種語(yǔ)音屬性,從而最大限度地?cái)M合真實(shí)應(yīng)用的數(shù)據(jù)采集方法,在國(guó)際上也是很有特色的。目前國(guó)際上的同類評(píng)測(cè),錄音場(chǎng)景多為實(shí)驗(yàn)室,對(duì)各種影響因素一般只做寬泛的覆蓋,幾乎沒(méi)有按理論模型控制的方法。
863語(yǔ)音識(shí)別評(píng)測(cè)的另一個(gè)特點(diǎn)是對(duì)結(jié)果做了充分的統(tǒng)計(jì)分析。目前的國(guó)際評(píng)測(cè)一般除給出相應(yīng)的指標(biāo)外,還會(huì)做一些統(tǒng)計(jì)分析,而之前的國(guó)內(nèi)評(píng)測(cè)卻很少這么做。從2004年開(kāi)始,863語(yǔ)音識(shí)別評(píng)測(cè)也開(kāi)始對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)分析,而在2005年的評(píng)測(cè)中,更是采用專業(yè)統(tǒng)計(jì)學(xué)方法,采用實(shí)驗(yàn)設(shè)計(jì)、假設(shè)檢驗(yàn)、回歸分析、方差分析、協(xié)方差分析等一系方法對(duì)結(jié)果及影響結(jié)果的因素進(jìn)行了深入分析,對(duì)各評(píng)測(cè)單位認(rèn)清自己系統(tǒng)的優(yōu)勢(shì)和缺點(diǎn),進(jìn)一步改進(jìn)起到了很大作用。
另外,在電話連續(xù)語(yǔ)音關(guān)鍵詞識(shí)別評(píng)測(cè)中,在2004年嘗試了以語(yǔ)義槽為單位的基于語(yǔ)法關(guān)鍵詞識(shí)別任務(wù)和評(píng)測(cè)指標(biāo),在2005年首次使用了兩個(gè)說(shuō)話人一起錄制的自然對(duì)話語(yǔ)音,更加符合真實(shí)應(yīng)用的特點(diǎn),這在國(guó)際同類評(píng)測(cè)中都是沒(méi)有的。
從評(píng)測(cè)結(jié)果看語(yǔ)音識(shí)別技術(shù)現(xiàn)狀
863語(yǔ)音識(shí)別評(píng)測(cè),包括PC、電話、嵌入式設(shè)備三個(gè)語(yǔ)音通道,涉及聽(tīng)寫(xiě)機(jī)、對(duì)話查詢、命令詞識(shí)別等多種任務(wù),基本上涵蓋了當(dāng)前語(yǔ)音識(shí)別的主要研究和應(yīng)用方向。而參評(píng)的又大都是國(guó)內(nèi)長(zhǎng)期進(jìn)行該項(xiàng)研究、有較高水平的單位和系統(tǒng),因此,無(wú)論是采用的方法還是識(shí)別的效果,本次評(píng)測(cè)都可以真實(shí)反映出國(guó)內(nèi)語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀。這里結(jié)合2004年的評(píng)測(cè),對(duì)評(píng)測(cè)結(jié)果進(jìn)行分析。之所以選擇2004年的評(píng)測(cè)結(jié)果,是因?yàn)樗脑u(píng)測(cè)分項(xiàng)最全,幾乎覆蓋了語(yǔ)音識(shí)別的各種應(yīng)用。
1. 識(shí)別結(jié)果的評(píng)價(jià)
評(píng)測(cè)的主要目標(biāo)就是通過(guò)對(duì)識(shí)別結(jié)果的評(píng)價(jià)、分析了解參評(píng)系統(tǒng)的性能的和語(yǔ)音技術(shù)的現(xiàn)狀。因此,制訂有效的、能夠真實(shí)反映出系統(tǒng)性能的評(píng)價(jià)指標(biāo)也是很重要的研究任務(wù)。
對(duì)于大詞匯量連續(xù)語(yǔ)音識(shí)別來(lái)說(shuō),國(guó)際上通用的指標(biāo)是文字錯(cuò)誤率(對(duì)于英語(yǔ),文字指單詞; 對(duì)于漢語(yǔ),文字指字,下同)。其基本思想為采用動(dòng)態(tài)規(guī)劃算法將標(biāo)準(zhǔn)答案與識(shí)別結(jié)果對(duì)齊,以得到“正確文字?jǐn)?shù)”、“替換文字?jǐn)?shù)”、“插入文字?jǐn)?shù)”、“刪除文字?jǐn)?shù)”四項(xiàng)參數(shù),然后計(jì)算文字錯(cuò)誤率。
錯(cuò)誤文字?jǐn)?shù) = 替換 + 插入 + 刪除文字?jǐn)?shù)
文字錯(cuò)誤率 = 錯(cuò)誤文字?jǐn)?shù) / 原文答案文字?jǐn)?shù)
下面給出一個(gè)例子:
LAB: 新 增 四 百 萬(wàn) 千 瓦 時(shí) 的 強(qiáng) 大 電 流 輸 入 云 南 的 電 網(wǎng)
REC: 新 增 四 百 花 錢(qián) 忙 時(shí) 的 槍 打 電 流 于 樹(shù) 綠 云 南 電 網(wǎng)
C C C C N N N C C N N C C I N N C C D C C
其中,LAB是標(biāo)準(zhǔn)答案,REC是識(shí)別結(jié)果,上面的格式是根據(jù)編輯距離最小對(duì)齊的結(jié)果,第三行標(biāo)記了各類文字,C表示正確文字,N表示替換文字,I表示插入文字,D表示刪除文字。
2004年863語(yǔ)音識(shí)別評(píng)測(cè)中的電話連續(xù)語(yǔ)音識(shí)別評(píng)測(cè)分項(xiàng)采用的主要指標(biāo)是語(yǔ)義槽識(shí)別正確率,即用語(yǔ)料文本解析得到的標(biāo)準(zhǔn)答案和識(shí)別結(jié)果相比較,完全匹配的槽認(rèn)為是識(shí)別正確的,定義槽識(shí)別正確率為:
槽識(shí)別正確率 = 正確識(shí)別的槽的個(gè)數(shù) / 標(biāo)準(zhǔn)答案中槽的總數(shù)
對(duì)于嵌入式設(shè)備命令詞識(shí)別,由于是孤立詞識(shí)別,因此采用命令詞識(shí)別正確率即可:
命令詞識(shí)別正確率 = 正確識(shí)別的命令詞數(shù) / 命令詞總數(shù)
2. 識(shí)別系統(tǒng)性能
對(duì)各系統(tǒng)給出的識(shí)別結(jié)果計(jì)算上述指標(biāo),得到對(duì)各系統(tǒng)識(shí)別性能的評(píng)價(jià)。表1給出了每個(gè)分項(xiàng)中識(shí)別效果最好的系統(tǒng)的指標(biāo),以及前三名系統(tǒng)的平均指標(biāo)。為了統(tǒng)一,將電話連續(xù)語(yǔ)音識(shí)別中的槽識(shí)別正確率和嵌入式設(shè)備命令詞識(shí)別中的命令詞識(shí)別正確率統(tǒng)稱為正確率。對(duì)桌面(這里指PC,以下同)連續(xù)語(yǔ)音識(shí)別,采用文字正確率,定義為(目前研究者對(duì)文字正確率定義稍有不同,本文中一律以下面的定義為準(zhǔn)):
文字正確率 = 1 - 文字錯(cuò)誤率
表中的最高正確率基本可以代表該分項(xiàng)的最高水平,前三名的正確率均值可以一定程度上反映該分項(xiàng)的平均水平,而前三名正確率的方差可以反映該分項(xiàng)中各系統(tǒng)的性能差異程度。
從表中可以看到,桌面連續(xù)語(yǔ)音識(shí)別分項(xiàng)中,漢語(yǔ)的識(shí)別效果遠(yuǎn)遠(yuǎn)好于英語(yǔ)(文字正確率最多相差20個(gè)百分點(diǎn))。其原因顯然在于國(guó)內(nèi)對(duì)漢語(yǔ)語(yǔ)音識(shí)別的研究比英語(yǔ)多而且深入。另外,英語(yǔ)訓(xùn)練語(yǔ)料的相對(duì)缺乏,也是一個(gè)重要原因。
在采用了語(yǔ)法限制的語(yǔ)義槽識(shí)別任務(wù)和槽識(shí)別正確率作為評(píng)測(cè)指標(biāo)后,電話連續(xù)語(yǔ)音的槽識(shí)別正確率較低。事實(shí)上,由于電話語(yǔ)音的錄制環(huán)境為辦公室環(huán)境,其噪音比桌面語(yǔ)音要小得多,所以正確率較低的原因主要在于對(duì)語(yǔ)法的處理和槽識(shí)別正確率較低。
嵌入式設(shè)備命令詞識(shí)別的正確率與桌面語(yǔ)音字正確率大致相當(dāng)。一方面,連續(xù)語(yǔ)音識(shí)別要比孤立詞識(shí)別困難,另一方面,嵌入式設(shè)備的語(yǔ)音通道和計(jì)算資源都比PC差得多,從結(jié)果可以看出,這兩方面的因素基本抵消。
從各分項(xiàng)前三名的正確率方差可以看出,漢語(yǔ)桌面連續(xù)語(yǔ)音識(shí)別和嵌入式設(shè)備命令詞分項(xiàng)中各系統(tǒng)的性能差異較小,而英語(yǔ)桌面連續(xù)語(yǔ)音識(shí)別,特別是一倍實(shí)時(shí)任務(wù)中各系統(tǒng)性能差異較大。這是因?yàn)楫?dāng)前語(yǔ)音識(shí)別的研究重點(diǎn)在于前者,研究者較多,研究也比較深入,而英語(yǔ)的識(shí)別相對(duì)來(lái)說(shuō)研究者較少。
3. 影響系統(tǒng)識(shí)別性能的因素
從上面的識(shí)別結(jié)果評(píng)價(jià)可以看出,對(duì)真實(shí)噪音環(huán)境下錄制的語(yǔ)音數(shù)據(jù),當(dāng)前的語(yǔ)音識(shí)別系統(tǒng)識(shí)別正確率偏低,還很難達(dá)到實(shí)用。
從語(yǔ)音識(shí)別產(chǎn)生以來(lái),噪音一直是影響識(shí)別效果的主要因素。為了分析噪音對(duì)識(shí)別的影響,將評(píng)測(cè)數(shù)據(jù)按信噪比(SNR)分段,從參評(píng)系統(tǒng)選取三個(gè),分別計(jì)算其在各段內(nèi)的識(shí)別正確率,可以看出,識(shí)別正確率基本上隨著SNR的增大而提高,SNR在20dB以上的數(shù)據(jù)正確率比SNR在5~10dB的數(shù)據(jù)高近30個(gè)百分點(diǎn)。對(duì)桌面連續(xù)語(yǔ)音識(shí)別的其他分項(xiàng)和嵌入式命令詞識(shí)別的結(jié)果分析也得到類似的結(jié)果。
對(duì)于電話連續(xù)語(yǔ)音識(shí)別來(lái)說(shuō),由于錄制環(huán)境是辦公室真實(shí)環(huán)境,因此噪音并不是影響性能的主要因素。電話連續(xù)語(yǔ)音識(shí)別分為5個(gè)子領(lǐng)域,每個(gè)子領(lǐng)域各有一套語(yǔ)法。評(píng)測(cè)句子由語(yǔ)法生成的有效成分在前后加上任意長(zhǎng)的填充詞(filler)構(gòu)成,如語(yǔ)法生成的句子為“從天安門(mén)到中關(guān)村怎么坐公交車”,而實(shí)際錄制的句子是“你好,請(qǐng)問(wèn)從天安門(mén)到中關(guān)村怎么坐公交車,可以查到嗎?”,其中的“你好,請(qǐng)問(wèn)”和“可以查到嗎”就是filler。由分析可以發(fā)現(xiàn),不同領(lǐng)域內(nèi)的槽識(shí)別正確率相差很大。這主要有兩個(gè)原因,一是不同領(lǐng)域的語(yǔ)法復(fù)雜度不同,二是不同領(lǐng)域內(nèi)有filler的句子所占比例不同。為了進(jìn)一步衡量filler對(duì)識(shí)別的影響,選取三個(gè)識(shí)別系統(tǒng),將有filler的句子和沒(méi)有filler的句子分別計(jì)算識(shí)別率,統(tǒng)計(jì)結(jié)果如圖2所示。從圖中可以看出,filler對(duì)識(shí)別的影響是相當(dāng)大的,無(wú)filler的句子比有filler的句子識(shí)別正確率可以高幾十個(gè)百分點(diǎn)。
語(yǔ)音識(shí)別技術(shù)的應(yīng)用非常廣泛,可應(yīng)用在運(yùn)營(yíng)商、呼叫中心、汽車、GPS導(dǎo)航等凡是需要輸入文字、但又不方便輸入,只能用語(yǔ)音代替文字的地方。因此,語(yǔ)音識(shí)別技術(shù)被很多專家認(rèn)為是下一代通信技術(shù),具有廣闊的市場(chǎng)前景。但由于語(yǔ)音識(shí)別技術(shù)難度非常大,語(yǔ)音識(shí)別率不高,讓很多人不喜歡使用,因此,目前應(yīng)用并沒(méi)有想象中那么大,市場(chǎng)也沒(méi)有預(yù)期中的爆炸式發(fā)展。那么,目前全球的語(yǔ)音識(shí)別技術(shù)究竟發(fā)展到什么程度了呢?
5月22日,在全球語(yǔ)音識(shí)別市場(chǎng)占據(jù)80%以上市場(chǎng)份額的語(yǔ)音識(shí)別技術(shù)和產(chǎn)品供應(yīng)商N(yùn)uance通信公司在北京舉辦了一場(chǎng)語(yǔ)音企業(yè)解決方案高峰會(huì)。會(huì)上,Nuance公司展示了最新的語(yǔ)音識(shí)別技術(shù)以及各種成功應(yīng)用案例,令人驚嘆語(yǔ)音技術(shù)的發(fā)展速度之快。
據(jù)Nuance大中華區(qū)總經(jīng)理鄭裕慶介紹,目前,Nuance已經(jīng)在全球部署了3000多個(gè)基于語(yǔ)音識(shí)別技術(shù)的解決方案,客戶范圍覆蓋移動(dòng)運(yùn)營(yíng)商、汽車制造商、醫(yī)院、移動(dòng)電話等各個(gè)行業(yè)。在金融領(lǐng)域,Nuance 擁有超過(guò)500家金融客戶,其中包括 Wells Fargo、美國(guó)銀行、花旗銀行、德意志銀行、匯豐銀行、友邦保險(xiǎn)、安聯(lián)保險(xiǎn)、美林證券等;而電信行業(yè),全球前15大電信公司有超過(guò)10家為 Nuance 用戶,其中包括英國(guó)電信、Verizon、Vodafone、Cingular 等,另外還包括電視購(gòu)物、航空、醫(yī)藥、汽車、科技企業(yè)等數(shù)千家企業(yè),在全球《財(cái)富》100強(qiáng)企業(yè)中有三分之二為 Nuance 的用戶。
“Nuance在語(yǔ)音識(shí)別技術(shù)上具備1000項(xiàng)專利權(quán)、可識(shí)別全球50多種語(yǔ)言,包括方言,采用我們的語(yǔ)音輸入技術(shù),其速度比99%的人的打字速度都快,且準(zhǔn)確率非常高?!编嵲c說(shuō)?!拔覀儞碛腥蜃畲蟮目蛻艚换ソ鉀Q方案顧問(wèn)及系統(tǒng)整合團(tuán)隊(duì),通過(guò)領(lǐng)先的語(yǔ)音及文字技術(shù),可為企業(yè)量身定做各種客戶關(guān)懷方案?!彼e例:Nuance為中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)電信提供的個(gè)性化語(yǔ)音識(shí)別應(yīng)用,就讓這三家運(yùn)營(yíng)商對(duì)客戶的關(guān)懷達(dá)到一個(gè)新高度。中國(guó)移動(dòng)和中國(guó)聯(lián)通的客戶在下載彩鈴時(shí),只需撥打特服號(hào)碼,并根據(jù)提示直接用語(yǔ)音說(shuō)出想要的歌名或歌手名,系統(tǒng)就會(huì)聽(tīng)懂你的話并搜索出你想要的鈴聲,這極大地解決了人們搜索自己喜愛(ài)歌曲的難度。中國(guó)電信的用戶則可以利用該技術(shù),有效接通只記得人名、不記得號(hào)碼的人,在中國(guó)電信的號(hào)碼百事通和商務(wù)領(lǐng)航品牌上的個(gè)人通信助理中,人們可以將自己的個(gè)人電話簿通過(guò)多種途徑上傳到運(yùn)營(yíng)商的服務(wù)器,使用時(shí)只需要撥通縮位特服號(hào)碼后直接說(shuō)出要找的人名,系統(tǒng)就會(huì)自動(dòng)幫你接通電話。使用過(guò)程中,用戶還可隨時(shí)用語(yǔ)音方式添加或修改個(gè)人電話簿。
“客戶關(guān)懷”實(shí)際上是Nuance公司的一個(gè)語(yǔ)音識(shí)別解決方案的名稱,通過(guò)為企業(yè)定制這一方案,越來(lái)越多的企業(yè)在其客服中開(kāi)始采用語(yǔ)音識(shí)別技術(shù)。
技術(shù)為王。百度與微軟雙雄鼎立
去年10月中旬,微軟人工智能與研究部門(mén)的一個(gè)研究者和工程師團(tuán)隊(duì)報(bào)告出他們的語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)了和專業(yè)速錄員相同甚至更低的誤字率(word error rate,簡(jiǎn)稱WER),降到了5.9%,而一個(gè)月前這一數(shù)字還是6.3%。微軟首席語(yǔ)音工程師黃學(xué)東表示,“我們已經(jīng)達(dá)到了人類水平,這是一項(xiàng)歷史性的成就?!?/p>
有意思的是,百度首席科學(xué)家吳恩達(dá)(Andrew Ng)立即在Twitter上表示祝賀,并毫不掩飾地?cái)[出了百度的戰(zhàn)績(jī),“在2015年我們就超越了人類水平的漢語(yǔ)識(shí)別;很高興看到微軟在不到一年之后讓英語(yǔ)也達(dá)到了這一步?!睍r(shí)隔一年,百度和微軟兩大人工智能科技巨頭先后分別在漢語(yǔ)和英語(yǔ)語(yǔ)音識(shí)別研究方面取得了超越人類的成果,轟動(dòng)業(yè)界。
近年來(lái),隨著數(shù)據(jù)量的豐富和計(jì)算能力的提升,語(yǔ)音識(shí)別行業(yè)迅速崛起。據(jù)統(tǒng)計(jì),僅美國(guó)至少就有26家公司在開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù)。
2015年之前,Nuance是當(dāng)之無(wú)愧的全球語(yǔ)音領(lǐng)域老大。隨著Google、微軟和蘋(píng)果都選擇自己建立團(tuán)隊(duì)開(kāi)發(fā)語(yǔ)音業(yè)務(wù),在此之后,Nuance的市場(chǎng)份額節(jié)節(jié)下跌,2014年還高達(dá)60%的市場(chǎng)份額,一年過(guò)去只剩下31.1%。相比之下,Google語(yǔ)音識(shí)別的市場(chǎng)份額增長(zhǎng)明顯,逐漸占據(jù)了英語(yǔ)領(lǐng)域的主導(dǎo)權(quán)。
盡管Google、微軟和蘋(píng)果這些巨頭在語(yǔ)音識(shí)別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢(shì)讓后來(lái)者似乎難望其項(xiàng)背,但因?yàn)橐恍┱吆褪袌?chǎng)方面的原因,這些巨頭的語(yǔ)音識(shí)別主要偏向于英語(yǔ),這給中國(guó)互聯(lián)網(wǎng)企業(yè)在中文領(lǐng)域崛起提供了機(jī)會(huì),百度就是其中的佼佼者。百度收集了大量中文(尤其是普通話)的音頻數(shù)據(jù),這給其Deep Speech 2技術(shù)成果提供了基本的數(shù)據(jù)優(yōu)勢(shì)。
事實(shí)上,在當(dāng)前的發(fā)展脈絡(luò)下,語(yǔ)音識(shí)別的準(zhǔn)確率和通用性的本質(zhì)就在于三個(gè)方面:數(shù)據(jù)量的多少、算法的優(yōu)劣和計(jì)算能力的水平。在這三個(gè)方面的比拼中,互聯(lián)網(wǎng)巨頭擁有很大的優(yōu)勢(shì),因?yàn)樗鼈儞碛凶疃嗟臄?shù)據(jù),最頂級(jí)的人才以及最強(qiáng)大的計(jì)算能力水平。所以當(dāng)Google開(kāi)放語(yǔ)音識(shí)別API后,在英語(yǔ)語(yǔ)音識(shí)別的市場(chǎng)中,Google比Nuance有更大的優(yōu)勢(shì)。而在中文市場(chǎng)中,百度也扮演著和Google在英語(yǔ)市場(chǎng)相似的角色,甚至更為出色。
2015年12月,在Deep Speech 2首次時(shí),吳恩達(dá)稱其識(shí)別精度已經(jīng)超越了Google Speech API、wit.ai、微軟的Bing Speech以及蘋(píng)果的Dictation至少10個(gè)百分點(diǎn)。2016年2月,百度表示Deep Speech 2的短語(yǔ)識(shí)別誤字率已經(jīng)降到了3.7%。
群雄逐鹿,中文領(lǐng)域的生死戰(zhàn)
毫無(wú)疑問(wèn),微軟和百度的語(yǔ)音識(shí)別技術(shù)水平都很驚人,但一項(xiàng)技術(shù)終究要變成產(chǎn)品和服務(wù)才能實(shí)現(xiàn)價(jià)值,所以在英語(yǔ)語(yǔ)音識(shí)別市場(chǎng)占據(jù)主導(dǎo)地位的是Google而非微軟。在中文語(yǔ)音識(shí)別市場(chǎng),這方面做得最好的公司莫過(guò)于科大訊飛。
Google是最早在全球范圍內(nèi)大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)的公司,而科大訊飛是中國(guó)第一個(gè)在商用系統(tǒng)里使用深度神經(jīng)網(wǎng)絡(luò)的公司。2010年,科大訊飛率先將語(yǔ)音輸入功能引入到了手機(jī)當(dāng)中,截至2016年6月,《訊飛輸入法》已經(jīng)擁有3.6億用戶,活躍用戶更是超過(guò)1億人,其中,語(yǔ)音用戶滲透率高達(dá)59%。在國(guó)內(nèi)語(yǔ)音行業(yè),科大訊飛已是不折不扣的龍頭企業(yè)。而不久之前,《訊飛輸入法》還因在錘子手機(jī)會(huì)上的驚艷表現(xiàn)備受關(guān)注。
在2016年10月18日晚上的錘子手機(jī)會(huì)上,羅永浩現(xiàn)場(chǎng)展示了科大訊飛97%正確率的語(yǔ)音輸入。一夜之間,科大訊飛幾乎成了所有科技媒體人所討論的話題和關(guān)注的焦點(diǎn)。其實(shí),除了錘子手機(jī)的Smartisan OS之外,華為、小米和魅族等廠商的語(yǔ)音服務(wù)或者輸入法都在使用或曾經(jīng)使用過(guò)科大訊飛的技術(shù)。據(jù)悉,在未來(lái)的三年中,科技巨頭英特爾也將與科大訊飛合作,一起研究機(jī)器學(xué)習(xí)和深度學(xué)習(xí)項(xiàng)目。
除了科大訊飛,國(guó)內(nèi)在語(yǔ)音識(shí)別領(lǐng)域有所建樹(shù)的大公司還有不少。在2016年4月中旬舉行的“云棲大會(huì)南京峰會(huì)”上,阿里云總裁胡曉明率先進(jìn)行演講,阿里云的“小Ai”機(jī)器人全程對(duì)胡曉明的語(yǔ)音進(jìn)行了實(shí)時(shí)翻譯文字,這也是阿里巴巴第一次對(duì)外公布阿里云人工智能的能力。其實(shí),這并非“小Ai”首次展示自己的速記能力。在阿里云2016年年會(huì)上,“小Ai”曾打敗了世界中文速記大賽亞軍。阿里云人工智能技術(shù)專家陳一寧透露,“在阿里云大數(shù)據(jù)平臺(tái)數(shù)加上,智能語(yǔ)音交互產(chǎn)品就是采用的“小Ai”的技術(shù)。目前,阿里云還在探討同各類直播平臺(tái)的合作,以后所有的直播都能具備實(shí)時(shí)加字幕功能。
除了阿里云,搜狗也是國(guó)內(nèi)語(yǔ)音識(shí)別領(lǐng)域不容忽略的一方諸侯。在去年11月中旬舉行的第三屆世界互聯(lián)網(wǎng)大會(huì)上,搜狗CEO王小川首秀搜狗“黑科技”――機(jī)器同傳,展示了實(shí)時(shí)機(jī)器翻譯技術(shù),將演講嘉賓的中文講話實(shí)時(shí)語(yǔ)音識(shí)別并同步翻譯為英文上屏顯示,引起轟動(dòng)。這是全球首次基于神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)機(jī)器翻譯技術(shù)在大型活動(dòng)上的展示,效果可靠、準(zhǔn)確率已接近人類同傳翻譯結(jié)果。而在近期人工評(píng)測(cè)中,搜狗機(jī)器翻譯在演講、旅游、閑聊和日??谡Z(yǔ)等領(lǐng)域,采用5分制人工評(píng)分能達(dá)到4.4分,走向?qū)嵱没D壳?,搜狗語(yǔ)音識(shí)別準(zhǔn)確率已超過(guò)97%,識(shí)別速度達(dá)到了400字每分鐘。
除了科大訊飛、阿里云和搜狗等互聯(lián)網(wǎng)大佬,國(guó)內(nèi)還有不少專注自然語(yǔ)言處理技術(shù)的創(chuàng)業(yè)公司,如云知聲和思必馳等。云知聲CEO黃偉表示,云知聲的識(shí)別準(zhǔn)確率已經(jīng)能達(dá)到97%,屬于業(yè)內(nèi)一流水平。相比之下,思必馳做的是語(yǔ)音對(duì)話交互技術(shù)的整體解決方案,而不是單純的語(yǔ)音識(shí)別解決方案。因此在場(chǎng)景應(yīng)用中,思必馳的系統(tǒng)和科大訊飛的系統(tǒng)多有比較,可相互媲美。
毫無(wú)疑問(wèn),面對(duì)擁有領(lǐng)先優(yōu)勢(shì)的科大訊飛,以及阿里云和搜狗等實(shí)力雄厚的互聯(lián)網(wǎng)大佬,還有云知聲和思必馳這類不容小覷的創(chuàng)業(yè)公司,百度雖然擁有做人的技術(shù)和財(cái)力,但想在中文語(yǔ)音識(shí)別領(lǐng)域獨(dú)霸江湖仍有不小的難度。未來(lái)難測(cè),深挖場(chǎng)景是必經(jīng)路
未來(lái)5年,語(yǔ)音市場(chǎng)將顯著增長(zhǎng),到2020年,全球語(yǔ)音市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到191.7億美元。語(yǔ)音識(shí)別之所以潛力巨大,很大程度上源于它是最便捷的人機(jī)交互方式,也是人工智能的重要入口。近年來(lái),國(guó)內(nèi)外互聯(lián)網(wǎng)巨頭們都在發(fā)力人工智能,雖然各自的側(cè)重點(diǎn)不同,但都極為倚靠語(yǔ)音識(shí)別技術(shù)。畢竟,語(yǔ)音輸入本身只是一個(gè)途徑,它最終仍然要和實(shí)際操作相結(jié)合。
語(yǔ)音識(shí)別技術(shù)要在現(xiàn)實(shí)生活中落地,必須與場(chǎng)景結(jié)合,這需要吸納來(lái)自各種場(chǎng)景的數(shù)據(jù)去訓(xùn)練語(yǔ)音技術(shù),讓其更加智能化。這也是為什么“微軟小冰”每周都要上線新功能,努力刺激用戶貢獻(xiàn)更多聊天數(shù)據(jù),而科大訊飛則不斷擴(kuò)大包括長(zhǎng)虹等智能電視在內(nèi)的合作名單,吸納來(lái)自入口級(jí)硬件的數(shù)據(jù)。數(shù)據(jù)顯示,與訊飛人工智能連接的應(yīng)用,日均訪問(wèn)量為30億次。
與科大訊飛相比,百度在海量用戶數(shù)據(jù)和人工智能技術(shù)上的優(yōu)勢(shì),能讓他們迅速發(fā)展出優(yōu)秀的語(yǔ)音智能。從這個(gè)角度來(lái)說(shuō),百度的發(fā)展道路比科大訊飛更寬。在百度生態(tài)內(nèi)部,目前語(yǔ)音技術(shù)的落地滲透在《百度地圖》、《手機(jī)百度》和《百度輸入法》等產(chǎn)品中。而在外部,截至2016年年中,使用百度語(yǔ)音技術(shù)的APP數(shù)量超過(guò)8萬(wàn)款,大型合作廠商包括中興、魅族和聯(lián)想等。百度語(yǔ)音如今能獲取的數(shù)據(jù)規(guī)模非常龐大,據(jù)吳恩達(dá)透露,在線識(shí)別請(qǐng)求量2016年每天達(dá)到1.4億次,在線語(yǔ)音合成請(qǐng)求量則達(dá)到2億次。
除依靠產(chǎn)品收集用戶數(shù)據(jù)之外,各大廠商還在積極與數(shù)據(jù)資源商合作,以更快捷地獲得龐大的數(shù)據(jù)支撐。隨著這些數(shù)據(jù)的輸入,每分每秒,人工智能的模型會(huì)迅速迭代和升級(jí),就像Google的AlphaGo在每一場(chǎng)棋局的每一步對(duì)決中都在學(xué)習(xí)。
作為底層技術(shù),語(yǔ)音識(shí)別未來(lái)的發(fā)揮空間極大,將廣泛出現(xiàn)在手機(jī)、智能家居、醫(yī)療、教育和司法等各種場(chǎng)景。當(dāng)然,這還有很長(zhǎng)的一段路要走,想要在這條路上脫穎而出的公司,―方面要面對(duì)同行的生死競(jìng)爭(zhēng),另―方面還需努力解決語(yǔ)音識(shí)別技術(shù)仍然存在的一些瓶頸。
關(guān)鍵詞:語(yǔ)音識(shí)別;LD3320;STM32F407;W25Q128
隨著科技的發(fā)展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現(xiàn)在的語(yǔ)音操作,其越來(lái)越便捷,越來(lái)越人性化。語(yǔ)音操作的基礎(chǔ)就是語(yǔ)音識(shí)別技術(shù)(Automatic Speech Recognition),簡(jiǎn)稱ASR,其目標(biāo)就將人類語(yǔ)言轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。語(yǔ)音識(shí)別作為一門(mén)交叉學(xué)科,從產(chǎn)生到現(xiàn)在已取得了顯著的進(jìn)步,現(xiàn)在已逐步走向市場(chǎng),并且人們預(yù)計(jì),語(yǔ)音識(shí)別技術(shù)在未來(lái)10年將會(huì)應(yīng)用于人們生活的各個(gè)領(lǐng)域。
根據(jù)發(fā)音人的不同,語(yǔ)音識(shí)別技術(shù)可分為特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別兩類,前者只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音,而后者則能被任何人使用。本文設(shè)計(jì)的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語(yǔ)音識(shí)別芯片,并配以存儲(chǔ)空間為16M字節(jié)的W25Q128芯片,能夠?qū)崿F(xiàn)2000個(gè)場(chǎng)景共計(jì)識(shí)別句100000條的語(yǔ)音識(shí)別操作。
1 系統(tǒng)整體結(jié)構(gòu)
如圖1所示,整個(gè)系統(tǒng)主要是由STM32F407處理器、LD3320語(yǔ)音識(shí)別芯片以及W25Q128Flash芯片構(gòu)成。其中STM32F407處理器用于切換場(chǎng)景和場(chǎng)景關(guān)鍵詞更改;LD3320語(yǔ)音識(shí)別芯片用于語(yǔ)音識(shí)別,W25Q128Flash芯片用于存識(shí)別句,兩種都是通過(guò)SPI總線與處理器相連。整套系統(tǒng)與外部其他系統(tǒng)則是通過(guò)串口進(jìn)行通信。
2 系統(tǒng)硬件介紹及存儲(chǔ)空間設(shè)計(jì)
2.1 系統(tǒng)硬件介紹
2.1.1 STM32F407ZGT6處理器
STM32F407ZGT6采用Cortex_M4內(nèi)核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個(gè)SPI、6個(gè)串口等。基于其強(qiáng)大的配置,所以本系統(tǒng)的處理器選用該芯片。
2.1.2 LD3320語(yǔ)音識(shí)別模塊
LD3320語(yǔ)音識(shí)別模塊是ICRoute公司的一款產(chǎn)品,其特有的快速而穩(wěn)定的優(yōu)化算法,能夠完成非特定人語(yǔ)音識(shí)別,識(shí)別準(zhǔn)確率高達(dá)95%。該模塊每次最多可以設(shè)置50條候選識(shí)別詞或識(shí)別句,只要單個(gè)詞或句長(zhǎng)度不超過(guò)10個(gè)漢字和79字節(jié)的拼音串,同時(shí)我們可以對(duì)識(shí)別內(nèi)容動(dòng)態(tài)編輯。模塊的通訊方式有并行和串行兩種,根據(jù)需求的不同可以選擇不同的通訊方式。除了語(yǔ)音識(shí)別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數(shù)據(jù)依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。
2.1.3 W25Q128Flash芯片
W25Q128是華邦公司推出的大容量SPIFLASH產(chǎn)品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個(gè)扇區(qū),每個(gè)扇區(qū)4KB。由于W25Q128的最小擦除單位為一扇區(qū),也就是說(shuō)每次擦除4KB。
2.2 存儲(chǔ)空間設(shè)計(jì)
由于W25Q128芯片每次擦除的單位為4KB,而每句識(shí)別語(yǔ)句至少有80字節(jié),一個(gè)場(chǎng)景有50句識(shí)別語(yǔ)句,所以一個(gè)扇區(qū)用于一個(gè)場(chǎng)景是不夠的,因此我們將兩個(gè)扇區(qū)劃為一個(gè)場(chǎng)景;圖2是單個(gè)場(chǎng)景數(shù)據(jù)存儲(chǔ)關(guān)系圖,圖中每個(gè)場(chǎng)景占8192字節(jié),每條識(shí)別語(yǔ)句占100個(gè)字節(jié),其中第一個(gè)字節(jié)為識(shí)別語(yǔ)句編號(hào),范圍為1-50;單個(gè)場(chǎng)景的第一個(gè)扇區(qū)可以存儲(chǔ)40條識(shí)別語(yǔ)句,第二個(gè)扇區(qū)可以存儲(chǔ)10條識(shí)別語(yǔ)句,其中第4000B-4096B和5096B-8190B保留,不存儲(chǔ)數(shù)據(jù),整個(gè)場(chǎng)景的最后兩個(gè)字節(jié)用于存儲(chǔ)場(chǎng)景編號(hào),范圍為1-2000。W25Q128共有4096個(gè)扇區(qū),理論上可以劃分2048個(gè)場(chǎng)景,但是我們只劃分2000個(gè)場(chǎng)景,也就是4000個(gè)扇區(qū);還剩下96個(gè)扇區(qū),剩下的第1-50扇區(qū)用于存放每個(gè)場(chǎng)景的相關(guān)信息,計(jì)算可以得到每個(gè)場(chǎng)景有1KB的存儲(chǔ)空間,然后我們將最后一個(gè)扇區(qū)的最后兩個(gè)字節(jié)存儲(chǔ)現(xiàn)在所在場(chǎng)景編號(hào),剩下的空間保留。
3 系統(tǒng)軟件設(shè)計(jì)
3.1 通訊協(xié)議格式設(shè)置
整個(gè)系統(tǒng)主要具有場(chǎng)景切換和場(chǎng)景識(shí)別語(yǔ)句存取功能,表1是部分對(duì)應(yīng)協(xié)議格式。
3.2 初始化函數(shù)及操作函數(shù)介紹
STM32處理器與其他各個(gè)模塊建立通信連接,除了連接好對(duì)應(yīng)IO口后,還需要對(duì)各個(gè)IO進(jìn)行初始化,這樣才能進(jìn)行數(shù)據(jù)的收發(fā),以下是主函數(shù)中相關(guān)初始化函數(shù):
NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設(shè)置系統(tǒng)中斷優(yōu)先級(jí)分組
delay_init(168); //初始化延時(shí)函數(shù)
LED_Init();//指示燈初始化
KEY_Init();//按鍵初始化
IWDOG_Init();//看門(mén)狗初始化
USART1_Init(9600);//初始化串口1
W25QXX_Init();//W25Q128初始化
LD3320_Init();//LD3320初始化
while(W25QXX_ReadID()!=W25Q128) //檢測(cè)是否存在W25Q128
{
LED0=!LED0; //如果檢測(cè)不到W25Q128指示燈1會(huì)不停閃爍
}
關(guān)鍵詞:智能;語(yǔ)音遙控系統(tǒng);語(yǔ)音識(shí)別
所謂語(yǔ)音識(shí)別技術(shù)指的是設(shè)備經(jīng)過(guò)識(shí)別過(guò)程以及理解環(huán)節(jié)將用戶聲音信號(hào)轉(zhuǎn)換成對(duì)應(yīng)的命令信號(hào)或是文本信息的一類高新技術(shù)[1]。近年來(lái),語(yǔ)音識(shí)別不斷被運(yùn)用在科研領(lǐng)域事業(yè),使得語(yǔ)音識(shí)別技術(shù)不斷得到完善、成熟,而語(yǔ)音識(shí)別技術(shù)在日常生活中的應(yīng)用具有很大的發(fā)展空間,為人們的日常工作、生活提供了很大的便利。
1 語(yǔ)音系統(tǒng)工作原理簡(jiǎn)單介紹
系統(tǒng)通過(guò)向使用者提供一定的語(yǔ)音命令學(xué)習(xí)以及識(shí)別功能,使用者事先針對(duì)家電設(shè)備的遙控語(yǔ)音信號(hào)以及紅外或RF無(wú)線信號(hào)完成配對(duì)學(xué)習(xí)以及存儲(chǔ)操作??刂婆_(tái)在進(jìn)行運(yùn)作中,語(yǔ)音系統(tǒng)利用輸入進(jìn)來(lái)的語(yǔ)音信號(hào)來(lái)完成命令識(shí)別,按照識(shí)別所得結(jié)果來(lái)進(jìn)行動(dòng)作查找,查找位置為內(nèi)部結(jié)構(gòu)的動(dòng)作庫(kù),然后通過(guò)指定的紅外或RF無(wú)線信號(hào)輸出通道輸出配對(duì)精確的控制信號(hào),再對(duì)各種家電設(shè)備實(shí)行遙控,從而實(shí)現(xiàn)語(yǔ)音系統(tǒng)控制臺(tái)的功能作用。
2 語(yǔ)音識(shí)別系統(tǒng)中簡(jiǎn)單命令菜單分析
這個(gè)命令菜單主要包括:讀取命令、刪除命令以及添加命令三個(gè)不同內(nèi)容。使用者可以按照實(shí)際需要來(lái)選擇命令,其中Cancel鍵可以返回上級(jí)菜單命令,現(xiàn)主要分析刪除和添加命令。
2.1 分析刪除命令
這個(gè)命令的操作較簡(jiǎn)單,使用者需要將待刪除命令的相關(guān)口令輸入進(jìn)去并按下OK鍵就能完成。這一過(guò)程中若系統(tǒng)尋找到對(duì)應(yīng)的命令內(nèi)容就會(huì)出現(xiàn)“刪除成功”提示,否則系統(tǒng)就會(huì)提示“刪除失敗”信息。
2.2 分析添加命令
首先實(shí)現(xiàn)一個(gè)新命令的添加操作包括:口令錄入以及紅外線信號(hào)錄入。使用者可以通過(guò)麥克風(fēng)設(shè)備進(jìn)行多次口令錄入操作,而系統(tǒng)會(huì)顯示已經(jīng)完成錄入的口令內(nèi)容,例如:關(guān)閉空調(diào)、開(kāi)空調(diào)等。除此之外,使用者也應(yīng)使該遙控系統(tǒng)記錄好與該口令內(nèi)容相對(duì)的紅外線信號(hào),在紅外線遙控器中按下關(guān)閉按鈕。完成這兩個(gè)操作內(nèi)容,新命令內(nèi)容就添加成功完成了。
3 語(yǔ)音識(shí)別系統(tǒng)中的關(guān)鍵技術(shù)介紹
3.1 語(yǔ)音識(shí)別技術(shù)
整個(gè)系統(tǒng)結(jié)構(gòu)的核心內(nèi)容是語(yǔ)音識(shí)別技術(shù),大部分系統(tǒng)功能均可以通過(guò)語(yǔ)音識(shí)別系統(tǒng)來(lái)幫助推動(dòng)各系統(tǒng)運(yùn)作[2]。而語(yǔ)音識(shí)別模塊設(shè)計(jì)質(zhì)量以及運(yùn)行有效性會(huì)對(duì)整個(gè)系統(tǒng)功能運(yùn)行情況產(chǎn)生重要影響。該系統(tǒng)設(shè)計(jì)工作包括很多學(xué)科內(nèi)容以及很多技術(shù)難點(diǎn),并且一個(gè)企業(yè)在短期內(nèi)自行投入資金研究語(yǔ)音識(shí)別相關(guān)技術(shù)算法要花費(fèi)很多費(fèi)用,這種做法不現(xiàn)實(shí)。可以在已有語(yǔ)音識(shí)別系統(tǒng)基礎(chǔ)上,采用該系統(tǒng)的API來(lái)實(shí)現(xiàn)系統(tǒng)功能。在進(jìn)行研發(fā)過(guò)程中,可以選用SAPI15.0來(lái)充當(dāng)技術(shù)研發(fā)平臺(tái)。其中,SAPISDK產(chǎn)品是微軟公司開(kāi)發(fā)的一個(gè)語(yǔ)音應(yīng)用方面的開(kāi)發(fā)工具包,該工具包中包括有SAPI、語(yǔ)音合成引擎以及語(yǔ)音識(shí)別引擎等。而SAPI內(nèi)容中含有訓(xùn)練導(dǎo)向、語(yǔ)音識(shí)別管理、資源以及語(yǔ)法編譯等設(shè)計(jì)接口。
其中,語(yǔ)音引擎可以通過(guò)SAPI和DDI層實(shí)現(xiàn)交互工作,而應(yīng)用程序可以通過(guò)這兩個(gè)接口來(lái)實(shí)現(xiàn)通信。熟悉使用API,可以使設(shè)計(jì)者更好、更快的實(shí)現(xiàn)語(yǔ)音識(shí)別應(yīng)用系統(tǒng)。為了提高系統(tǒng)底層結(jié)構(gòu)能力,可以在系統(tǒng)中增加命令列表識(shí)別以及語(yǔ)音模糊化功能。前者是采用SAPIA所具有的語(yǔ)法構(gòu)造能力,而構(gòu)造僅會(huì)識(shí)別特定命令列表內(nèi)容的一種識(shí)別設(shè)備。其中語(yǔ)音模糊化是通過(guò)采用某一個(gè)算法程序把一個(gè)精確的漢子變化為一個(gè)讀音信息從而實(shí)現(xiàn)模糊匹配。
3.2 2.4G無(wú)線通信技術(shù)
隨著無(wú)線通信技術(shù)的發(fā)展,2.4G無(wú)線通信技術(shù)日益受到重視和使用,原因有三:首先它是一個(gè)全球性的頻段,開(kāi)發(fā)的產(chǎn)品具有全球通用性;其次,它整體的頻寬勝于其他ISM頻段,這就提高了整體數(shù)據(jù)傳輸速率,允許系統(tǒng)共存;第三就是產(chǎn)品尺寸,2.4GHz通信芯片和天線的體積相當(dāng)小。
2.4G無(wú)線技術(shù)采用全雙工模式傳輸,傳送速率高達(dá)2 Mbps,抗干擾性能比之前的315、433、868、915MHz有絕對(duì)的優(yōu)勢(shì);對(duì)于較大容量的數(shù)據(jù)傳輸更具吸引力,如雙向語(yǔ)音傳輸、光標(biāo)控制、游戲手柄等功能。
2.4G無(wú)線通信技術(shù)中常用的芯片有挪威Nordic公司的nRF24LE1無(wú)線芯片模組、以色列RFWave公司的RFW102無(wú)線芯片模組等。例如根據(jù)設(shè)計(jì)需求、性能及成本估算,可以采用nRF24LE1和nRF24LU1+作為處理主芯片進(jìn)行數(shù)據(jù)傳輸。nRF24LE1用作每個(gè)節(jié)點(diǎn)的收發(fā)主控芯片,其內(nèi)部有增強(qiáng)型的8051 MCU和內(nèi)嵌2.4G低功耗無(wú)線收發(fā)內(nèi)核nRF24L01P兩個(gè)部分,傳輸速率最高達(dá)到2 Mbps,保證大容量數(shù)據(jù)的無(wú)線快速傳輸。MCU和無(wú)線收發(fā)內(nèi)核之間通過(guò)SPI接口進(jìn)行通信。
4 結(jié)語(yǔ)
綜上所述,智能家庭語(yǔ)音識(shí)別系統(tǒng)在日常應(yīng)用過(guò)程中不僅方便,而且其軟硬件還具有較大范圍的擴(kuò)張作用。其中搜索引擎與系統(tǒng)相互結(jié)合能具備一個(gè)功能強(qiáng)大的語(yǔ)音搜索功能。若能深入識(shí)別該系統(tǒng)的加密功能,然后對(duì)各命令內(nèi)容實(shí)現(xiàn)安全等級(jí)劃分,例如幫助禁止一些特定命令內(nèi)容的使用,幫助識(shí)別兒童的聲音,防止兒童啟動(dòng)電氣設(shè)備等。該系統(tǒng)中還可以在硬件設(shè)備上進(jìn)行擴(kuò)展,比如:通過(guò)語(yǔ)音來(lái)幫助控制門(mén)的開(kāi)關(guān)以及窗簾的伸展和拉緊。
[參考文獻(xiàn)]
語(yǔ)音識(shí)別技術(shù)成為21世紀(jì)“數(shù)字時(shí)代”的重要開(kāi)發(fā)領(lǐng)域,在計(jì)算機(jī)的多媒體技術(shù)應(yīng)用和工業(yè)自動(dòng)化控制應(yīng)用等方面,成果令人屬目。語(yǔ)音識(shí)別技術(shù)是指用電子裝置來(lái)識(shí)別某些人的某些特征語(yǔ)音,語(yǔ)音識(shí)別的手段一般分為二大類,一類利用在計(jì)算機(jī)上開(kāi)發(fā)語(yǔ)音識(shí)別系統(tǒng),通過(guò)編程軟件達(dá)到對(duì)語(yǔ)音的識(shí)別,另一類采用專門(mén)的語(yǔ)音識(shí)別芯片來(lái)進(jìn)行簡(jiǎn)單的語(yǔ)音識(shí)別。利用專門(mén)的語(yǔ)音識(shí)別芯片應(yīng)用在地鐵車輛上,具有結(jié)構(gòu)簡(jiǎn)單、使用方便,并且語(yǔ)音識(shí)別器有較高的可靠性、穩(wěn)定性的特點(diǎn),是簡(jiǎn)單語(yǔ)音識(shí)別在自動(dòng)控制應(yīng)用上的一種優(yōu)先方案。
目前上海地鐵一、二、三、五、六、八號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上缺少實(shí)用性和操作性,對(duì)乘客來(lái)講缺少在實(shí)時(shí)報(bào)站時(shí)的人性化。如:地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng)。如果在每個(gè)車門(mén)的上方安裝車站站名動(dòng)態(tài)顯示地圖,實(shí)時(shí)顯示與車廂廣播同步的信息,以及在每節(jié)車廂外側(cè)顯示列車的終點(diǎn)站,良好的工業(yè)設(shè)計(jì)不僅能給廣大的乘客帶來(lái)非常大的幫助,而且能夠提升上海地鐵服務(wù)的形象。由于在設(shè)計(jì)以上地鐵列車時(shí),受科技發(fā)展的限制?,F(xiàn)在上海地鐵4號(hào)線在車輛信息顯示系統(tǒng)的設(shè)計(jì)上滿足了廣大的乘客的需求,
增加了車站站名動(dòng)態(tài)顯示地圖。
如何在現(xiàn)有的地鐵車輛上增加地鐵車廂內(nèi)的乘客信息顯示系統(tǒng)和車廂外側(cè)的列車信息顯示系統(tǒng),如圖1、2,首先考慮其實(shí)用性和性價(jià)比,同時(shí)安裝、操作要方便,在不影響列車的性能的前提下,完成本乘客信息顯示系統(tǒng)的應(yīng)用,設(shè)計(jì)方案的選擇極其重要,目前的乘客信息顯示系統(tǒng)比較復(fù)雜,例如:對(duì)于應(yīng)用在某條線路上的聲音識(shí)別系統(tǒng),不僅要修改原語(yǔ)音文件,而且聲音識(shí)別器不容易操縱,
對(duì)使用者來(lái)講仍然存在比較多的問(wèn)題。對(duì)于應(yīng)用在某條線路上數(shù)字傳輸顯示系統(tǒng),其操作方法不僅給司機(jī)帶來(lái)了任務(wù),每站需要手動(dòng)操作二次,同時(shí)顯示的相關(guān)內(nèi)容沒(méi)有實(shí)時(shí)性,總之乘客信息顯示系統(tǒng)比較落后。
設(shè)計(jì)一種符合現(xiàn)代化要求的乘客信息顯示系統(tǒng)是非常必要。
2.設(shè)計(jì)
地鐵車輛乘客信息顯示系統(tǒng)的設(shè)計(jì),采用CMOS語(yǔ)音識(shí)別大規(guī)模集成電路,識(shí)別響應(yīng)時(shí)間小于300 ms。HM2007芯片采用單片結(jié)構(gòu),如圖3。將語(yǔ)音識(shí)別需要的全部電路:CPU、A/D、ROM、語(yǔ)音的AMP放大器、壓縮器、濾波器、震蕩器和接口界面等集中在一片芯片內(nèi),這樣外圍電路就非常少,外接64K非易失性SRAM,最多能識(shí)別40個(gè)車站站名語(yǔ)音(字長(zhǎng)0.9秒),或(字長(zhǎng)1.92秒)但識(shí)別僅20個(gè)車站站名語(yǔ)音。按正常人的講話速度,0.9秒一般每秒吐字1到3個(gè)為宜。
針對(duì)目前上海地鐵列車在車廂內(nèi)外無(wú)LED動(dòng)態(tài)站名顯示而設(shè)計(jì),通過(guò)將列車車廂廣播的模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),自動(dòng)控制LED發(fā)光二極管,在列車在車廂內(nèi)使得廣播的內(nèi)容(每個(gè)車站站名)與發(fā)光二極管顯示面板聲光同步,將顯示面板放置地鐵車輛的每扇車門(mén)上方,并且顯示面板以地鐵運(yùn)營(yíng)線路為背景,達(dá)到列車進(jìn)站和出站時(shí)能分別指示。在列車車廂外讓乘客非常直觀地、一目了然地了解車輛的終點(diǎn)站方向,從而方便乘客的上下車,提高了地鐵服務(wù)水平。在國(guó)外的地鐵列車上應(yīng)用已相當(dāng)普遍。
語(yǔ)音識(shí)別顯示器①的輸入端與車載廣播功放器相連接,實(shí)現(xiàn)廣播模擬信號(hào)發(fā)出的語(yǔ)音進(jìn)行車站名的自動(dòng)識(shí)別。不需要編程技術(shù)和修改文件等方法,全部采用硬件方法設(shè)計(jì)。整個(gè)系統(tǒng)分為5部分:(1)輸入控制部分;(2)噪音濾波部分;(3)語(yǔ)言識(shí)別部分;(4)執(zhí)行顯示部分;(5)錄音功能部分。
(1)輸入控制部分:
通過(guò)麥克風(fēng)或(結(jié)合器)連接,如圖4所示,要求模擬語(yǔ)音輸入點(diǎn)的電壓必須控制在大約20mv左右,以確保后期語(yǔ)音識(shí)別的正確性。在輸入電路中增加了聲音控制部分的電路,即將模擬信號(hào)轉(zhuǎn)變成數(shù)字方波信號(hào),對(duì)語(yǔ)音輸入進(jìn)行開(kāi)關(guān)量的控制,確保在T
(2)語(yǔ)音識(shí)別部分:
利用語(yǔ)音識(shí)別芯片HM2007和外接6264SRAM存儲(chǔ)器組成為主要部分,(HM2007中ROM已經(jīng)固化了語(yǔ)音語(yǔ)法技術(shù))對(duì)語(yǔ)音的存儲(chǔ)及語(yǔ)音語(yǔ)法算法進(jìn)行控制。HM2007的詳細(xì)內(nèi)容見(jiàn)產(chǎn)品說(shuō)明書(shū)。
(3)噪音濾波部分:
濾波功能是自動(dòng)識(shí)別(阻擋)我們?cè)谠O(shè)計(jì)階段設(shè)計(jì)好的各個(gè)工況的語(yǔ)音情況,例如:司機(jī)的講話及車輛雜音等(在麥克風(fēng)的工況下),以確保輸入語(yǔ)音的可靠性、穩(wěn)定性,特采用UM3758串行編譯碼一體化進(jìn)行濾波電路。如圖5。
(4)執(zhí)行顯示部分:
將車廂廣播喇叭的模擬信息通過(guò)語(yǔ)音識(shí)別器轉(zhuǎn)變成數(shù)字信息,最終經(jīng)過(guò)譯碼電路、4/16多路數(shù)據(jù)選擇器及RS485接口,去控制車廂內(nèi)車門(mén)上十個(gè)LED顯示面板,如圖6。
(5)錄音功能部分:
在進(jìn)行廣播內(nèi)容更改時(shí),本項(xiàng)目最大的特點(diǎn)是:不需要任何手段的手工軟件編程的修改,而是通過(guò)遠(yuǎn)程音頻電路控制技術(shù)進(jìn)行按動(dòng)相關(guān)按鈕,選擇地址然后自動(dòng)錄入內(nèi)容,如圖6。
3. 結(jié)論
語(yǔ)音識(shí)別器及LED顯示面板的設(shè)計(jì),能應(yīng)用到以前沒(méi)有LED顯示面功能的地鐵車輛上,與其他所設(shè)計(jì)的方式相比較,語(yǔ)音識(shí)別控制簡(jiǎn)單、可靠性好、安裝方便、相對(duì)投資最小和不改動(dòng)車廂內(nèi)任何電器為特點(diǎn),僅提供110VDC電源和音頻輸入接口。
本項(xiàng)目的開(kāi)發(fā)具有一定社會(huì)效益,得到國(guó)內(nèi)外乘客和殘疾人員的歡迎,提高了地鐵服務(wù)質(zhì)量。
參考文獻(xiàn):
1. HUALON MICRELECTRONICS CORPORATION TIWAN
PRODUCT NUMBER: HM2007
2. 555集成電路實(shí)用大全
上??萍计占俺霭嫔?/p>
3.①獲得“2003年上海市優(yōu)秀發(fā)明選拔賽三等獎(jiǎng)”
4.①編入《中國(guó)科技發(fā)展精典文庫(kù)》第四輯
關(guān)鍵詞:機(jī)器人;語(yǔ)音識(shí)別;端點(diǎn)檢測(cè);語(yǔ)音合成
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)30-7498-03
Intelligent Voice of the Robot Design and Implementation
GUAN Hong, ZHANG Shuai, LEI Hong-le
(Shandong University of Science and Technology, Qingdao 266510, China)
Abstract: Introduces the overall design of the intelligent voice robot, including hardware design and software design, this paper analyzes the methods of speech recognition, the process of speech recognition, and speech synthesis process, introduces the method of Endpoint detection of speech recognition ,and test results are given.
Key words: robot; speech recognition; endpoint detection; speech synthesis
語(yǔ)音識(shí)別技術(shù)是通過(guò)機(jī)器人的理解和識(shí)別將人類的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如文本或者命令,是一種多維模式識(shí)別和智能計(jì)算機(jī)接口的范疇。語(yǔ)音識(shí)別技術(shù)主要包括模式匹配準(zhǔn)則、特征提取技術(shù)、及模型訓(xùn)練技術(shù)3個(gè)方面,所涉及的領(lǐng)域很廣泛,包括模式識(shí)別、信號(hào)處理等。
讓機(jī)器人能夠聽(tīng)懂人類的語(yǔ)言并且能夠按照人的口頭命令行動(dòng),從而實(shí)現(xiàn)人際交往一直以來(lái)都是人類的夢(mèng)想,本文所研究的機(jī)器人語(yǔ)音識(shí)別,對(duì)于服務(wù)機(jī)器人的應(yīng)用領(lǐng)域具有重要的現(xiàn)實(shí)意義。
1 機(jī)器人整體設(shè)計(jì)
整個(gè)系統(tǒng)采用CPU作為核心控制,外加音頻輸入輸出模塊、視頻輸入輸出模塊、觸屏模塊、顯示模塊、電源模塊和電機(jī)驅(qū)動(dòng)模塊。
運(yùn)動(dòng)模塊主要由一系列電機(jī)驅(qū)動(dòng)器組成,通過(guò)CAN總線與CPU進(jìn)行通信,音頻模塊用來(lái)采集音頻信息,視頻模塊用來(lái)采集視頻圖像信息,觸屏模塊和顯示模塊為機(jī)器人提供了良好的人機(jī)交互方式。各個(gè)部分的相互關(guān)系如圖1所示。
1.1 機(jī)器人的硬件設(shè)計(jì)
機(jī)械動(dòng)作模塊(即硬件設(shè)計(jì))包括左右手、左右肘、左右肩、腰部、頭部的直流電機(jī)控制器,配合語(yǔ)音能夠完成“握手”、“再見(jiàn)”、“兩手自然交叉,放在腹前”等等正式的迎賓動(dòng)作及舞蹈表演,機(jī)械動(dòng)作模塊通過(guò)CAN總線通信模塊與主控器聯(lián)系。機(jī)械動(dòng)作模塊關(guān)系如圖2所示。
1.2 機(jī)器人的軟件設(shè)計(jì)
該機(jī)器人的實(shí)現(xiàn)其全部功能的過(guò)程就是整個(gè)軟件的實(shí)現(xiàn)過(guò)程,系統(tǒng)軟件設(shè)計(jì)的基本流程,如圖3。
2 語(yǔ)音識(shí)別和端點(diǎn)檢測(cè)的實(shí)現(xiàn)
語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),語(yǔ)音識(shí)別主要包括預(yù)處理、特征提取、模式匹配三個(gè)部分。語(yǔ)音識(shí)別系統(tǒng)中最基本的模塊就是語(yǔ)音端點(diǎn)檢測(cè),從一段語(yǔ)音信號(hào)中找出語(yǔ)音的終點(diǎn)和起點(diǎn),使得計(jì)算機(jī)只處理和保存有用的語(yǔ)音信號(hào)。
2.1 端點(diǎn)檢測(cè)
端點(diǎn)檢測(cè)(end-pointer detection)是將語(yǔ)音數(shù)據(jù)(speech)從背景噪聲中分離出來(lái)的一項(xiàng)技術(shù),主要應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域,可以很大程度地降低識(shí)別器的運(yùn)算量,從而能有效地提高識(shí)別效率以及識(shí)別效果。下面描述兩級(jí)判別法定義和檢測(cè)方法:
1)短時(shí)能量
語(yǔ)音端點(diǎn)檢測(cè)一般是按照幀進(jìn)行處理,每幀的長(zhǎng)度各不相等。每個(gè)語(yǔ)音幀的短時(shí)平均能量En為:
其中Wγ為幀長(zhǎng),Sw(n)為時(shí)刻n的加窗語(yǔ)音,但為了節(jié)約時(shí)間,減少計(jì)算量,而是采用每個(gè)點(diǎn)上幅度值的絕對(duì)值之和作為短時(shí)能量值:
。
2)短時(shí)平均過(guò)零率
每個(gè)語(yǔ)音幀的短時(shí)平均過(guò)零率Zn為:
,其中是符號(hào)函數(shù)。
3)兩級(jí)判別法
兩級(jí)判別法是利用語(yǔ)音的短時(shí)能量和平均過(guò)零率的性質(zhì)進(jìn)行的端口檢測(cè)的,其步驟可以歸結(jié)為:
A.定閾值
預(yù)先設(shè)定閾值Eh、El、Zth,其中Eh、El分別為高、低能量閾值,Zth為過(guò)零率閾值。由于采集的聲音信號(hào)中最初的短時(shí)段多為無(wú)聲或背景噪音,這樣就可以利用已知為“靜態(tài)”的最初幾幀信號(hào)計(jì)算其過(guò)零率閾值Zth以及高、低能量閾值Eh、El。
在計(jì)算Eh、El、Zth時(shí),每一幀的時(shí)間選取為20ms,并設(shè)定語(yǔ)音的前10幀為靜音階段,通過(guò)這10幀計(jì)算出Eh、El、Zth的值。
前10幀短時(shí)能量最高的幀的短時(shí)能量為Emax、最低的為Emin、平均能量為Z、前10幀的能量的方差為F。
B.尋找語(yǔ)音的起始點(diǎn)和終止點(diǎn)
首先用時(shí)平均幅值進(jìn)行第一次判別,然后在此基礎(chǔ)上用短時(shí)平均過(guò)零率進(jìn)行第二次判。在用短時(shí)能量進(jìn)行第一次判別時(shí),為了不會(huì)將語(yǔ)音能量的局部下降點(diǎn)錯(cuò)誤地作起止點(diǎn),常采用雙門(mén)限比較的方法。
圖5為平均幅值(能量)一過(guò)零率的端點(diǎn)檢測(cè)判決示意圖。首先根據(jù)語(yǔ)音時(shí)能量En的輪廓先取一個(gè)較高的門(mén)限Eh,語(yǔ)音短時(shí)能量大多數(shù)情況下都在此限之上。這樣可以進(jìn)行一次粗判:語(yǔ)音起止點(diǎn)位于該門(mén)限與短時(shí)能量包絡(luò)交點(diǎn)對(duì)應(yīng)的時(shí)間間隔之外(即AB段之外)。然后,根據(jù)背景噪聲的平均能量確定一較低的門(mén)限El,并從A點(diǎn)往左、B點(diǎn)往右搜索,分別找到短時(shí)能量包絡(luò)第一次門(mén)限El相交的兩個(gè)點(diǎn):c和D,CD段就是采用雙門(mén)限方法根據(jù)短時(shí)平均幅值所判定的語(yǔ)音段。以上只是完成了第一級(jí)判決。
接著要進(jìn)行第二級(jí)判決,這次是以短時(shí)平均過(guò)零率Zth。為標(biāo)準(zhǔn),從C點(diǎn)往左D點(diǎn)往右搜索,找到短時(shí)平均過(guò)零率第一次低于某個(gè)門(mén)限Zth點(diǎn):E和F,這便語(yǔ)音段的起始點(diǎn)。
C.檢測(cè)結(jié)果
圖6和圖5是對(duì)“你又去哪里”這句話的檢測(cè),分別是經(jīng)過(guò)語(yǔ)音端點(diǎn)檢測(cè)之后的語(yǔ)音示意圖和原始的語(yǔ)音示意圖。從上面兩個(gè)圖上可以看到:通過(guò)端點(diǎn)檢測(cè)之后的語(yǔ)音,除去了背景語(yǔ)音而且基本上完好的保留了真語(yǔ)音部分。
2.2 語(yǔ)音識(shí)別的開(kāi)發(fā)接口
本系統(tǒng)利用語(yǔ)音識(shí)別應(yīng)用開(kāi)發(fā)接口和端點(diǎn)檢測(cè)開(kāi)發(fā)接口相結(jié)合進(jìn)行開(kāi)發(fā),這樣既可以保證開(kāi)發(fā)軟件的識(shí)別率,又可以防止噪音的干擾。兩個(gè)接口相結(jié)合的語(yǔ)音識(shí)別開(kāi)發(fā)過(guò)程,如圖7。
2.3實(shí)驗(yàn)結(jié)果
我們隨機(jī)的選擇了5個(gè)人對(duì)該系統(tǒng)做了測(cè)試,長(zhǎng)詞語(yǔ)的識(shí)別率要比短詞的識(shí)別率高,而且該系統(tǒng)可以實(shí)現(xiàn)對(duì)于整句的識(shí)別。結(jié)果如表1。
3 語(yǔ)音合成的實(shí)現(xiàn)
語(yǔ)音系統(tǒng)采用了科大訊飛的ViviVoice 2.1語(yǔ)音合成系統(tǒng),系統(tǒng)擁有18個(gè)人的音庫(kù),能夠根據(jù)實(shí)際需要,靈活地選機(jī)器人的發(fā)音人,可供選擇的分類有男聲和女聲、童音和成年人聲音、普通話和閩南話、中文和英文。語(yǔ)音合成系統(tǒng)的合成引擎在完成文本到語(yǔ)音數(shù)據(jù)的轉(zhuǎn)化過(guò)程中可以簡(jiǎn)單分解為兩個(gè)步驟的處理。在整個(gè)轉(zhuǎn)化處理的過(guò)程中牽涉到大量的中英文語(yǔ)法和韻律知識(shí)的運(yùn)用,以及語(yǔ)法和語(yǔ)義分析的算法,最佳路徑搜索,單元挑選和 調(diào)整的算法,語(yǔ)音數(shù)據(jù)編碼方面的知識(shí)。語(yǔ)音合成技術(shù)涵蓋了語(yǔ)音文字的社會(huì)科學(xué)、數(shù)字信號(hào)處理等自然科學(xué),是跨學(xué)科高新技術(shù)。
4 總結(jié)
該機(jī)器人系統(tǒng)有硬件系統(tǒng)和軟件系統(tǒng)組成。硬件系統(tǒng)包括機(jī)器人載體和機(jī)械運(yùn)動(dòng),系統(tǒng)的軟件部分由人臉識(shí)別模塊、語(yǔ)音識(shí)別模塊等組成。主程序模塊實(shí)現(xiàn)機(jī)器人的全面控制功能,并調(diào)用語(yǔ)音模塊和人臉識(shí)別模塊等進(jìn)行人機(jī)交互。語(yǔ)音模塊包括語(yǔ)音識(shí)別和語(yǔ)音合成功能:語(yǔ)音模塊使用語(yǔ)音識(shí)別功能將接收到的語(yǔ)音信號(hào)轉(zhuǎn)換成文本系統(tǒng),便于系統(tǒng)對(duì)用戶聲音指令進(jìn)行識(shí)別和處理,語(yǔ)音識(shí)別采用了端點(diǎn)檢測(cè)算法能正確地從背景噪音中找出語(yǔ)音的開(kāi)始和終止;語(yǔ)音模塊使用語(yǔ)音合成功能將文本轉(zhuǎn)換為音頻信號(hào),使機(jī)器人發(fā)出語(yǔ)音。在這個(gè)系統(tǒng)中還利用了遠(yuǎn)程控制,來(lái)確保程序的穩(wěn)定性和可靠性。
參考文獻(xiàn):
[1] 喬兵,吳慶林,陰玉梅.語(yǔ)音識(shí)別算法的VC++實(shí)現(xiàn)[M].長(zhǎng)春:中國(guó)科學(xué)院,長(zhǎng)春光學(xué)精密機(jī)械與物理研究所,2011.
[2] 韓玉強(qiáng).用于家電控制的語(yǔ)音識(shí)別方法的研究[D].山東大學(xué),2010.
[3] 肖利君.基于DTW模型的孤立詞語(yǔ)音識(shí)別算法實(shí)現(xiàn)研究[D].中南大學(xué),2010.
它滿足了人類對(duì)于“語(yǔ)音識(shí)別”技術(shù)的終極幻想。你可以把這位智能管家想象成Siri的未來(lái)升級(jí)版,它不但能夠完美執(zhí)行指令,還能根據(jù)設(shè)備的工作情況甚至主人的心情提出建議。
下面回到現(xiàn)實(shí)。Siri眼下能做的最棒的事情,就是幫忙預(yù)訂某個(gè)酒店房間—諸如此類。不過(guò)不用悲觀,還有個(gè)好消息是,語(yǔ)音識(shí)別已經(jīng)成為眾多科技公司的優(yōu)先發(fā)展計(jì)劃。
2012年3月,一項(xiàng)能夠即時(shí)語(yǔ)音翻譯26種語(yǔ)言的技術(shù)被微軟研究院推出。與其他語(yǔ)言翻譯產(chǎn)品不同的是,這項(xiàng)技術(shù)除了翻譯多種語(yǔ)言之外,輸出的語(yǔ)音還可以模仿說(shuō)話人的音色和音調(diào),使它們聽(tīng)起來(lái)接近使用者的真實(shí)聲音。當(dāng)然了,現(xiàn)在它聽(tīng)上去還有些生硬,感彩還不夠豐富。
這項(xiàng)技術(shù)的第一步仍然是語(yǔ)音識(shí)別,后者正被越來(lái)越廣泛的應(yīng)用在眾多不同的領(lǐng)域。微軟用它來(lái)翻譯,在將語(yǔ)音進(jìn)行識(shí)別之后,變成一項(xiàng)名為“跨語(yǔ)言的文語(yǔ)轉(zhuǎn)換”(Cross-Language Text-to-Speech,簡(jiǎn)稱TTS)的技術(shù)。使用者只需要預(yù)先錄下幾十分鐘的母語(yǔ)作為訓(xùn)練語(yǔ)音。軟件在進(jìn)行識(shí)別、翻譯之后,就可以模仿說(shuō)話人的音調(diào)和音色將翻譯好的、其他語(yǔ)種的文本說(shuō)出 來(lái)。
此前早已有蘋(píng)果Siri,它一度是iPhone 4S手機(jī)用戶的最大樂(lè)趣之一。另外在Android 4.1系統(tǒng)中,Google Now除了讓用戶實(shí)現(xiàn)語(yǔ)音搜索,還包含一個(gè)自動(dòng)填充卡片的功能。當(dāng)用戶搜索了一個(gè)地點(diǎn)、天氣或是航班時(shí)間,Google Now會(huì)自動(dòng)建立一個(gè)卡片存儲(chǔ)細(xì)節(jié),供用戶以后查閱。
人們對(duì)于語(yǔ)音識(shí)別的迷戀由來(lái)已久,甚至在計(jì)算機(jī)發(fā)明之前。早期的聲碼器,可以看作是語(yǔ)音識(shí)別技術(shù)的雛形。1920年代生產(chǎn)的“Radio Rex”玩具狗是眼下有據(jù)可查的最早的語(yǔ)音識(shí)別器,當(dāng)這只狗聽(tīng)到自己的名字時(shí),它就會(huì)從底座上彈出來(lái),嚇人一跳。
作為諸多后繼的復(fù)雜應(yīng)用的第一步,語(yǔ)音識(shí)別—讓機(jī)器讀懂你在說(shuō)什么,迄今為止仍然是一個(gè)大工程。你甚至也可以把它視為眾多語(yǔ)音類智能應(yīng)用向前發(fā)展的絆腳石之一。
現(xiàn)在語(yǔ)音識(shí)別的主流技術(shù),由數(shù)據(jù)統(tǒng)計(jì)模型和算法組成。如果把數(shù)據(jù)統(tǒng)計(jì)模型比喻成一個(gè)倉(cāng)庫(kù)的話,那么算法則是一只機(jī)械手臂,從倉(cāng)庫(kù)中“抓”出合適的數(shù)據(jù)進(jìn)行匹配。算法包括了對(duì)數(shù)據(jù)存放位置的判斷等行為規(guī)則。數(shù)據(jù)越多,模型也就越大。
再簡(jiǎn)單一點(diǎn)說(shuō),當(dāng)你說(shuō)了一句話之后,算法會(huì)從數(shù)據(jù)庫(kù)中抓取可能最符合你意思的那句解釋。因此模型中包含的數(shù)據(jù)越多,通常也就意味著識(shí)別能力越強(qiáng)。但問(wèn)題來(lái)了。就像沒(méi)有一個(gè)倉(cāng)庫(kù)可以存放世界上所有的貨品一樣,沒(méi)有一個(gè)模型可以解釋所有數(shù)據(jù)。人們可以說(shuō)任何話,因此數(shù)據(jù)變化無(wú)窮。
所以你應(yīng)該不難理解,以往一些初級(jí)的語(yǔ)音控制類的應(yīng)用,比如導(dǎo)航、語(yǔ)音撥號(hào)等等,人們要啟動(dòng)服務(wù)必須按照產(chǎn)品手冊(cè)的說(shuō)明,完整地說(shuō)出固定格式的句子,才能被機(jī)器所識(shí)別。在這些應(yīng)用中,數(shù)據(jù)庫(kù)是簡(jiǎn)單而又原始的,在識(shí)別過(guò)程中也沒(méi)有太多算法可言,它們只是負(fù)責(zé)“搬運(yùn)”。
包括Siri和微軟TTS在內(nèi),語(yǔ)音識(shí)別被發(fā)展到了眼下的第二個(gè)階段:它們可以通過(guò)一定的規(guī)則和算法,將那些事先沒(méi)有包含在數(shù)據(jù)統(tǒng)計(jì)模型中的“話”也解釋出來(lái),并且足夠簡(jiǎn)單。
要實(shí)現(xiàn)這一點(diǎn),仍然必須要有一個(gè)基礎(chǔ)的數(shù)據(jù)庫(kù)。在微軟的TTS技術(shù)中,那幾十分鐘的“訓(xùn)練”,也就成了一種搜集數(shù)據(jù)建立數(shù)據(jù)庫(kù)的方式。建立數(shù)據(jù)庫(kù)的好處在于,“它不能夠保證你肯定對(duì),但它能夠保證最可能對(duì),或者說(shuō)可能最好的答案?!蔽④泚喼扪芯吭赫Z(yǔ)音組首席研究員和負(fù)責(zé)人宋謌平對(duì)《第一財(cái)經(jīng)周刊》說(shuō)。
當(dāng)訓(xùn)練完成之后,語(yǔ)音識(shí)別就變成了一個(gè)排序過(guò)程。當(dāng)一段語(yǔ)音被輸入,模型會(huì)通過(guò)自己的算法,從數(shù)據(jù)庫(kù)中尋找匹配度最大的那一句。各家公司不同的“算法”,以及建立起來(lái)的基礎(chǔ)數(shù)據(jù)庫(kù),成了它們各自在語(yǔ)音識(shí)別上的核心技術(shù)。
一段話是誰(shuí)說(shuō)的并不重要,更重要的是它的文本識(shí)別率。按照宋謌平的說(shuō)法,一般能達(dá)到90%以上的識(shí)別率,大部分的用戶都可以接受。
要提高準(zhǔn)確率,除了數(shù)據(jù)庫(kù)和算法,另一個(gè)必須解決的問(wèn)題就是在噪音環(huán)境中更準(zhǔn)確地分辨出輸入的語(yǔ) 音。
眼下要解決噪音問(wèn)題一般通過(guò)兩種辦法,一是在訓(xùn)練素材中包括噪音數(shù)據(jù),讓模型“記住”聲音在不同環(huán)境下的差異,并在最終識(shí)別的時(shí)候,對(duì)噪音進(jìn)行降噪處理;另外一種辦法,則是識(shí)別同樣噪聲環(huán)境里的、沒(méi)有經(jīng)過(guò)降噪處理的語(yǔ)言。
在數(shù)據(jù)庫(kù)有可能建立得比較大的情況下,搜集到足夠的噪音數(shù)據(jù)、并在噪音中進(jìn)行識(shí)別是一種最好的辦法。但現(xiàn)實(shí)是,一般意義上的“噪音”太多。比如汽車的引擎、餐廳中的各種聲音,本質(zhì)上并不相同,但都會(huì)對(duì)說(shuō)話人的語(yǔ)音輸入造成干擾。對(duì)于手機(jī)而言,計(jì)算和存儲(chǔ)能力都有限,建立龐大和復(fù)雜的模型并不現(xiàn)實(shí),一般會(huì)直接使用降噪處理的辦法。
早在1992年,一家名為Nuance的公司就看到了語(yǔ)音識(shí)別技術(shù)的商機(jī)。目前Nuance在美國(guó)已經(jīng)開(kāi)辟出兩部分主要市場(chǎng),包括咨詢業(yè)務(wù)和醫(yī)療診斷記錄的聽(tīng)寫(xiě)。2011財(cái)年,Nuance的營(yíng)收共計(jì)13.18億美元,其中產(chǎn)品銷售及授權(quán)收入占比46%,產(chǎn)品的使用人數(shù)已有1600 萬(wàn)。
這家擁有近4000項(xiàng)專利的公司通過(guò)提供面向醫(yī)療、手機(jī)、汽車等企業(yè)的語(yǔ)音解決方案盈利。在美國(guó)昂貴的人工費(fèi)用壓力之下,包括美聯(lián)航和大部分醫(yī)院在內(nèi)的機(jī)構(gòu),都開(kāi)始選擇語(yǔ)音聽(tīng)寫(xiě)引擎這樣的識(shí)別設(shè)備,解決部分客戶服務(wù)和書(shū)寫(xiě)病歷的問(wèn)題。
將默默埋頭賺錢(qián)的Nuance推向前臺(tái)的正是蘋(píng)果。由于Siri使用了Nuance的語(yǔ)音識(shí)別引擎,這家公司開(kāi)始獲得越來(lái)越多的曝光。Siri曾在起步階段使用過(guò)其他平臺(tái),但最終切換到了Nuance,不知這是否與Siri和Nuance同樣出自斯坦福研究院有關(guān)。
曾有傳言蘋(píng)果與Nuance進(jìn)行了幾個(gè)月的接觸,試圖收購(gòu)后者,但因其價(jià)值連城的專利,以及“在談判時(shí)近乎于喬布斯級(jí)別難纏的CEO”,這場(chǎng)收購(gòu)后來(lái)不了了之。蘋(píng)果通過(guò)引入Nuance的語(yǔ)音識(shí)別,再將識(shí)別之后的信息與其他“知識(shí)和資訊類數(shù)據(jù)庫(kù)”連接,在人機(jī)交互領(lǐng)域發(fā)起了一場(chǎng)革命。
2011年,通過(guò)云端訪問(wèn)Nuance的語(yǔ)音數(shù)據(jù)庫(kù)的訪問(wèn)量達(dá)到了20億次。眼下,它們也開(kāi)始進(jìn)入中國(guó)市場(chǎng),最新版本的Siri將提供包括普通話、廣東話和臺(tái)灣地區(qū)國(guó)語(yǔ)的識(shí)別。不過(guò)中文與英文的識(shí)別引擎完全不同,需要重新開(kāi)發(fā)。
在中國(guó),還沒(méi)有形成大規(guī)模的語(yǔ)音識(shí)別應(yīng)用市場(chǎng)。國(guó)內(nèi)語(yǔ)音市場(chǎng)占有60%以上份額的是科大訊飛,主要營(yíng)收也只是來(lái)自于語(yǔ)音合成技術(shù)。它只是讓電腦“念”出文本,在電信公司和銀行的呼叫中心里較為常用。
微軟創(chuàng)始人比爾·蓋茨曾在2008年預(yù)測(cè),五年之內(nèi)互聯(lián)網(wǎng)的搜索大部分將通過(guò)語(yǔ)音完成?,F(xiàn)在看來(lái),他或許樂(lè)觀了一些。即使語(yǔ)音識(shí)別技術(shù)已經(jīng)能夠適于應(yīng)用,真正的人機(jī)交互還有待于語(yǔ)音識(shí)別的更深層—語(yǔ)義識(shí)別技術(shù)的發(fā)展。
如果從字面上解釋,語(yǔ)義識(shí)別的意義在于能讓機(jī)器真正明白信息的含義。當(dāng)機(jī)器聽(tīng)到一個(gè)名為“意大利菜”的關(guān)鍵詞時(shí),技術(shù)優(yōu)良的語(yǔ)音識(shí)別可能會(huì)做出搜索意大利菜的反應(yīng)、或者幫你預(yù)訂好常去的餐廳,但語(yǔ)義識(shí)別則意味著,它還可能明白意大利菜會(huì)有什么樣的口感、或者探知餐廳的氛圍。
語(yǔ)義識(shí)別的終極夢(mèng)想是讓機(jī)器完全辨知人類說(shuō)話的語(yǔ)義和情緒,就像“鋼鐵俠”的那位智能助手一樣。
與發(fā)展相對(duì)迅速的語(yǔ)音識(shí)別不同,現(xiàn)有的語(yǔ)義識(shí)別仍然處于基礎(chǔ)階段,是一種機(jī)械的識(shí)別過(guò)程?!斑@一類的技術(shù)基本上還是填空法?!彼沃g平說(shuō)。當(dāng)機(jī)器聽(tīng)到語(yǔ)音,進(jìn)行識(shí)別之后,會(huì)從“語(yǔ)義數(shù)據(jù)庫(kù)”中搜索出與其相匹配的關(guān)鍵詞,與人的語(yǔ)義理解還有很大區(qū)別。
不過(guò)在一些垂直領(lǐng)域,語(yǔ)義識(shí)別已經(jīng)獲得了一定程度的發(fā)展和應(yīng)用。中華英才網(wǎng)的控股公司、美國(guó)最大的人力資源網(wǎng)站Monster,最近開(kāi)始在中國(guó)市場(chǎng)推出一種名為6Sense的語(yǔ)義搜索專利技術(shù)。它能將求職者的工作經(jīng)歷、技能、教育背景和所在地區(qū),與目標(biāo)職位匹配起來(lái),再對(duì)他們進(jìn)行分析、評(píng)級(jí)和排序,從而提高HR篩選簡(jiǎn)歷的效率。在人力資源領(lǐng)域,“甲骨文”意味著那家國(guó)際知名的企業(yè)軟件公司,而不是中國(guó)古代文字。如果僅僅是圍繞在一個(gè)特定領(lǐng)域內(nèi),系統(tǒng)判斷和識(shí)別的難度要小得多。
從長(zhǎng)遠(yuǎn)來(lái)看,語(yǔ)義識(shí)別目前還有很多尚未突破的難點(diǎn)。最大的障礙事關(guān)情感,機(jī)器還沒(méi)有辦法理解人類的情感,它們只能通過(guò)語(yǔ)音信號(hào)的聲學(xué)變化去捕捉人類的情緒,比如頻率和時(shí)長(zhǎng)這樣的參數(shù);此外,因?yàn)檎Z(yǔ)言本身的模糊性,識(shí)別過(guò)程中的關(guān)鍵詞抽取也經(jīng)常出現(xiàn)不準(zhǔn)確的現(xiàn)象。
小i機(jī)器人的創(chuàng)立者袁輝說(shuō),語(yǔ)義識(shí)別的下一步發(fā)展,需要長(zhǎng)期的、系統(tǒng)的平臺(tái)去處理每天進(jìn)來(lái)的海量知識(shí)和信息,經(jīng)過(guò)長(zhǎng)期的集聚,形成工程化的產(chǎn)品,最后才能對(duì)知識(shí)進(jìn)行篩選,甚至能夠?qū)W習(xí)新的知識(shí)點(diǎn)。
看起來(lái),“云”或許會(huì)是一個(gè)解決辦法。因?yàn)樵品?wù)器可以容納規(guī)模足夠大的模型。如果能有一種算法,使這種模型具有學(xué)習(xí)能力,就可以將用戶的語(yǔ)義在云端服務(wù)器中進(jìn)行分析,再借助網(wǎng)絡(luò)將指令和文本回傳。