Google視角下的語音識別發展簡史

聲學線上發表於2016-02-27

目前語音識別領域已經取得了重大進展,計算機已經可以將語音轉換為文字,準確率已經超過95%。語音視訊領域發展的如火如荼,越來越引起大家的關注。最近,不少聲學線上的讀者朋友們提出,希望介紹一下語音設別的發展歷程,所以今天筆者分享一段視訊,讓我們看一看Google眼中的語音識別發展簡史,從中來窺見一斑。



語音識別簡史,視訊版權屬於Google


以上,我們可以看出從1952年的貝爾實驗室研製的世界上第一個能識別10個英文數字發音的語音識別系統,到今天百家爭鳴的語音識別系統;從隱馬爾科夫模型到神經元網路,語音識別的發展可謂是日新月異。但是要想讓計算機做到真正的與人自由交流,還有許多問題亟待解決,其中,兩個難題為首要。


首先是語義理解,計算機雖然能將語音轉換為文字,但計算機並不能準確理解這段文字的真正含義。因為文字的內容更加豐富,即使是同一句話,不同的上下文,不同的語氣,不同的場景,不同的音調都會產生不同的含義。目前的語義理解主要還是基於大資料,例如微軟的小冰,蘋果的Siri,都是因為有著龐大資料支撐。當他們遇到問題時,通過搜尋的方式來獲得最佳答案。換句話說,他們只能回答資料庫裡已經存在的問題。因此他們無法根據上下文給出最佳答案,例如:你對它說,小明的家在北京,接下來你再問她,小明的家在哪?這樣簡單的問題,它們也是無法回答的。


其次就是遠場識別問題,目前計算機將語音轉換為文字,僅能支援近距離講話的情況。一旦人與麥克風相距較遠,有混響或噪聲存在的情況下,語音識別率急劇降低。特別是,有混響的情況,更對語音識別提出挑戰,在這一點上,計算機與人有著極大的不同。在有適當混響的情況下,人反而感覺聲音飽滿,聽得更加清楚。目前,通用做法是利用麥克風陣列來解決這一問題,利用多個麥克風可以形成空間濾波器,這樣就可以將人與噪聲分離,同時還可以去掉房間的反射聲,減弱混響的影響。但是,筆者個人認為這並不能從根本上解決問題。從理論上說,兩個麥克風很難將2個及2個以上的聲源分開,人雖只有兩個耳朵,但以我們的個人經驗,當我們周圍有多個聲源時,我們並不是把多個聲源分開再進行語音識別的,而是將所有的聲音一起送入大腦進行處理的。因此想要從根本上解決這個問題,需要讓計算機有自學習能力,能夠讓計算機根據小樣本資料調整深度神經元網路的節點個數及權值等,經過不斷的學習與調整,使計算機能夠真正像人一樣理解語言。


相關文章