應用與互動,智慧電話的幾個重要模組

發光的房子君發表於2019-06-20

在資訊交流的方式和語言上面,對於人類來說是一件很容易做的事。然而,於機器而言語音識別就不會那麼簡單了,其中涉及的技術以及邏輯都很繁瑣。


語音識別,又稱為自動語音識別(AutomaticSpeechRecognition,ASR),指計算機可以自動將人類的語音內容轉換成相應的文字,然後呈現給人類的技術。語音識別技術已有50多年的歷史。近年來,語音識別技術得到了廣泛的應用才剛剛開始。隨著移動裝置、可穿戴裝置、智慧家居裝置、智慧電話機器人或系統的日益普及,對話互動逐漸成為人機互動的焦點。


1、語音識別的組成部分

語音識別主要由以下基本模組組成:資訊處理與特徵處理、聲學模型(AM)、語言模型(LM)、發音(語音)字典和解碼器。


訊號處理和特徵提取。

它是系統語音識別的第一個步驟,也是第一個部分。在接受原始的音訊訊號的同時還要為後續的升學模型提取適當的的代表性特徵向量,就是由它來完成。在訊號的處理方面,它能夠在比較嘈雜的環境下把人聲識別率提到最優解。


聲學模型。

提到聲學,就不得不提到大名鼎鼎隱馬爾科夫模型,通常的語音識別系統都能透過這個模型對詞、音節、音素等基本聲學單元進行建模,然後生成模型。簡單來講就是對發聲建模,把語言輸出轉換為聲學輸出。


語言模型。

語言模型用於對系統需求辨認的語言進行建模。各種語言模型,包括和上下文無關語句,都能夠用作言語模型。現在,大多數語音辨認體系普遍採用計算N-gram模型及其變體。它能夠透過訓練學習單詞和單詞之間的聯絡來估量假設單詞序列的可能性。


發音詞典。

發音詞典包含系統所能處理的單詞的集合及其發音。發音詞典得到了聲學模型建模單元和語言模型建模單元之間的對映關係,將兩者連線起來,組成一個搜尋的狀態空間用於解碼器進行解碼工作。

發音詞典包含系統可以處理的單詞及其發音的集合。語音字典獲取聲學模型構建單元與語言模型構建單元之間的對映關係,並將它們連線起來形成一個搜尋狀態空間,有了兩者的相互結合就可以用於解碼器解碼工作。


解碼器。

這是一個語音識別系統的最核心部分之一,一款合格的電話機器人好不好用就要看這裡,作為語音識別系統的核心之一,其任務主要負責讀取輸入的語音訊號的特徵序列,再根據聲學模型、語言模型及發音詞典,解碼出以最大機率輸出該訊號的詞串。

語音識別就是一個先編碼後解碼的過程,訊號處理和特徵提取就是編碼的過程,由原始的語音得到語音向量。後面即是對語音向量的解碼,而解碼需要上面提到的聲學模型和語言模型。


2、機器如何識別語音

對於計算機室視覺來說,語音識別更為純粹,因為只有一個核心的任務,就是講人類的語言轉化為機器人能夠編譯的資料然後轉化為文字然後呈現出來。簡單來說這些文字就是將聲音幀切成音素再組合成單詞,也就使語音轉化成了文字。


3、語音識別的應用及發展

因為上訴技術逐漸成熟,催生出了電話機器人,這是近幾年興起的人工智慧產品,以歐能智慧機器人為例子,它主要透過電話群呼潛在客戶,溝通進行資訊篩選,幫助企業選擇意向客戶。企業使用電話機器人可以減少人工成本,提高工作效率。這些方面的應用能極大的減少人工上面的成本,很多企業的發展也不會拘泥。


從大的方向上面來說,雖然語音識別技術仍然還有許多亟待提高的地方,比如方言的語音識別、高噪音環境下的語音識別等方面還有一段路要走。但不可否認的是,隨著資訊科技的不斷髮展,語音識別技術也將不斷獲得突破,有著更加廣闊的發展空間。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925861/viewspace-2648195/,如需轉載,請註明出處,否則將追究法律責任。

相關文章