快商通首席科學家:語音識別的後半段路,從語言處理走向語言理解

快商通發表於2019-09-27

在近二十年來,尤其是引入深度學習以後,語音識別取得了一系列重大突破,並一步步走向市場並搭載到終端產品中。然而在使用者體驗上,魯棒性可以算得上這些產品最大的槽點之一,這也意味著語音識別的魯棒性問題已經成為了該領域研究亟待解決的難點。

IEEE Fellow、快商通首席科學家李海洲院士,根據其在語音識別和聲紋識別領域多年來的研究成果和經驗積累,總結出提升語音識別魯棒性的三種途徑。李海洲教授認為:如果希望技術有更近一層的突破,我們需要將精力放於語音識別的後半段路——從語音語言處理走向語音語言理解。

快商通首席科學家:語音識別的後半段路,從語言處理走向語言理解

分享一:提高語音識別魯棒性的三種途徑

近二十年,語音識別技術取得顯著進步,但識別的魯棒性問題一直阻礙著語音技術的進一步發展。對於語音識別和聲紋識別來說,該如何提升影響準確率的系統魯棒性?快商通首席科學家李海洲教授表示,想要從根本上提升識別準確率,可以從三個方面考慮。

首先,專用系統轉換為通用系統。

語音識別從實驗室走向應用,環境適應性一直是不容忽視的問題。實驗室中訓練良好的引擎,一旦處於負責的噪聲環境,其識別準確率便會急劇下降。這些噪聲主要來自於通道偏差,環境噪音,被汙染的測試資料與訓練資料的不匹配等。

因此,想要提高識別準確率,需將目前針對某單一環境的專用系統升級為通用系統,提高識別引擎的自我學習能力,才能使其適應不同環境的差異性。

第二,擴充套件獲取語音資訊的渠道。

假設三種場景:面對面交流、視訊交流、電話語音交流,人在哪種情況下能聽得最清楚?毫無疑問是面對面交流,這種場景下溝通,人們可以看到對方的表情、手勢,而這些資訊也將輔助聽覺獲取更多的資訊。

人類從單一的渠道獲取資訊尚且會有偏差的可能,機器亦然。李教授認為,未來將會形成語音、視覺等多渠道的技術手段,來幫助語音識別和聲紋識別進行準確率的提升。

第三,從語音語言處理走向語音語言理解。

人們普遍認為,語音識別是將聲音變為文字。但在快商通首席科學家李海洲教授的理解裡,語音識別的初衷是讓機器聽懂人類說話,並不一定需要將聲音轉化為文字。就像人與人之間的交流,並不需要先將對方說的語音轉換成文字。

機器無法直接聽懂人類的語言,所以需要將語音轉為文字來輔助,但如果希望技術有更近一層的突破,我們需要將精力放於語音識別的後半段路——從語音語言處理走向語音語言理解。

分享二:中國人工智慧應用落地的三大優勢

第四次工業革命即將來臨,世界各國已經認識到人工智慧是未來國家之間競爭的關鍵賽場,因而紛紛爭奪這一輪科技革命的制高點。對於中國而言,人工智慧的發展是一個歷史性的戰略機遇,政府創造土壤,企業奮起發力,中國在AI領域的實力與發展優勢不斷被世界認可。

基於多年海外經歷培養出的國際化視角,結合專業判斷能力,快商通首席科學家李海洲教授總結出中國人工智慧應用落地的三大優勢。

政府推動:在我國,人工智慧連續三年被寫入總理政府工作報告,併成為促進新興產業加快發展的新動能。政府的推動與總體規劃,完善了人工智慧基礎設施的建設,並使得各科技企業的技術能夠穩步落地。

資料優勢:人工智慧的發展需要與深度學習和大資料緊密結合,中國在資料資源這一方面的優勢,是毋庸置疑的。僅僅在日常生活中,中國近14億的人口就能產生比全球其他國家更多的資料。這讓深度學習有一個用武之地。

企業環境:自2012年深度學習取得重大突破,中國人工智慧企業如雨後春筍般生長,激烈的競爭環境下,企業家們必須兼具創新與奮鬥精神,才能在大浪淘沙中適者生存。再這樣的情況下,中國人工智慧技術的創業環境積極向上,為優質的技術和企業

相關文章