手機上的實時語音轉錄,谷歌為聽障人士連線世界

李泽南發表於2019-04-25

現在,只要使用一臺普通的安卓手機,有聽力障礙的人們就可以和他人進行直接無障礙的對話了、和谷歌的大多數產品一樣,這種工具支援多種語言(包括中文)。

手機上的實時語音轉錄,谷歌為聽障人士連線世界谷歌Live Transcribe的語音轉錄效果

近日,在一個媒體溝通活動中,谷歌向我們展示了這一最新產品,並介紹了它的開發歷程。

據世界衛生組織 (WHO) 估計,全球目前已有 4.66 億耳聾及聽障人士;而到2055年,這一數字將高達9億。“在65到74歲的人群中,約有三分之一的人報告自己有聽力障礙,”GoogleAI產品經理Sagar Savla在活動中介紹道。“我在印度居住的祖父母就有聽力障礙。而這些老年人習慣了正常形式的交流,當出現了聽覺障礙後生活就會很不方便。”

自動語音識別(ASR)技術能夠讓計算機檢測到人類對話的語言,並將其轉錄為文字以供閱讀。此前,這種方法已經可以為視訊自動新增字幕,並可以為電話提供語音轉錄的文字顯示。然而在很多場景下,這種技術還無法部署,它面臨著延遲大、裝置要求過高等問題。

谷歌一直在試圖解決這些挑戰。據介紹,Live Transcribe團隊成立於去年,其提出的人工智慧語音識別技術目前適用於一對一對話形式,並主要依託雲端計算處理資訊。Live Transcribe所搭載的平臺是全球分佈範圍最廣的安卓系統——現在全世界已有超過20億檯安卓裝置。

Live Transcribe在轉錄語音時可以很好地結合上下文,減少識別錯誤。為了讓最終產品更加易於使用,開發者們與Gallaudet大學進行了使用者體驗的研究,並找到了語音轉錄效率最高的顯示方式。目前,它在對話時語音轉錄的反應延遲低於200毫秒。

3.gif軟體可以顯示語音轉錄文字的置信度(上圖左),但谷歌的研究人員發現這種方式可能降低人們的閱讀效率 Live Transcribe採用了兩種神經網路:手機上的網路被用於分類聲音,如狗叫和小孩的哭聲;分類後的人聲資訊則交於雲端基於RNN的神經網路進行語音識別,其可以在7個字之間上下文範圍內進行糾錯。

為了提高效率,谷歌在先前AudioSet的工作基礎上,實現了基於神經網路的裝置端語音檢測器。該網路是一種影象式模型,類似於此前釋出的VGGish模型,它可以檢測語音並自動管理與雲ASR引擎的網路連線,將長時間使用過程中的資料流量消耗降至最低。

“谷歌伺服器雲端處理的方式可以讓Live Transcribe覆蓋更多人群,並適配更低配置的手機。”Sagar Savla表示,“目前,這一工具可以安裝在全球20多種安卓裝置上。”

這一工具已支援70種語言,其中包括英語、漢語、西班牙語等主要語言,這意味著它可以覆蓋80%以上的全球人口。對於雙語家庭而言,Live Transcribe也可以通過快速切換功能處理兩種語言。

為了讓更多人能夠獲得Live Transcribe帶來的便利,谷歌的開發人員儘可能地減少這種系統的需求。據介紹,其手機端模型大小僅為4m,以便讓四五年前買到的智慧手機也可以安裝。“在設計這個產品之初,我們發現大多數聽障人群的裝置配置並不高。”Savla介紹道,“但只要有網路,我們的工具就可以工作。”

選擇手機作為載體,Live Transcribe也面臨著缺乏麥克風陣列的問題。語音識別的一大挑戰就是“雞尾酒會問題”——在背景噪音、多人聲存在的情況下,人工智慧演算法往往無法分辨出目標人的語音。為了解決這一問題,谷歌團隊採用了最簡單的方法:設計一個兩個同心圓形的提示器,若現場噪音過大,則提示“聽者”前往一個更安靜的地點繼續對話。

image.pngSagar SavlaLive Transcribe專案在谷歌不僅建立起了一個開發團隊,也吸引了重量級技術人員的參與——Dimitri Kanevsky也參與了這個研究,他是一個俄裔著名學者,也是一個天生的聾人,早在1998年Dimitri就在開發了第一個遠端轉錄系統,並曾獲得美國的很多國家級榮譽。“大腕級的人物加盟推動了新工具的發展。”Sagar Savla表示。

Live Transcribe只是一個開始。目前,這一工具已在谷歌Pixel 3手機上的GBoard上開始了應用。在未來,谷歌還希望能把這一技術推向更多種類的手機,並增強系統的抗噪音能力。

相關文章