IBM研究院釋出自動為新聞播報生成字幕的研究,利用長短期記憶(LSTM)網路和聲學神經網路模型,搭配輔助的語言模型,研究團隊與澳洲一家語音和搜尋科技公司Appen一同合作,在兩項測試實驗中,語音辨識系統的錯誤率分別為6.5%和5.9%,而人類辨識的錯誤率分別為3.6%和2.8%。
IBM指出,在對話式電話語音領域中,語音辨識系統必須處理失真、來自多個不同電話通道的隨性語音錄音,還包含多種說話風格,且對話式語音還會有多個對話者重疊、中斷、重新開始和重複確認的語音。
而新聞廣播的語音辨識任務更具挑戰,因為還需要處理多人說話風格、多種背景噪音,和廣泛的新聞領域內容,甚至是多種題材的混合內容,像是現場採訪、電視節目的剪輯內容等。
為了能夠成功地辨識複雜的語音內容,為新聞播報內容生成字幕,IBM研究團隊透過語音辨識技術,建立了一套深度神經網路,該深度神經網路整合了長短期記憶網路和深度殘差網路(residual network,ResNet),以ResNet為基礎打造的聲學模型是含有多達25層卷積層的深度卷積式網路,用1,300個小時、多種不同的新聞內容資料,來訓練生成字幕的模型。