背景介紹
作為中國人,學好英語這件事從小學開始就讓人苦惱,近些年隨著AI的快速發展,語言差異是否會縮小甚至被消滅成了熱門話題。在5月15日,谷歌AI在部落格平臺發出一篇文章,正式介紹了一款能保留原聲的“同聲傳譯”黑科技,訊息一出,迅速席捲網路,為科技發燒友帶來了更多曙光,下面,讓我們來揭開這個叫做“Translatoron”的神祕面紗。
Translatotron的出現
目前市面常用的語音翻譯產品的翻譯過程包含三個步驟,首先將語音轉換為文字,再由機器將文字轉換為目標語言文字,最後將目標語言的文字轉化為語音(文字轉語音全稱Text-To-Speech,也叫TTS)。
而谷歌的Translatotron有很大不同,它通過某種手段實現了語音到語音的直接轉譯,避免了上述的三個步驟。除此之外,它還有一些其它的優勢,比如更快的推理速度、更容易識別不需要翻譯的名稱及專業名詞等,最牛的是它可以保留原說話人的聲音特徵,做到原聲輸出其它語言,幻想一下用自己的聲音說出了連本人都聽不懂的外語,是不是有點像《流浪地球》中的同聲翻譯,多刺激啊,在此向大劉致敬!
Translatotron的原理
其實端到端的語音翻譯在2016年就出現了,當時研究者們發現用“序列到序列模型”來做“語音到文字”的翻譯可行性很高,到了2017年,研究者們證明出它果然很吊,但是這還不夠,Translatotron的出現又向大家證明了“序列到序列模型”不僅可以轉文字,還可以不依賴任何中間文字,直接幫你轉為語音。
上面部分的名詞有些含糊不清,這裡來解釋一下,首先是端到端學習,英文名為end-to-end,它就像一個黑盒子,人們把資料丟進去後只關心結果是否與期望的結果一致,不關心中間的實現過程。這個黑盒子的實現原理是,當結果和期望的結果出現誤差後,它會將誤差反傳回訓練模型的每一環節,讓它們根據誤差來自我調節,直到結果與預期相符為止。
而序列到序列模型,英文為Sequence to Sequence,它是端到端理念的一種實現框架,最早出現於Bengio在2014年的論文,Bengio是蒙特利爾大學的教授,他與另外兩位朋友被AI領域的人戲稱為“加拿大黑手黨”。
“序列到序列”模型的目的是“將一個領域(比如中文)的序列轉化為另一個領域(比如英文)的序列”,它是通過聯合兩個迴圈神經網路(RNN)來實現的,而聯合的這種結構又被叫做編碼-解碼(Encoder-Decoder)結構,結構的兩端支援多種資料型別,比如文字、語音、影像、視訊等,非常適用於機器翻譯。
Translatotron正是利用了影像這種資料型別,它通過聲譜圖作為輸入,再生成出目標語言的聲譜圖,然後通過一個叫做Vocoder的語音編解碼器(用於分析和合成用於音訊資料壓縮,多路複用,語音加密,語音轉換等的人類語音訊號)將新生成的光譜圖轉換為時域波形(一種表達訊號與時間關係的波浪形狀)。另外,它還可以選擇使用一個編碼器在合成翻譯語音中維護原來的語音特徵。
這項研究是由谷歌大腦、谷歌翻譯和谷歌語音團隊共同完成的,由於目前的訓練數量較少,Translatotron所展示出的翻譯質量以及原聲匹配度沒有預想中那麼好,但隨著更多資料的訓練相信會有非常光明的前景。感興趣的同學可以去官方部落格瞭解一下。
如果你願意,讓我來幫你關注那些可能不知道又想知道卻想不到的知識。