近日,百度釋出重磅訊息稱,百度研發了具備預測能力和可控延遲的即時機器翻譯系統,可實現兩種語言之間的高質量、低延遲翻譯。這是自然語言處理方面的重大技術突破,將對機器即時筆譯和口譯的發展起到極大地推動作用。
即時機器翻譯系統是2016年百度 Deep Speech 2釋出以來,又一項引發MIT 科技評論、IEEE Spectrum 等外媒矚目的重大技術進展。IEEE Spectrum 認為,百度開發的這個新系統揭示了一種通過預測未來而保持穩定的翻譯工具,可以與聯合國會議期間提供同傳服務的口譯人員相媲美,讓人們離軟體巴別魚又近了一步。還有媒體認為,百度推出新的翻譯系統,是向谷歌發起了挑戰。
這項引發行業震動的技術,到底有何過人之處?
機器同傳利用語音識別技術自動識別演講者的講話內容,將語音轉化為文字,然後呼叫機器翻譯引擎,將文字翻譯為目標語言,顯示在大螢幕或者通過語音合成播放出來。相比人類譯員,機器最大的優勢是不會因為疲倦而導致譯出率下降,能將所有“聽到”的句子全部翻譯出來,這使得機器的“譯出率”可以達到100%,遠高於人類譯員的60%-70%。同時,在價格上也佔有優勢。
此次,百度聯合語音技術、機器翻譯技術,從語音識別、翻譯質量、時延、融合領域知識等方面推出了“一攬子”解決方案。
在語音識別方面,區別於傳統的上下文相關建模技術,百度提出了上下文無關音素組合的中英文混合建模單元,包含1749個上下文無關中文音節和1868個上下文無關英文音節。該方法具有泛化效能好、對噪聲魯棒、中英文混合識別等特點。
在翻譯質量方面,提出了“語音容錯”的對抗訓練翻譯模型,根據語音識別模型常犯的錯誤,在訓練資料中有針對性的加入噪聲資料,使得模型在接受到錯誤的語音識別結果時,也能夠在譯文中糾正過來。比如,語音識別系統將“大堂”錯誤的識別為“大唐”,這一對噪聲詞將被自動收錄到訓練資料中,並將源語言句子“我們在酒店大堂見面吧”替換為“我們在酒店大唐見面吧”,而保持目標語言翻譯不變“Let's meet at the lobby of the hotel”,同時將這兩個中文句子用於訓練,進而獲得具有更強的容錯能力模型。
為了降低時延提升翻譯質量,人類譯員通常對演講內容進行合理預測,百度開發人員從人類譯員身上獲得啟示,研發了“wait-k words”模型,可以根據歷史資訊,直接預測翻譯中目標語言詞彙。
該模型在翻譯質量和翻譯延遲之間做出了很好的平衡,使用者可根據實際需求設定延遲時間(例如延遲1(k=1)詞或延遲5(k=5)詞)。比如,法語和西班牙語這種較為接近的語言,延遲可設定在比較低的水平;但是,對於英語和漢語這種差異較大的語言,以及英語和德語這種詞序不同的語言,延遲應當設定為較高水平,以便於更好地應對差異。
在同聲傳譯時,經常會遇到不同領域的專業知識,這就要求同傳人員在短時間內吸收大量相關領域的內容,這對他們也是極大的挑戰。基於此,百度模仿人類同傳的準備過程,提出了快速融合領域知識策略。該策略依託百度海量的網際網路大資料,訓練得到的具有通用翻譯能力的模型;當它接到某一個領域的同傳翻譯任務時,系統會收集該領域資料並在通用模型的基礎上進行增強訓練,得到相應領域的增強模型;最後對該領域術語庫進行強制解碼,使專業術語翻譯得準確可靠,且提升翻譯效率。
雖然機器同傳有了新的突破,但它與經驗豐富的同傳人員相比,依然存在一定差距。百度翻譯技術負責人表示,百度研發新系統的初衷是為了降低同傳成本,讓同傳在不同領域構築溝通橋樑,而非取代人類譯員。