百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

百度AI發表於2018-10-29

原文網址 : https://www.jiqizhixin.com/articles/2018-10-29-3

近日，百度釋出重磅訊息稱，百度研發了具備預測能力和可控延遲的即時機器翻譯系統，可實現兩種語言之間的高質量、低延遲翻譯。這是自然語言處理方面的重大技術突破，將對機器即時筆譯和口譯的發展起到極大地推動作用。

即時機器翻譯系統是2016年百度 Deep Speech 2釋出以來，又一項引發MIT 科技評論、IEEE Spectrum 等外媒矚目的重大技術進展。IEEE Spectrum 認為，百度開發的這個新系統揭示了一種通過預測未來而保持穩定的翻譯工具，可以與聯合國會議期間提供同傳服務的口譯人員相媲美，讓人們離軟體巴別魚又近了一步。還有媒體認為，百度推出新的翻譯系統，是向谷歌發起了挑戰。

百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

這項引發行業震動的技術，到底有何過人之處？

百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

機器同傳利用語音識別技術自動識別演講者的講話內容，將語音轉化為文字，然後呼叫機器翻譯引擎，將文字翻譯為目標語言，顯示在大螢幕或者通過語音合成播放出來。相比人類譯員，機器最大的優勢是不會因為疲倦而導致譯出率下降，能將所有“聽到”的句子全部翻譯出來，這使得機器的“譯出率”可以達到100%，遠高於人類譯員的60%-70%。同時，在價格上也佔有優勢。

百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

此次，百度聯合語音技術、機器翻譯技術，從語音識別、翻譯質量、時延、融合領域知識等方面推出了“一攬子”解決方案。

在語音識別方面，區別於傳統的上下文相關建模技術，百度提出了上下文無關音素組合的中英文混合建模單元，包含1749個上下文無關中文音節和1868個上下文無關英文音節。該方法具有泛化效能好、對噪聲魯棒、中英文混合識別等特點。

百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

在翻譯質量方面，提出了“語音容錯”的對抗訓練翻譯模型，根據語音識別模型常犯的錯誤，在訓練資料中有針對性的加入噪聲資料，使得模型在接受到錯誤的語音識別結果時，也能夠在譯文中糾正過來。比如，語音識別系統將“大堂”錯誤的識別為“大唐”，這一對噪聲詞將被自動收錄到訓練資料中，並將源語言句子“我們在酒店大堂見面吧”替換為“我們在酒店大唐見面吧”，而保持目標語言翻譯不變“Let's meet at the lobby of the hotel”，同時將這兩個中文句子用於訓練，進而獲得具有更強的容錯能力模型。

為了降低時延提升翻譯質量，人類譯員通常對演講內容進行合理預測，百度開發人員從人類譯員身上獲得啟示，研發了“wait-k words”模型，可以根據歷史資訊，直接預測翻譯中目標語言詞彙。

百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

該模型在翻譯質量和翻譯延遲之間做出了很好的平衡，使用者可根據實際需求設定延遲時間（例如延遲1（k=1）詞或延遲5（k=5）詞）。比如，法語和西班牙語這種較為接近的語言，延遲可設定在比較低的水平；但是，對於英語和漢語這種差異較大的語言，以及英語和德語這種詞序不同的語言，延遲應當設定為較高水平，以便於更好地應對差異。

在同聲傳譯時，經常會遇到不同領域的專業知識，這就要求同傳人員在短時間內吸收大量相關領域的內容，這對他們也是極大的挑戰。基於此，百度模仿人類同傳的準備過程，提出了快速融合領域知識策略。該策略依託百度海量的網際網路大資料，訓練得到的具有通用翻譯能力的模型；當它接到某一個領域的同傳翻譯任務時，系統會收集該領域資料並在通用模型的基礎上進行增強訓練，得到相應領域的增強模型；最後對該領域術語庫進行強制解碼，使專業術語翻譯得準確可靠，且提升翻譯效率。

百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

雖然機器同傳有了新的突破，但它與經驗豐富的同傳人員相比，依然存在一定差距。百度翻譯技術負責人表示，百度研發新系統的初衷是為了降低同傳成本，讓同傳在不同領域構築溝通橋樑，而非取代人類譯員。

Timestone：Netflix 的高吞吐量、低延遲優先佇列系統
2022-09-30
佇列
谷歌揭祕自家翻譯系統：如何利用AI技術提高翻譯質量
2020-06-13
谷歌AI
監管機器翻譯質量？且看阿里如何搭建翻譯質量評估模型
2018-08-02
阿里模型
手機投屏到電腦_低延遲，傳聲音
2020-12-02
Linus Torvalds 宣佈新版Linux系統核心釋出
2020-04-11
Linux
JDK15正式釋出，劃時代的ZGC同時宣佈轉正
2020-09-19
JDKGC
[翻譯] 宣佈成立 PHP 基金會
2021-11-23
PHP
【JVM系列】低延遲迴收器 ZGC
2020-10-26
JVMGC
什麼是高延遲檔案傳輸？為什麼要使用高延遲檔案傳輸
2022-10-09
react 高效高質量搭建後臺系統系列 —— 系統佈局
2023-01-31
React
人才即時代：百度AI傳燈錄
2019-08-25
AI
「建設工程質量檢測機構資質標準」即將釋出
2022-11-18
低延遲系統請選擇Java而不是C++ - stackoverflow
2021-03-06
JavaC++
iOS 12即將釋出！這兩款機型恐怕要宣佈陣亡
2018-03-19
iOS
百度機器翻譯SDK實驗
2024-11-12
Sql Server監控釋出訂閱複製Replication、subscription的延遲時間和未傳送命令列數量
2021-10-29
SQLServer命令列
全能高價效比藍芽耳機推薦，五款銷量十萬+的低延遲藍芽耳機
2020-12-21
藍芽
重拳出擊！金山毒霸釋出最新AI雲盾系統
2018-08-07
AI
JVM 低延遲垃圾收集器 Shenandoah 和 ZGC
2020-12-31
JVMNaNGC
AI一分鐘 | 騰訊將成立機器人實驗室；機器翻譯重大突破：中英翻譯已達人類水平
2018-03-15
AI機器人
高吞吐低延遲Java應用的垃圾回收優化
2018-10-25
Java優化
微軟機器翻譯系統：中-英翻譯水平可“與人類媲美”
2018-03-15
微軟
Polaroid攜最新AR裝置低調宣佈進軍國內市場，1月底正式釋出
2018-04-11
async-rdma：編寫高吞吐量、低延遲網路應用的Rust庫
2022-07-06
Rust
HMS Core 機器學習服務打造同傳翻譯新“聲”態，AI讓國際交流更順暢
2022-07-06
機器學習AI
深入理解JVM（③）低延遲的Shenandoah收集器
2020-06-17
JVMNaN
Fedora 團隊宣佈 Fedora 36 系統釋出了
2022-08-05
Rocky Linux宣佈 Rocky Linux 8.6 系統釋出了
2022-08-08
Linux
美國伺服器延遲高怎麼辦，如何解決延遲問題
2023-04-18
伺服器
伺服器延遲高的幾個原因
2022-03-04
伺服器
Netflix使用ZGC實現低延遲
2024-03-10
GC
實時雲渲染關鍵技術-低延遲詳解
2021-11-22
C# 10分鐘完成百度翻譯（機器翻譯）——入門篇
2022-01-10
C#
WWDC 蘋果釋出 AI 全家桶；三星宣佈「實時翻譯」將相容第三方 App 丨 RTE 開發者日報 Vol.222
2024-06-11
蘋果AIAPP開發者日報
Datawhale AI夏令營-機器翻譯挑戰賽
2024-07-17
AI
[翻譯]EntityFramework Core 2.2 釋出
2018-12-05
Framework
詳解低延時高音質：編解碼篇
2021-11-16
解決歷理 win11延遲系統更新時間
2024-06-07

百度宣佈AI同傳最新突破，釋出高質量低延遲即時機器翻譯系統

相關文章