作為全球學術界最具權威的機器翻譯比賽,近日,WMT2020國際機器翻譯大賽的榜單停止提交結果併發布排名,其中騰訊微信AI團隊在「中文-英文」翻譯任務上奪得冠軍。

提交結果BLEU評分第一,微信AI斬獲中英翻譯方向冠軍

WMT 是機器翻譯領域的國際頂級評測比賽之一,自2006年創辦至今,WMT已經成功舉辦15屆。大賽每年都吸引了眾多來自全球的企業、科研機構和高校所組成的頂尖團隊,包括微軟、Facebook、百度、金山、日本情報通訊研究機構(NICT)。

在賽制上,組委會根據中英、英中、中日等不同翻譯任務提供測試集,參賽者線上提交機器翻譯結果,組委會將根據在國際上具有廣泛認可度的BLEU自動評估指標對參賽者提交的機器譯文和標準答案進行擬合計算,擬合程度高者排在前面。其中「中文-英文」翻譯任務是大賽歷年來競爭最激烈的領域,也是最大的看點之一,在歷屆冠軍中,微軟、騰訊翻譯君、搜狗都榜上有名。

此次大賽競爭激烈,各參賽方共計提交近300次資料,最終微信AI團隊經過多次角逐脫穎而出,成功佔據自動評估指標的榜首,斬獲桂冠。值得一提的是,BLEU評分前兩名的機器譯文均由微信AI團隊提交。同時,今年微信AI僅使用了官方提供的資料(也就是受限資源),超過了所有使用受限資源和無限資源的系統。

兩種結構、三種訓練方法,微信AI打造翻譯領先技術

在國際上斬獲佳績與認可,離不開微信AI團隊在人工智慧領域持續不斷的深耕和產品體驗的持續打磨。自2017年以來,基於業界最前沿的神經網路機器翻譯技術,微信AI團隊進行了持續迭代,引入了最前沿的機器翻譯演算法,不斷創新演算法和架構,提升翻譯能力。

在本次大賽上,微信翻譯在技術上以更深和更寬的Transformer結構(包括Self-attention和Average-attention)和 自研的Deep Transition結構(DTMT)為基礎,用融合領域內知識的資料增強方法迭代生成高質量的偽資料,並利用Self-Bleu的組合剪枝策略整合模型並利用整合模型的知識蒸餾單模型,除了常規的交叉熵訓練,還採用三種改進的訓練方法來緩解偏差問題,包括改進的Scheduled Sampling訓練方法、針對目標端輸入的抗噪訓練和更穩定的最小化貝葉斯風險訓練。

目前,微信翻譯已成為一個日翻譯數十億字元的大型多語言機器翻譯引擎,支援多語種間的雙向翻譯,在翻譯質量上均達到業界領先水平。服務場景已涵蓋微信對話翻譯、朋友圈翻譯、微信掃一掃等,同時還為騰訊小微、微信對話開放平臺、微信讀書、QQ郵箱等提供翻譯服務支援,後續會陸續運用於更多的場景。

(微信對話翻譯場景)

基礎研究與技術開源,微信持續深耕人工智慧

除了在智慧翻譯領域取得優秀成績外,微信AI團隊在其他領域也建樹頗多。不僅在2018、2019蟬聯DSTC冠軍,還在2019年獲得RACE中高考題榜單第一名、DROP數學推理榜單第一名和QuAC多輪互動推理榜單第一名,凸顯了微信AI團隊在對話和推理方面的技術實力。

在自然語言處理領域頂級會議ACL 2019中,由中科院計算所和微信AI等團隊合作的文章“Bridging the Gap between Training and Inference for Neural Machine Translation”,獲得了最佳長論文獎項(Best Long Paper),這也是中國大陸第一篇獲此獎項的文章。隨後,在ACL 2020中,微信AI團隊亦有7篇論文入選,覆蓋機器翻譯、資訊抽取、對話系統等領域研究成果。兩年來,微信AI團隊已有16篇論文入選ACL。

基於深度學習研發的微信智聆語音識別技術,每天處理超過4億條語音,語音識別正確率達到97%,並在微信語音輸入、語音轉文字、王者榮耀、QQ音樂等產品中提供了技術支援。而專注智慧對話和NLP的微信智言,則以騰訊小微開放能力為核心,為除了家居硬體、PaaS、行業雲和AI Bot等領域提供技術支援,讓人與機器以最自然、最便捷的方式交流溝通。

在技術開源方面,微信AI開發自研並開源了Transformer推理引擎,這也是騰訊對外開源的第100個專案。該推理引擎在CPU/GPU兩種硬體平臺上都可以獲得最佳效能表現,速度快於pytorch/tensorflow和目前主流Transformers加速方案,且更適合NLP任務特點,無需圖層次預處理,支援變長輸入序列輸入。TurboTransfromers在騰訊內部的遊戲、內容生態、廣告與金融等領域獲得了廣泛使用和認可。

在未來,微信AI將持續加大對人工智慧領域的學習與投入,積極將技術升級運用在產品之中,並創新整合新型能力,基於微信平臺生態帶來覆蓋更廣的應用場景和更智慧的產品體驗,為12億微信使用者提供更優質的智慧服務。