網易有道 CEO 周楓:需求為先的 AI 技術賦能

邱陸陸發表於2017-07-11

2014 年,Yoshua Bengio 組做出了第一個迴圈網路編碼器-解碼器神經機器翻譯模型。而後僅 3 個月,基於 LSTM 結構和注意力機制的神經機器翻譯系統就達到了可以與統計機器翻譯(SMT)媲美的水平。2016 年,谷歌翻譯正式將神經機器翻譯用於八個英語與其他語言的語言對,讓深度學習多了一個影響每個人的介面。機器翻譯領域正經歷又一次驟雨疾風般的變革。

今年,網易有道上線了自主研發的 YNMT,讓以中文為中心的、根據中文使用者使用習慣定製的 神經翻譯系統服務於 6 億有道使用者。而最近,有道希望從 AI 服務提供者變成 AI 技術賦能者,「原來我們的技術主要服務於自己的產品,現在我們把技術輸出,讓更多人享受到這些技術的便利。」網易有道 CEO 周楓說。近日,在網易有道開放日活動上,周楓宣佈正式上線 OCR 技術、「中日」、「中韓」語言對神經機器翻譯和有道智雲平臺,智雲的上線讓更多的第三方開發者和企業能夠利用相應技術,有道希望企業使用者能夠透過平臺,以 SDK 或 API 等多種方式將神經機器翻譯、OCR 等技術接入自己的應用,滿足自己的需求,讓技術可以轉化成更多實際的產出,服務於更為廣闊的使用者群體。

周楓先後於清華大學和加州大學伯克利分校取得計算機本科、碩士和博士學位。2005 年,還在博士就讀階段的周楓就負責了網易有道搜尋的基礎架構搭建。畢業正式加入網易後,周楓先後負責了賬號保護器「將軍令」、有道詞典、有道購物助手(現惠惠購物助手)的開發。其中有道詞典利用獨創的「網路釋義」功能,透過對網際網路資訊的深度挖掘對單詞給出具有時效性的參考釋義,獲得了廣泛好評,現使用者量已超過 6 億。本次活動結束後,機器之心和周楓聊了聊有道神經機器翻譯的開發歷程,以及深度學習為業界帶來了哪些變化。

網易有道 CEO 周楓:需求為先的 AI 技術賦能

圖:周楓在「網易有道開放日」現場

成立專門團隊提前佈局

從谷歌釋出相關論文、切換系統開始,神經機器翻譯「大火」還不到一年,而有道在神經機器翻譯領域的部署遠早於此。

「2014 年,NMT 達到和 SMT 同樣水準,我們開始關注它。2015 年,學術界發表了超過 SMT 的 NMT 系統,我們就成立了專門的團隊做這件事。當時並不知道能否做得出來,因為即使做出來效果很好,效能達不到標準也沒法上線。但是我們都認同,雖然做這件事有風險,不做風險更大。」周楓說,「我們比較慶幸開始得非常早,因為深度學習儘管從模型角度做了很多簡化,但在工程上還是有非常多『坑』需要逐一踩的。神經機器翻譯系統我們做了整整兩年,處理的資料數量在一億句以上。而在效能方面,直到今年春節,還有很多問題沒有解決,當時翻譯一句話還要一秒鐘。從原型到上線,我們的模型在速度上最佳化了 100 倍。」

在部署方面,團隊做了很多嘗試。最典型的例子是在推理部分(inference)的硬體選擇上。「我們分別嘗試了 CPU、GPU 與 FPGA,最後選擇了 GPU。」周楓介紹道,「GPU 的特點是併發度高,CPU 的特點是單執行緒能力強。GPU 的優點在於能夠同時翻譯很多句子,但是用於翻譯的推理障礙還是很多。儘管在單位計算量非常小的時候 GPU 有非常明顯的優勢,但是翻譯一個句子計算量很大,會出現資料吞吐量(throughput)很大但是延遲很長的問題。我們的工程師對此做了非常多的最佳化。我們也研究了 FPGA,判斷是 FPGA 低功耗和定製的特點讓它更適合無人機等移動場景,在伺服器環境下優勢不明顯且變成較為困難。」

詞典與翻譯的長期積累和大使用者基數也為團隊提供了極大的便利。「在訓練資料中,來自網際網路的爬蟲資料佔比最多,然而我們透過其他途徑採集的針對性資料在作用上可能更為重要。從詞典開始的網路釋義工作幫了我們很多。我們透過比較深度的挖掘獲取了非常多優質的短語預料,這些語料用於翻譯系統,對翻譯質量的提升有非常大的貢獻。同時大量的使用者給我們帶來了很多及時的反饋,技術團隊能夠保持一個月更新一個版本的頻率來發現問題、解決問題。」

基於使用者需求,實現場景最佳化、新技術引入與新平臺開放

從 SMT 時代起,網易有道已經有了很多企業級的應用案例,比如微信、支付寶、搜狗瀏覽器等巨無霸產品的內建翻譯功能都由有道定製提供。從使用者真實需求出發,是有道將技術開發與場景結合進行產品開發的關鍵。

網易有道的神經機器翻譯最大特點是具有場景針對性。透過有道詞典的十年積累,開發人員發現,中國人使用英語最常見的場景集中在學習、新聞、口語三類,相應地對翻譯功能的需求也是如此。因此,在開發神經機器翻譯產品的時候,有道從需求出發,充分利用了語言在不同場景下表現特點不同的的性質,為每一個場景「定製」模型。「以新聞場景為例,它的特點是句子比較長,句式比較複雜,經常出現一些新的人名、地名以及經常需要聯絡上下文。我們針對新聞場景特點採集資料,提高模型訓練時新聞資料的配比,同時考慮到句子複雜度的提升,我們也會調節輸入的維度、模型的層數與結構、覆蓋度懲罰係數等等」,周楓解釋道。

作為一個以中文為中心的產品,本次有道神經機器翻譯還新增了「中日」和「中韓」兩個語言對的支援。「大多數海外的引擎不僅沒有對中文和其他小語種的語言對做專門最佳化,甚至需要透過英文進行轉接」,使用者得到的中日翻譯,可能是從中文到英文、再從英文到日文的「二道翻譯」。看到了小語種的需求與機會,有道以日韓兩種語言為例,對翻譯系統做了相應的改進。「每種小語種翻譯的開發都需要解決特定的問題。例如中日韓不同於拉丁語系的一點是需要分詞,它們的分詞還各有特點。日語還會存在語序與其他語言顯著不同的問題,這時候注意力模型的覆蓋範圍就要做對應的調整了。」針對性地解決了每個語言對的特定問題後,有道的翻譯效果提升的很快。網易有道首席科學家段亦濤在活動上展示了網易在「中日」和「中韓」語言對上的機器翻譯 BLEU 測評結果,可以看出雖然結果稍遜於中英,但 YNMT 相比於其他產品已經有了質的飛躍。

網易有道 CEO 周楓:需求為先的 AI 技術賦能

圖:「中日」及「中韓」語言對神經機器翻譯結果測評比較

語料不足是開發小語種語言所面臨的最大挑戰,網易開發團隊曾嘗試過利用字幕組這類「民間」資料。「但是效果並不好,把資料新增進去模型效果反而會下降。可能原因是它的語言使用場景非常特殊,翻譯也極度依賴劇情和上下文,我們還在探索有效利用這類資料的辦法。」周楓告訴機器之心。

另一個針對使用者需求進行的技術開發是離線功能。「離線的好處有很多,速度快、不費頻寬,不用使用者花錢。而且很多場景,比如影片中的文字識別,是必須離線處理的。」因此雖然離線的難度很大,有道仍然投入了大量資源去做。段亦濤也介紹了為了離線而對神經機器翻譯模型做的最佳化:「一是透過裁剪減少引數,二是有針對性地根據權重做取捨,三是採用定點化,除此之外還有增加詞表矩陣的稀疏性等等。」他開玩笑地說,「負責這方面的工程師都特別窮兇極惡。」

開放 OCR 技術也來自於對使用者的觀察。網易有道副總裁金磊在活動上介紹,「從我們最大的應用有道詞典來看,我們擁有 6.6 億使用者量,每天使用自動翻譯技術有 2000 萬次,OCR 請求有 470 萬次」。網易有道的 OCR 強調對中英混雜文字的識別。「大家對於中文識別的需求實際是對『主要是中文,偶爾有英文』場景的需求,郵件、新聞等等都屬於這個類別。」

網易有道 CEO 周楓:需求為先的 AI 技術賦能

圖: OCR 技術結果測評比較

深度學習帶來更廣闊的視野

最近,神經機器翻譯領域也產生了一系列技術成果,包括 Facebook 基於 CNN 的模型和谷歌完全基於注意力的模型。在周楓看來,學界和工業界的關注點不同,二者在目標上存在很大差異,他說:「在學術界,無論付出多大代價,只要產生改變,哪怕只有 1% 乃至 0.1%,都值得去做。但是對工業界來說,一個達到一定水準的、足夠好的架構就可以了。注意力模型(attention)在這一點上特別強大。它在可以接受的複雜度和成本提升條件下讓模型效果上了一個巨大的臺階。現在,據我瞭解,在大規模生產環境下實際應用的機器翻譯應該都是基於注意力架構的。注意力之後的學術界成果都是在某一個特定角度做提升,而且提升往往需要付出特別大的代價。把模型變成可用的產品的過程本身有非常大的複雜度,我們暫時還沒有看到足以推翻現有系統的新模型。」

他認為,深度學習最大的貢獻是讓系統變簡單,讓工程人員的經驗擁有更廣的使用範圍。「以 TTS(文字轉語音)為例,原來做這件事要讀拳頭厚的一本書,系統涉及十幾個模組,每個模組完成特定任務,所以每個模組一章,章和章之間沒有任何關係。深度學習來了之後你可以看到學術界逐漸改變它的過程。首先是每個模組的內部都變成一個深度學習模型,雖然模組數量沒變,但是模組間的相似性帶來了簡化。緊接著又出現了論文,把模組的數量從 10 個減少到 5 個。這些簡化不光具有學術意義,把事情變簡單後,開發人員的經驗適用範圍也就變的更廣了。比如現在翻譯團隊就有一部分工程師在研究語音模型,語音和他過去的工程經驗毫無關聯,然而在深度學習的背景下,他可以探索的範圍變得非常廣闊。」

相關文章