騰訊 AI Lab 2018年度回顧

騰訊AI實驗室發表於2019-01-30

2018年是頗具意義的一年,以“Make AI Everywhere”為願景,我們在醫療、農業和公益等AI應用領域取得不錯進展,也正在通過遊戲和機器人等實驗平臺探索解決AI終極難題——通用人工智慧——的道路。

展望2019年,我們將繼續通過前沿研究提升AI的認知、決策和創造力深耕行業,擁抱消費網際網路與產業網際網路,做好“數字化助手”標配,提供更好的技術、工具與服務,為人們的日常生活和社會發展帶來更多美好便利。

騰訊 AI Lab 2018年度回顧
以下是我們對騰訊AI Lab在2018年重點工作的回顧,也預祝大家新春安康吉祥。

行業應用 科技向善

我們在 2018 年完成了一些很有意義的專案,如“圖片語音即時描述”技術,讓機器充分理解影像內容後,將其“翻譯”成語句,讓視障者使用QQ空間時,能聽到對圖片的描述,實時瞭解朋友動態。通過提供這一系列資訊無障礙技術,騰訊今年獲得了聯合國教科文組織頒發的“數字技術增強殘疾人權能獎”。

第二個例子是顯微鏡的進化,我們在這種古老而重要的醫療器械中加入了AI與AR技術,讓機器自動識別、檢測、定量計算和生成報告,並將檢測結果實時顯示到醫生所看目鏡中,在不打斷醫生閱片的同時及時提醒,提高醫生的診斷效率和準確度。今年我們還會繼續通過“騰訊覓影”產品深入探索AI+醫療的應用,目前影像處理技術已用在食管癌、肺癌、糖尿病性視網膜病變等疾病的早期篩查上,語言和語音處理技術也用於智慧導診和輔診上。

騰訊 AI Lab 2018年度回顧

AI 技術落地

騰訊 AI Lab 2018年度回顧

騰訊智慧顯微鏡

我們還在“AI+農業”邁出了一小步——一個很會“種”黃瓜的AI。在荷蘭舉辦的國際AI溫室種植大賽裡,我們利用感測器和攝像頭自動收集溫室氣候、作物發育情況等環境和作物資料,再用深度學習模型計算、判斷和決策,驅動溫室的裝置元件,遠端控制黃瓜生產,最後獲總比分第二、AI策略第一的成績,還開心收穫了3496公斤黃瓜。
騰訊 AI Lab 2018年度回顧
騰訊視訊中,我們提供了超解析度和視訊分類的技術。此外,我們還探索了對視訊內容的深度理解、編輯與生成。比如,讓機器深度分析一個視訊,識別其中人物、物體、場景,並分析它們的關係,並在時間順序識別視訊中不同的動作和事件,產生能表達出視訊豐富語義資訊的語句。

騰訊 AI Lab 2018年度回顧

而在視訊生成上,我們研究的視訊運動資訊遷移技術,在給到幾張人物A的靜止圖片後,能讓A模仿人物B的舞蹈動作,從靜止到“動”起來。

前沿難題 深度探索

定義下一代的智慧互動 - 3D虛擬人

我們通過多個部門的共同研究,合作推進了“多模態人機互動”這一前沿課題。我們將計算機視覺自然語言處理、語音技術有機結合在一起,輔以一定的情緒認知、分析決策能力,賦予虛擬人看、聽、想、說的多模態輸入和輸出能力,以實現更自然、逼真、風格鮮明、千人千面的人機互動體驗。我們已經實現了整套技術方案的打通,並有望探索新的產品形式。

以遊戲為實驗平臺,求解“通用人工智慧”難題

遊戲是 AI 研究的傳統實驗場,從2016年研發圍棋AI“絕藝”起,我們不斷利用這塊實驗沃土,探索邁向通用人工智慧的道路。2018 年,我們收穫頗豐,而此類探索還將繼續下去。

我們與王者榮耀及王者榮耀職業聯賽共同探索的前沿研究專案——策略協作型AI“絕悟”——首次亮相KPL決賽,與人類戰隊(超過99%玩家)進行5V5水平測試並取得勝利。我們使用了監督學習方法,模擬人類決策方法的演算法模型兼具了大局觀與微操能力,並在此基礎上研發多個有針對性的強化學習訓練模型,有效提升了AI團隊協作能力。

騰訊 AI Lab 2018年度回顧

此外,我們的深度強化學習智慧體還在《星際爭霸 II》戰勝了Level-10內建 AI,還與清華大學合作拿下了FPS射擊類遊戲AI競賽VizDoom賽事歷史上首箇中國區冠軍

騰訊 AI Lab 2018年度回顧
以機器人為載體,讓虛擬連線現實

我們還成立了企業級機器人實驗室騰訊Robotics X”,構建AI+機器人雙基礎部門,打造虛擬世界到真實世界的載體與聯結器。比如,我們從0到1實現了機械手從虛擬到現實的遷移,通過搭建滿足各種物理屬性的高逼真模擬器,支援多種強化學習演算法,並能和機械臂和靈巧手的實體硬體介面相容,通過新提出的DHER演算法訓練抓取、搭積木、端茶倒水等虛擬任務。我們還將其成功遷移到了現實世界中。

騰訊 AI Lab 2018年度回顧
另外,在新建成的騰訊深圳總部展廳裡,我們還完成了“絕藝”圍棋機器人、桌上冰球和與浙江大學合作的機械狗等展示專案,體現了機器人的本體、控制、感知、決策方面的能力。
騰訊 AI Lab 2018年度回顧

開源協同 多方合作

除了發表論文公開研究成果,我們也通過程式碼和資料開源將騰訊積累的技術能力(尤其是 AI 能力)共享給整個行業,並希望以此促進行業生態的共同發展和繁榮。

2018 年 10 月,我們開源了業內最大規模的多標籤影像資料集Tencent ML-Images,其中包含了 1800 萬影像和11000種常見物體類別。此外我們還提供了從影像下載和影像預處理,到基於ML-Images的預訓練和基於ImageNet的遷移學習,再到基於訓練所得模型的影像特徵提取整個流程的程式碼和模型。截至目前已在 GitHub 獲 2000 星和 2000+ 次下載。

我們還在 10 月份開源了一個大規模、高質量的中文詞向量資料集,其中包含 800 多萬中文詞彙,在覆蓋率、新鮮度及準確性上都優於之前的資料集。

11 月,我們開源了一個自動化深度學習模型壓縮與加速框架 PocketFlow,其中整合了多種模型壓縮與加速演算法,並能利用強化學習自動搜尋合適的壓縮引數。我們希望該框架能降低模型壓縮的技術門檻,賦能移動端 AI 應用開發。

在高校合作方面,我們與麻省理工、牛津、史丹佛、港科大、清華和哈工大等全球知名高校的教授聯合研究,並通過專項研究計劃、訪問學者計劃、青年學者基金、聯合實驗室等多種方式,共探學術前沿領域,並迅速將研究應用到騰訊雲、騰訊開放平臺等多個業務中。

騰訊 AI Lab 2018年度回顧

基礎研究 推動邊界

我們基礎研究方向主要為四個:機器學習計算機視覺語音處理自然語言處理。2018 年,我們有超過150 篇學術論文發表在各大頂級學術會議上,如NeurIPSICMLCVPRECCVACLEMNLPInterSpeech 和 ICASSP 等,位居國內企業前列。

騰訊 AI Lab 2018年度回顧

未來,我們將繼續關注前沿領域的研究課題,推進跨學科、多模態、交叉研究課題探索,以開放、合作和共贏的態度,不斷探索研究的邊界。

機器學習

學習能力,是區分智慧機器和普通自動化機器的核心技能之一,也是邁向通用人工智慧(AGI)的必備技能。我們的研究涵蓋了強化學習遷移學習模仿學習、優化演算法、弱監督和半監督學習、對抗學習和多工學習等。

我們探索了自動化機器學習(AutoML)的可能性,這是當前機器學習領域的前沿探索方向之一。比如,我們提出了一種基於資料分佈遷移的超參優化演算法[1]。該方法利用分佈相似度來遷移不同資料對應的超參優化結果,從而能對新資料的超參優化起到熱啟動的效果。我們還進一步研發了FastBO演算法,並發現其在醫療和遊戲等多個場景上有比人工調參更好的效果。

針對多工問題,我們提出了一種學習框架 L2MT[2] ,能自動發掘一個最優的多工學習模型;我們還提出了一種用學習遷移實現遷移學習的方法 L2T[3],能顯著降低遷移學習的計算成本和所需的領域知識。

騰訊 AI Lab 2018年度回顧

L2MT 框架

我們也為強化學習提出了一些改進方法,比如提出一種描述如何從環境和任務來組成強化學習策略的元規則部件神經網路,實現了自適應於不同環境、不同任務的合成策略[4]。我們還嘗試用演示來提升強化學習的探索效果(POfD)[5]及使用聯網智慧體的完全去中心化多智慧體強化學習[6]。

在電腦保安和社會安全上,我們研發的自動特徵學習、群分類和圖特徵增強方面的演算法,能成功識別和對抗黑產使用者、涉黑群體和惡意使用者(標記覆蓋率超90%),還能精準識別有信貸風險的使用者,幫助防控金融風險。

計算機視覺

計算機視覺技術有非常廣泛的應用前景,是智慧醫療、自動駕駛擴增實境移動機器人等重要應用的不可或缺的一部分。我們不斷尋找賦予機器更強大視覺能力的方法,以實時、穩健和準確地理解世界。

2018 年,我們的探索包括結合相機與其它感測器資料實現 3D 實時定位[1]、結合傳統時空建模方法(MRF)與深度學習方法(CNN)來跟蹤和分割視訊中的物體[2],及一些在視訊描述生成任務上的新方法[3]。我們還定義了一種名為視訊重定位(Video re-localization)[4]的新任務,可在某段長視訊中查詢與指定視訊語義相關片段。我們也為視訊中的運動表徵提出了一種端到端的神經網路TVNet[5]。

除了幫助機器理解世界,我們也在探索視訊生成方面的技術,比如我們提出了一種自動生成延時攝影視訊的解決方案[6],可以通過預測後續的影像幀來呈現可能發生的動態變化。我們也探索了多階段動態生成對抗網路(MD-GAN)[7]在這一任務上的應用。

騰訊 AI Lab 2018年度回顧

MD-GAN 框架

語音處理

我們的語音解決方案已經在騰訊的聽聽音響、極光電視盒子和叮噹音響等產品中得到應用。2018 年,我們又提出了一些新的方法和改進,在語音增強、語音分離、語音識別語音合成等技術方向都取得了一定進展。


語音喚醒上,我們針對誤喚醒、噪聲環境中喚醒、快語速喚醒和兒童喚醒等問題,提出了一種新的語音喚醒模型[1],能顯著提升關鍵詞檢測質量,在有噪聲環境下表現突出,還能顯著降低前端和關鍵詞檢測模組的功耗需求。我們還提出了一種基於 Inception-ResNet 的聲紋識別系統框架[2],可學習更加魯棒且更具有區分性的嵌入特徵。

騰訊 AI Lab 2018年度回顧

左:基準關鍵詞檢測架構   右:文字依賴型語音增強架構

語音識別上,我們的解決方案是結合了說話人特徵的個性化識別模型,能為每位使用者提取並儲存個性化聲學資訊特徵。隨使用者資料積累,個性化特徵自動更新,使用者識別準確率能顯著提升。另外,我們還創新地提出了多類單元集合融合建模方案,這是一種實現了不同程度單元共享、引數共享、多工的中英混合建模方案。這種方案能在基本不影響漢語識別準確度的情況下提升英語的識別水平。我們仍在噪聲環境、多說話人場景[3]、“雞尾酒會問題”[4]、多語言混雜等方面繼續探索。

語音合成是確保機器與人類自然溝通的重要技術。騰訊語音合成方面有深厚的技術積累,開發了可實現端到端合成和重音語調合成的新技術。騰訊AI Lab 2018 年在語調韻律變化[5]、說話風格遷移[6]等任務上取得了一些新進展。

自然語言處理

騰訊 AI Lab 在自然語言處理方面有廣泛而又有針對性的研究,涉及文字理解、文字生成、人機對話、機器翻譯等多個方向。

我們訓練的模型在多個閱讀理解類資料集上位居前列,如CMU大學的RACE、ARC (Easy/Challenge)及OpenBookQA等。

神經網路機器翻譯方面,我們通過改進當前主流翻譯模型中的多層多頭自注意力機制[1]和提出基於忠實度的訓練框架[2],改善其核心的譯文忠實度低的問題。我們還針對口語翻譯中代詞預設的問題提出了一種聯合學習方法[3],以及探索如何將外部的翻譯記憶融入神經網路翻譯模型[4]。

我們還發布了一款AI輔助翻譯產品TranSmart[5],向人工翻譯致敬。它採用業內領先的人機互動機器翻譯和輔助翻譯輸入法技術,配合億級雙語平行資料,為使用者提供實時智慧翻譯輔助,幫助使用者更好更快地完成翻譯任務。作為筆譯工具的未來形態,目前這個產品已經進入了很多高校翻譯課堂。

我們研究了文字和對話生成,提了出一種基於強化學習框架的回覆生成模型[6],對於同一個輸入能夠自動生成多個不同的回覆;一種跨語言神經網路置信跟蹤框架XL-NBT[7]在實現跨語種對話系統方面有重要的實際應用潛力(比如多語種自動客服)。此外,我們還為自動回覆的多樣性對條件變分自編碼機進行了改進[8]。
騰訊 AI Lab 2018年度回顧

基於強化學習的回覆生成模型

值得一提的是我們將中國古典文化與現代技術的結合方面的探索。我們在 2018 年春節期間推出了騰訊 AI 春聯,可根據使用者提供的兩個漢字生成一副春聯。我們還探索了創造機器詩人的問題,提出一種基於對抗條件變分自編碼器的詩歌生成方法(CVAE-D)[9],在主旨一致性和用詞的新穎性上取得了不錯的進展。

展望未來

近三年時間裡,騰訊AI Lab相繼成立了深圳及美國西雅圖實驗室,目前團隊有70多名頂尖AI科學家及300多位經驗豐富的工程師,專注四大研究方向。

產業落地上,AI Lab將與新成立的“騰訊Robotics X”機器人實驗室擔當前沿技術雙基礎部門,深耕產業,擁抱消費及產業網際網路,做好技術標配。

騰訊 AI Lab 2018年度回顧
前路漫漫,道阻且長,我們將繼續前行,以科技點亮人文之光。

論文連結:

機器學習

[1] 基於資料分佈遷移的超參優化演算法

https://arxiv.org/pdf/1810.06305.pdf

[2] 學習框架L2MT

https://arxiv.org/abs/1805.07541

[3] 用學習遷移實現遷移學習的方法 L2T

https://ai.tencent.com/ailab/media/publications/icml/148_Transfer_Learning_via_Learning_to_Transfer.pdf

[4] 自適應於不同環境、不同任務的合成策略

https://papers.nips.cc/paper/7393-synthesize-policies-for-transfer-and-adaptation-across-tasks-and-environments

[5] POfD

https://ai.tencent.com/ailab/media/publications/icml/152_Policy_Optimization_with_Demonstrations.pdf

[6] 完全去中心化多智慧體強化學習

https://arxiv.org/abs/1802.08757

計算機視覺

[1] 3D 實時定位

https://arxiv.org/abs/1810.05456

[2] 跟蹤和分割視訊中的物體

https://arxiv.org/abs/1803.09453

[3] 視訊描述生成任務新方法

https://arxiv.org/abs/1803.11438

[4] 視訊重定位

https://arxiv.org/abs/1808.01575

[5] TVNet

https://arxiv.org/abs/1804.00413

[6] 自動生成延時攝影視訊

https://arxiv.org/abs/1709.07592

[7] 多階段動態生成對抗網路(MD-GAN)

https://arxiv.org/abs/1709.07592

語音處理

[1] 語音喚醒模型

https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1668.pdf

[2] 基於 Inception-ResNet 的聲紋識別系統框架

https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1769.pdf

[3] 多說話人場景

https://ai.tencent.com/ailab/media/publications/MonauralMulti-TalkerSpeechRecognitionwithAttentionMechanismand_GatedConvolutionalNetworks._pdf.pdf

[4] 雞尾酒會問題

https://link.springer.com/article/10.1631/FITEE.1700814

[5] 語調韻律變化

https://ai.tencent.com/ailab/media/publications/icassp/FEATURE_BASED_ADAPTATION_FOR_SPEAKING_STYLE_SYNTHESIS.pdf

[6] 說話風格遷移

https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1991.pdf

自然語言處理

[1] 多層多頭自注意力機制的改進

https://arxiv.org/abs/1810.10181

[2] 基於忠實度的訓練框架

https://arxiv.org/abs/1811.08541

[3] 聯合學習方法

https://arxiv.org/abs/1810.06195

[4] 翻譯記憶融入

https://ai.tencent.com/ailab/nlp/papers/aaai2019_graph_translation.pdf

[5] AI輔助翻譯產品TranSmart

http://transmart.qq.com/

[6] 基於強化學習框架的回覆生成模型

https://ai.tencent.com/ailab/nlp/publications.html

[7] 跨語言神經網路置信跟蹤框架 XL-NBT 

https://arxiv.org/pdf/1808.06244.pdf

[8] 對條件變分自編碼機的改進

http://aclweb.org/anthology/D18-1354

[9] 基於對抗條件變分自編碼器的詩歌生成方法(CVAE-D)

http://aclweb.org/anthology/D18-1423

相關文章