2018年是頗具意義的一年,以“Make AI Everywhere”為願景,我們在醫療、農業和公益等AI應用領域取得不錯進展,也正在通過遊戲和機器人等實驗平臺探索解決AI終極難題——通用人工智慧——的道路。
展望2019年,我們將繼續通過前沿研究提升AI的認知、決策和創造力,深耕行業,擁抱消費網際網路與產業網際網路,做好“數字化助手”標配,提供更好的技術、工具與服務,為人們的日常生活和社會發展帶來更多美好便利。
行業應用 科技向善
我們在 2018 年完成了一些很有意義的專案,如“圖片語音即時描述”技術,讓機器充分理解影像內容後,將其“翻譯”成語句,讓視障者使用QQ空間時,能聽到對圖片的描述,實時瞭解朋友動態。通過提供這一系列資訊無障礙技術,騰訊今年獲得了聯合國教科文組織頒發的“數字技術增強殘疾人權能獎”。
第二個例子是顯微鏡的進化,我們在這種古老而重要的醫療器械中加入了AI與AR技術,讓機器自動識別、檢測、定量計算和生成報告,並將檢測結果實時顯示到醫生所看目鏡中,在不打斷醫生閱片的同時及時提醒,提高醫生的診斷效率和準確度。今年我們還會繼續通過“騰訊覓影”產品深入探索AI+醫療的應用,目前影像處理技術已用在食管癌、肺癌、糖尿病性視網膜病變等疾病的早期篩查上,語言和語音處理技術也用於智慧導診和輔診上。
AI 技術落地
騰訊智慧顯微鏡
而在視訊生成上,我們研究的視訊運動資訊遷移技術,在給到幾張人物A的靜止圖片後,能讓A模仿人物B的舞蹈動作,從靜止到“動”起來。
前沿難題 深度探索
定義下一代的智慧互動 - 3D虛擬人
我們與王者榮耀及王者榮耀職業聯賽共同探索的前沿研究專案——策略協作型AI“絕悟”——首次亮相KPL決賽,與人類戰隊(超過99%玩家)進行5V5水平測試並取得勝利。我們使用了監督學習方法,模擬人類決策方法的演算法模型兼具了大局觀與微操能力,並在此基礎上研發多個有針對性的強化學習訓練模型,有效提升了AI團隊協作能力。
此外,我們的深度強化學習智慧體還在《星際爭霸 II》戰勝了Level-10內建 AI,還與清華大學合作拿下了FPS射擊類遊戲AI競賽VizDoom賽事歷史上首箇中國區冠軍。
我們還成立了企業級機器人實驗室“騰訊Robotics X”,構建AI+機器人雙基礎部門,打造虛擬世界到真實世界的載體與聯結器。比如,我們從0到1實現了機械手從虛擬到現實的遷移,通過搭建滿足各種物理屬性的高逼真模擬器,支援多種強化學習演算法,並能和機械臂和靈巧手的實體硬體介面相容,通過新提出的DHER演算法訓練抓取、搭積木、端茶倒水等虛擬任務。我們還將其成功遷移到了現實世界中。
開源協同 多方合作
除了發表論文公開研究成果,我們也通過程式碼和資料開源將騰訊積累的技術能力(尤其是 AI 能力)共享給整個行業,並希望以此促進行業生態的共同發展和繁榮。
2018 年 10 月,我們開源了業內最大規模的多標籤影像資料集Tencent ML-Images,其中包含了 1800 萬影像和11000種常見物體類別。此外我們還提供了從影像下載和影像預處理,到基於ML-Images的預訓練和基於ImageNet的遷移學習,再到基於訓練所得模型的影像特徵提取整個流程的程式碼和模型。截至目前已在 GitHub 獲 2000 星和 2000+ 次下載。
我們還在 10 月份開源了一個大規模、高質量的中文詞向量資料集,其中包含 800 多萬中文詞彙,在覆蓋率、新鮮度及準確性上都優於之前的資料集。
11 月,我們開源了一個自動化深度學習模型壓縮與加速框架 PocketFlow,其中整合了多種模型壓縮與加速演算法,並能利用強化學習自動搜尋合適的壓縮引數。我們希望該框架能降低模型壓縮的技術門檻,賦能移動端 AI 應用開發。
在高校合作方面,我們與麻省理工、牛津、史丹佛、港科大、清華和哈工大等全球知名高校的教授聯合研究,並通過專項研究計劃、訪問學者計劃、青年學者基金、聯合實驗室等多種方式,共探學術前沿領域,並迅速將研究應用到騰訊雲、騰訊開放平臺等多個業務中。
基礎研究 推動邊界
我們基礎研究方向主要為四個:機器學習、計算機視覺、語音處理和自然語言處理。2018 年,我們有超過150 篇學術論文發表在各大頂級學術會議上,如NeurIPS、ICML、CVPR、ECCV、ACL、EMNLP、InterSpeech 和 ICASSP 等,位居國內企業前列。
未來,我們將繼續關注前沿領域的研究課題,推進跨學科、多模態、交叉研究課題探索,以開放、合作和共贏的態度,不斷探索研究的邊界。
機器學習
學習能力,是區分智慧機器和普通自動化機器的核心技能之一,也是邁向通用人工智慧(AGI)的必備技能。我們的研究涵蓋了強化學習、遷移學習、模仿學習、優化演算法、弱監督和半監督學習、對抗學習和多工學習等。
我們探索了自動化機器學習(AutoML)的可能性,這是當前機器學習領域的前沿探索方向之一。比如,我們提出了一種基於資料分佈遷移的超參優化演算法[1]。該方法利用分佈相似度來遷移不同資料對應的超參優化結果,從而能對新資料的超參優化起到熱啟動的效果。我們還進一步研發了FastBO演算法,並發現其在醫療和遊戲等多個場景上有比人工調參更好的效果。
針對多工問題,我們提出了一種學習框架 L2MT[2] ,能自動發掘一個最優的多工學習模型;我們還提出了一種用學習遷移實現遷移學習的方法 L2T[3],能顯著降低遷移學習的計算成本和所需的領域知識。
L2MT 框架
在電腦保安和社會安全上,我們研發的自動特徵學習、群分類和圖特徵增強方面的演算法,能成功識別和對抗黑產使用者、涉黑群體和惡意使用者(標記覆蓋率超90%),還能精準識別有信貸風險的使用者,幫助防控金融風險。
計算機視覺
計算機視覺技術有非常廣泛的應用前景,是智慧醫療、自動駕駛、擴增實境、移動機器人等重要應用的不可或缺的一部分。我們不斷尋找賦予機器更強大視覺能力的方法,以實時、穩健和準確地理解世界。
2018 年,我們的探索包括結合相機與其它感測器資料實現 3D 實時定位[1]、結合傳統時空建模方法(MRF)與深度學習方法(CNN)來跟蹤和分割視訊中的物體[2],及一些在視訊描述生成任務上的新方法[3]。我們還定義了一種名為視訊重定位(Video re-localization)[4]的新任務,可在某段長視訊中查詢與指定視訊語義相關片段。我們也為視訊中的運動表徵提出了一種端到端的神經網路TVNet[5]。
除了幫助機器理解世界,我們也在探索視訊生成方面的技術,比如我們提出了一種自動生成延時攝影視訊的解決方案[6],可以通過預測後續的影像幀來呈現可能發生的動態變化。我們也探索了多階段動態生成對抗網路(MD-GAN)[7]在這一任務上的應用。
MD-GAN 框架
語音處理
我們的語音解決方案已經在騰訊的聽聽音響、極光電視盒子和叮噹音響等產品中得到應用。2018 年,我們又提出了一些新的方法和改進,在語音增強、語音分離、語音識別、語音合成等技術方向都取得了一定進展。
語音喚醒上,我們針對誤喚醒、噪聲環境中喚醒、快語速喚醒和兒童喚醒等問題,提出了一種新的語音喚醒模型[1],能顯著提升關鍵詞檢測質量,在有噪聲環境下表現突出,還能顯著降低前端和關鍵詞檢測模組的功耗需求。我們還提出了一種基於 Inception-ResNet 的聲紋識別系統框架[2],可學習更加魯棒且更具有區分性的嵌入特徵。
左:基準關鍵詞檢測架構 右:文字依賴型語音增強架構
語音識別上,我們的解決方案是結合了說話人特徵的個性化識別模型,能為每位使用者提取並儲存個性化聲學資訊特徵。隨使用者資料積累,個性化特徵自動更新,使用者識別準確率能顯著提升。另外,我們還創新地提出了多類單元集合融合建模方案,這是一種實現了不同程度單元共享、引數共享、多工的中英混合建模方案。這種方案能在基本不影響漢語識別準確度的情況下提升英語的識別水平。我們仍在噪聲環境、多說話人場景[3]、“雞尾酒會問題”[4]、多語言混雜等方面繼續探索。
語音合成是確保機器與人類自然溝通的重要技術。騰訊在語音合成方面有深厚的技術積累,開發了可實現端到端合成和重音語調合成的新技術。騰訊AI Lab 2018 年在語調韻律變化[5]、說話風格遷移[6]等任務上取得了一些新進展。
自然語言處理
我們訓練的模型在多個閱讀理解類資料集上位居前列,如CMU大學的RACE、ARC (Easy/Challenge)及OpenBookQA等。
在神經網路機器翻譯方面,我們通過改進當前主流翻譯模型中的多層多頭自注意力機制[1]和提出基於忠實度的訓練框架[2],改善其核心的譯文忠實度低的問題。我們還針對口語翻譯中代詞預設的問題提出了一種聯合學習方法[3],以及探索如何將外部的翻譯記憶融入神經網路翻譯模型[4]。
我們還發布了一款AI輔助翻譯產品TranSmart[5],向人工翻譯致敬。它採用業內領先的人機互動式機器翻譯和輔助翻譯輸入法技術,配合億級雙語平行資料,為使用者提供實時智慧翻譯輔助,幫助使用者更好更快地完成翻譯任務。作為筆譯工具的未來形態,目前這個產品已經進入了很多高校翻譯課堂。
基於強化學習的回覆生成模型
值得一提的是我們將中國古典文化與現代技術的結合方面的探索。我們在 2018 年春節期間推出了騰訊 AI 春聯,可根據使用者提供的兩個漢字生成一副春聯。我們還探索了創造機器詩人的問題,提出一種基於對抗條件變分自編碼器的詩歌生成方法(CVAE-D)[9],在主旨一致性和用詞的新穎性上取得了不錯的進展。
展望未來
近三年時間裡,騰訊AI Lab相繼成立了深圳及美國西雅圖實驗室,目前團隊有70多名頂尖AI科學家及300多位經驗豐富的工程師,專注四大研究方向。
產業落地上,AI Lab將與新成立的“騰訊Robotics X”機器人實驗室擔當前沿技術雙基礎部門,深耕產業,擁抱消費及產業網際網路,做好技術標配。
機器學習
[1] 基於資料分佈遷移的超參優化演算法
https://arxiv.org/pdf/1810.06305.pdf
[2] 學習框架L2MT
https://arxiv.org/abs/1805.07541
[3] 用學習遷移實現遷移學習的方法 L2T
https://ai.tencent.com/ailab/media/publications/icml/148_Transfer_Learning_via_Learning_to_Transfer.pdf
[4] 自適應於不同環境、不同任務的合成策略
https://papers.nips.cc/paper/7393-synthesize-policies-for-transfer-and-adaptation-across-tasks-and-environments
[5] POfD
https://ai.tencent.com/ailab/media/publications/icml/152_Policy_Optimization_with_Demonstrations.pdf
[6] 完全去中心化多智慧體強化學習
https://arxiv.org/abs/1802.08757
計算機視覺
[1] 3D 實時定位
https://arxiv.org/abs/1810.05456
[2] 跟蹤和分割視訊中的物體
https://arxiv.org/abs/1803.09453
[3] 視訊描述生成任務新方法
https://arxiv.org/abs/1803.11438
[4] 視訊重定位
https://arxiv.org/abs/1808.01575
[5] TVNet
https://arxiv.org/abs/1804.00413
[6] 自動生成延時攝影視訊
https://arxiv.org/abs/1709.07592
[7] 多階段動態生成對抗網路(MD-GAN)
https://arxiv.org/abs/1709.07592
語音處理
[1] 語音喚醒模型
https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1668.pdf
[2] 基於 Inception-ResNet 的聲紋識別系統框架
https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1769.pdf
[3] 多說話人場景
https://ai.tencent.com/ailab/media/publications/MonauralMulti-TalkerSpeechRecognitionwithAttentionMechanismand_GatedConvolutionalNetworks._pdf.pdf
[4] 雞尾酒會問題
https://link.springer.com/article/10.1631/FITEE.1700814
[5] 語調韻律變化
https://ai.tencent.com/ailab/media/publications/icassp/FEATURE_BASED_ADAPTATION_FOR_SPEAKING_STYLE_SYNTHESIS.pdf
[6] 說話風格遷移
https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1991.pdf
自然語言處理
[1] 多層多頭自注意力機制的改進
https://arxiv.org/abs/1810.10181
[2] 基於忠實度的訓練框架
https://arxiv.org/abs/1811.08541
[3] 聯合學習方法
https://arxiv.org/abs/1810.06195
[4] 翻譯記憶融入
https://ai.tencent.com/ailab/nlp/papers/aaai2019_graph_translation.pdf
[5] AI輔助翻譯產品TranSmart
http://transmart.qq.com/
[6] 基於強化學習框架的回覆生成模型
https://ai.tencent.com/ailab/nlp/publications.html
[7] 跨語言神經網路置信跟蹤框架 XL-NBT
https://arxiv.org/pdf/1808.06244.pdf
[8] 對條件變分自編碼機的改進
http://aclweb.org/anthology/D18-1354
[9] 基於對抗條件變分自編碼器的詩歌生成方法(CVAE-D)
http://aclweb.org/anthology/D18-1423