成立三年有餘,AI 前線見證了這個領域內的技術演進和迭代:Theano 功成身退、PyTorch 和 TensorFlow 兩強爭鋒、預訓練模型層出不窮、明星創企墜落… 從火爆到漸趨冷靜,2019 年,我們欣喜地看到自然語言處理、計算機視覺等技術取得了不同程度的進步,並在各行各業開始落地。面對即將開始的 2020 年,AI 還有多少可能呢?
2019 年,我們經歷了什麼樣的 AI 浪潮?
在此之前,《生成式深度學習》(Generative Deep Learning)(O’ Reilly Media 2019 年出版)一書作者 David Foster 為我們進行了回顧。
強化學習
如果用一句話來描述 2019 年的人工智慧現狀,那很可能是:“強化學習(Reinforcement Learning )迴歸,看起來將永存”。
這個領域已經存在幾十年,從概念上來講,它聽起來比監督式學習更像是一種合理的創造智慧的學習機制。然而,直到 2015 年,DeepMind 才獲得了人們的關注,當時 DeepMind 使用深度 Q 學習(Deep Q-learning)建立了 Atari(雅達利) 遊戲的智慧體,這是一種結合了經典強化學習演算法和深度神經網路的演算法。2018 年,OpenAI 也透過 解決 Montezuma’s Revenge (一款被認為難度特別高的 Atari 遊戲),從而在這一領域確立了自己的地位。
在過去的幾個月裡,圍繞強化學習開展的工作越來越多,這些工作重新喚起了學術界對強化學習的信念,在過去,人們曾經認為強化學習效率低下,過於簡單,無法解決複雜的問題,甚至連遊戲的問題也不能解決。
自然語言處理
自 2018 年底以來,人們的注意力已經從過去的詞嵌入轉移到預訓練語言模型,這是自然語言處理從計算機視覺中借鑑來的一種技術。
自 Google BERT 、 ELMo 和 ulmfit 等系統在 2018 年底推出以來,自然語言處理一直風頭正茂,但今年的聚光燈被 OpenAI 的 GPT-2 給“奪走了”,它的表現引發了人們對 自然語言處理系統的道德使用的大討論。
計算機視覺技術
對人工智慧來說,創造虛假但又逼真的人物和物體的影像,已經不再是前沿領域了。從 2014 年生成對抗網路的引入 到 2019 年 NVDIA 開源的 StyleGAN ,都在對此進行證明。2019 年,人工智慧創造的藝術品甚至脫離了過去幾年的假設性討論,成為了今天 博物館裝置和拍賣 的一部分。
計算機視覺還被應用於一些具有重大商業和社會意義的領域,包括自動駕駛車輛和醫學。但是,人工智慧演算法在這些領域中的應用自然是緩慢的,因為它們直接與人類生活直接互動。至少到目前為止,這些系統還不是完全自主的,它們的目的,在於支援和增強人類操作員的能力。
2020 年,我們需要直面的問題
在 2020 年即將到來之際,AI 前線團隊結合自己對行業的觀察列舉了未來一年可能的技術趨勢。
深度遷移學習將基於預訓練模型有更多改進
2019 年,由於預訓練模型 BERT 以及 GPT 2.0 的發展,深度遷移學習成為 AI 領域的熱門詞彙。準確地說,預訓練模型是自然語言處理領域新的 baseline,如果要在完全不依賴 BERT 的基礎上,提出一個與 BERT 效果相當或者更好的新模型,目前來看可能性非常低。業界大部分 NLP 成果均是基於 BERT 的各種改進或者在對應業務場景上進行應用的,而且 BERT 的改進方向比較多,已經出現各種可用的變種 。
目前,XLNet、RoBERTa 等各種 BERT 的改進預訓練模型,雖然是透過增加預訓練的資料進一步提升效果,但除了增加資料,還做了許多模型方面的最佳化,這些突破都不是僅僅依靠堆資料就能帶來的成果。
2020 年,深度遷移學習將基於預訓練模型的演進而出現更多改進,比如對效能要求較高的場景需要對模型做一些改進和方案上的最佳化,雙向語言模型有可能出現訓練和預測不一致的現象,以及在長文字處理、文字生成任務上的不足。同樣值得期待的是,該領域未來可能會出現更加輕量級的線上服務模型。擴充到自然語言處理領域,除了不斷提升預訓練模型的效果,未來如何更好地與領域的知識圖譜融合,彌補預訓練模型中知識的不足,也是新的技術突破方向。
圖神經網路的應用邊界將繼續擴充套件
圖神經網路(GNN,Graph Neural Networks)是 2019 年 AI 領域最熱門的話題之一。雖然深度學習目前已經在諸多領域得到了顯著的應用成果,但因果推理和可解釋性仍是短板,這幾年學術界和工業界都在探索新的方向。圖神經網路是用於圖結構資料的深度學習架構,將端到端學習與歸納推理相結合,業界普遍認為其有望解決深度學習無法處理的因果推理、可解釋性等一系列瓶頸問題,是未來 3 到 5 年的重點方向。
展望來年,最可以確定的一點是 GNN 依然會保持如今快速發展的態勢。從理論研究上看,不斷解構 GNN 相關的原理、特色與不足,進而提出相應改進與擴充,是非常值得關注的部分,如動態圖、時序圖、異構圖等。另外,一直以來研究 GNN 所用的標準資料集,如 Cora、PubMed,相對來說場景單一、異構性不足,難以對複雜的 GNN 模型進行準確評價。針對這一問題,近期史丹佛大學等開源的 OGB 標準資料集有望大大改善這個現狀,在新的評價體系下,哪些工作能夠脫穎而出,值得期待。
從應用上看,除了在視覺推理、點雲學習、關係推理、科研、知識圖譜、推薦、反欺詐等領域有廣泛應用外,在其他的一些場景,如交通流量預測、醫療影像、組合最佳化等,也出現了一些 GNN 相關的工作。大體上看,如何準確有效地將圖資料與 GNN 二者有機結合到相關場景,是應用上需要著重考慮的,相信來年,會出現更多這樣的工作來擴充 GNN 的應用邊界。此外,GNN 要真正在工業界大規模落地,底層系統架構方面仍需做大量工作。業界期待著一個更為開放、高效能,且支援超大規模分散式圖網路計算的主流平臺的出現。
知識圖譜的自動化構建將成重要發展趨勢
作為認知智慧領域核心技術之一,目前知識圖譜已運用到語音助手、聊天機器人、智慧問答等熱門的人工智慧應用場景,並覆蓋泛網際網路、金融、政務、醫療等眾多領域。儘管發展火爆,但現在知識圖譜在構建和落地過程中還面臨著諸多挑戰:對人工構建的依賴度還較高,仍然缺乏從大規模資料裡獲取的手段;知識圖譜的構建技術成本很高等。為解決上述問題,目前有很多公司都在做一些自動化構建知識圖譜的探索工作,如明略科技開發了自動圖譜構建工具,將一些中間構建過程自動化;騰訊正在基於聚類演算法和強化學習結合的模式開發 schema 自動構建和根據反饋調整知識圖譜的能力…
今年,知識圖譜構建技術已經從過去的完全人工編輯,進化到了場景化定製 NLP 知識抽取配合人工模板和稽核的模式,正在經歷人工構建 - 群體構建 - 自動構建這樣的技術路線。自動化構建知識圖譜的特點是面向網際網路的大規模、開放、異構環境,利用機器學習技術和資訊抽取技術自動獲取網際網路資訊。
2020 年,可以預見的是,大規模知識圖譜的自動化、高質量構建將成為重要的發展趨勢,具體來看,知識圖譜的 schema 自動構建和圖表示推理將成為關注的重點;另一方面,隨著知識圖譜在各個行業深入落地, 會有更多面向領域知識圖譜的自動化構建方案湧現出來,比較看好醫療、智慧金融等相關知識圖譜及推理應用建設。隨著 5G 的到來,5G 知識圖譜的構建也值得期待。
5G 時代,多模態將為 AI 等領域帶來新的活力
所謂“模態”,包括視覺、聽覺、語義等,多模態即使用計算機將多種“感官”資訊的融合。近年來,人工智慧技術的蓬勃發展使得機器智慧不斷進步,多模態機器學習讓機器像人類一樣具有視覺、聽覺和語義感知、理解和決策能力,正成為未來人工智慧發展的必然方向,在自然人機互動、自動駕駛、VR/AR 等領域有巨大的應用價值。
伴隨著 5G 時代的到來,多模態在資訊處理、內容理解與創作、使用者畫像、個性化推薦等方面都將迸發出新的活力。主要表現在以下幾點:
- 藉助於多模態資訊處理,小規模樣本資料和非監督的內容理解將會有一定的突破。當前內容理解主要以資料驅動,需要大量的標註樣本。多模態包含比單模態更豐富的資訊,並且存在一定的資訊冗餘,透過多模態之間資訊相互增強和補充,在小規模樣本資料和非監督內容理解方面比單模態更有優勢。
- 多模態與知識圖譜的結合,利用基於有監督深度學習的模型分別理解各個模態,同時結合知識圖譜深入理解多模態中各模態的內部關係,進而提供更準確高效的方案。
- 目前無論單模態內容理解還是多模態內容理解,都是以資料驅動的技術,如何將所“感知”到的東西進行推理,以避免不合邏輯的識別結果也是未來研究的重點。
AI+ 產業落地值得關注
在產業落地方面,AI+ 金融、AI+ 教育、AI+ 醫療等都取得了不錯的成績。以金融領域為例,金融行業應用 AI 的難點並不在於單純的技術能力上,因為金融行業對於資料安全和隱私問題的要求天然要比其他行業更高。相對來說,金融行業的數字化、資訊化基礎相對其他行業更加完善,不少企業都擁有了自己的雲化基礎設施。
在這種情況下,其他行業可能直接對接 API 就能應用上人臉識別、文字識別等模型,但對於金融行業來說這種部署模式可能還相對粗糙。這時比較明顯的兩種部署方式分別是:一是技術服務者調整雲化方案,透過私有云、混合雲等多種部署,滿足金融行業的特殊需求;二是金融機構選擇自己研發或採購技術,對自身雲平臺的能力進行 AI 更新。
預計在 2020 年,整個產業會湧現出更多優秀實踐案例,這些案例會不斷填補 AI 在不同場景下的不足,這些實踐中,哪些經驗值得借鑑?哪些坑需要規避?哪些場景戳中了痛點?哪些場景實際上是偽需求?這些都需要我們一一鑑別。