機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

李澤南發表於2017-12-30

2016 年,人工智慧行業經歷了語音識別準確率飆升、神經機器翻譯重大突破、影像風格遷移的興盛。2017 年,人們對於AI領域的期待變得更高了,不過在這一年裡,各家科研機構和大學仍為我們帶來了很多激動人心的研究成果。本文將試圖對2017年人工智慧領域實現的重要科研成果進行盤點。

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

來自谷歌大腦負責人Jeff Dean的Keynote:人們在 arXiv上提交的機器學習論文數量正遵循摩爾定律增長。人工智慧技術的發展速度是否也有這麼快?

AlphaGo:從“零”開始

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

今天,每當聊起人工智慧,我們就不得不提AlphaGo,這款由谷歌旗下研究型公司DeepMind開發的著名圍棋程式在2017年再次掀起了AI的熱潮。從年初借“Master”名義在網路圍棋平臺上迎戰各路人類圍棋高手,到5月與柯潔等人的“人機最後一戰”,AlphaGo的故事在10月份以又一篇Nature論文“AphaGo Zero”再次展示了計算機在圍棋上強大的能力;緊隨而至的AlphaZero則將這種強大泛化到了其他領域中。

機器之心也親歷了AlphaGo事件的始末。在5月份人機大戰時,除了現場報導之外,我們還邀請了阿爾伯塔大學教授、計算機圍棋頂級專家 Martin Müller 以及《深度強化學習綜述》論文作者李玉喜博士,共同觀看了比賽直播。Müller 教授所帶領的團隊在博弈樹搜尋和規劃的蒙特卡洛方法、大規模並行搜尋和組合博弈論方面頗有建樹。實際上,參與了大師級圍棋程式 AlphaGo 的設計研發的 David Silver 和黃士傑(Aja Huang)(他們分別是第一篇 DeepMind 的 AlphaGo 相關 Nature 論文的第一作者和第二作者)都曾師從於他。

在擊敗柯潔等中國圍棋名手之後,隨著DeepMind宣佈人機大戰計劃結束,AlphaGo的故事似乎已經結束。然而在10月18日,DeepMind的又一篇Nature論文《Mastering the game of Go without human knowledge》再次讓全世界感到震驚。在論文中,DeepMind 首次展示了全新版本的 AlphaGo Zero —— 無需任何人類知識標註。在歷時三天,數百萬盤的自我對抗之後,它可以輕鬆地以 100 比 0 的成績擊敗李世乭版本的AlphaGo。DeepMind 創始人哈薩比斯表示:「Zero 是迄今為止最強大,最具效率,最有通用性的 AlphaGo 版本——我們將見證這項技術很快應用到其他領域當中。」

沒等多久,哈薩比斯的宣言就初步實現了,在12月NIPS 2017大會舉行期間,DeepMind又放出了一篇論文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》,其中描述了使用AlphaGo Zero技術,並可泛化至其他領域任務的新一代演算法AlphaZero。新的演算法可以從零開始,通過自我對弈強化學習在多種任務上達到超越人類水平。據稱,它在經過不到 24 小時的訓練後,可以在國際象棋和日本將棋上擊敗目前業內頂尖的計算機程式(這些程式早已超越人類世界冠軍水平),也可以輕鬆擊敗訓練 3 天時間的 AlphaGo Zero。

12月11日,DeepMind釋出了圍棋教學程式,其中收錄了約6000個近代圍棋史上的主要開局變化,所有變化都附帶了AlphaGo評估的勝率。DeepMind希望以此推動人類圍棋水平的進步,在公佈之後,AlphaGo的重要研究成員黃士傑博士宣佈離開專案,轉向DeepMind旗下的其他方向研究,此舉宣告了AlphaGo在圍棋方向上的研究告於段落。

延伸閱讀:

德州撲克擊敗人類:DeepStack 與 Libratus

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

德州撲克這種複雜的撲克遊戲已經被人工智慧(AI)掌握。而且這個遊戲還不是被征服了一次——兩個不同的研究團隊所開發的 bot 都在一對一德州撲克比賽上完成了擊敗人類的壯舉。今年1月份,卡耐基梅隆大學(CMU)開發的名為 Libratus 的人工智慧程式在賓夕法尼亞州匹茲堡的 Rivers 賭場為期20天的一對一德撲比賽中擊敗了4 名人類職業玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou。而在另一邊,加拿大阿爾伯塔大學、捷克布拉格查理大學和捷克理工大學的研究者聯合發表的論文《Deepstack: Expert-level artificial intelligence in heads-up no-limit poker》出現在了著名學術期刊《Science》上,該研究團隊展示了人工智慧已經在無限制撲克(No-Limit Poker)遊戲上達到了專家級的水平。

與資訊完全公開的圍棋不同,德州撲克是「不完美資訊(imperfect information)」類博弈,能反映真實生活中我們面臨問題時的場景,諸如拍賣以及業務談判,因而在德州撲克上的技術突破也意味著人工智慧技術的發展速度正在加快。

有趣的是,在解決同樣的問題時,DeepStack與Libratus採取的方式不盡相同:DeepStack採用的是深度學習針對大量牌局變化進行訓練(超過1100萬局),從而獲得在實際比賽時對獲勝概率擁有“直覺”;而Libratus採用的是基於納什均衡的博弈求解技術。

延伸閱讀:

  • 業界 | 人工智慧將挑戰德州撲克,與人類爭奪20萬美元獎金
  • 重磅 | 德撲人機大戰收官,Libratus 擊敗世界頂尖撲克選手
  • 學界 | 新論文提出玩撲克人工智慧DeepStack:已達職業玩家水平
  • NIPS 2017最佳論文出爐:CMU冷撲大師不完美資訊博弈研究獲獎

自歸一化神經網路

《Self-Normalizing Neural Networks》是今年6月份在 arXiv 上公開的一篇機器學習論文,後被NIPS 2017大會接收,它的作者為奧地利林茲大學的Günter Klambauer、 Thomas Unterthiner與 Andreas Mayr。這篇論文在提交後引起了圈內極大的關注,它提出了縮放指數型線性單元(SELU)而引進了自歸一化屬性,該單元主要使用一個函式 g 對映前後兩層神經網路的均值和方差以達到歸一化的效果。值得注意的是,該論文作者 Sepp Hochreiter 曾與 Jürgen Schmidhuber 一同提出了 LSTM,之前的 ELU 同樣來自於他們組。回到論文字身,這篇 NIPS 論文雖然只有 9 頁正文,卻有著如同下圖一樣的 93 頁證明附錄:

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

不知當時審閱這篇論文的學者心情如何。無論如何,它提出的方法可以讓你稍稍修改ELU啟用就能讓平均單位啟用趨向於零均值/單位方差(如果網路足夠深的話)。如果它最終是正確的方向,批處理規範就會變得過時,而模型訓練速度將會大大加快。至少在論文中的實驗裡,它擊敗了BN + ReLU的準確性。

論文連結:https://arxiv.org/abs/1706.02515

延伸閱讀:

引爆機器學習圈:「自歸一化神經網路」提出新型啟用函式SELU 

GAN 及其各種變體

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

2016 年,Yann LeCun 曾稱 GAN 是深度學習領域最重要的突破之一,而我們在2016年也看到了GAN 變體衍生的苗頭,比如 Energy-based GAN 和最小二乘網路GAN。到了 2017 年初,我們就看到了各種GAN變體如雨後春筍般出現,其中一篇名為WGAN的論文在年後不久引發了業界極大的討論,有人稱之「令人拍案叫絕」。

從 2014 年 Ian Goodfellow 提出GAN 以來,它就存在著訓練困難、生成器和判別器的 loss 無法指示訓練程式、生成樣本缺乏多樣性等問題。雖然後續的變體都在嘗試解決這些問題,但效果不盡人意。而 Wasserstein GAN 成功做到了以下幾點:

  • 徹底解決 GAN 訓練不穩定的問題,不再需要小心平衡生成器和判別器的訓練程度
  • 基本解決了 collapse mode 的問題,確保了生成樣本的多樣性 
  • 訓練過程中終於有一個像交叉熵、準確率這樣的數值來指示訓練的程式,這個數值越小代表 GAN 訓練得越好,代表生成器產生的影像質量越高(如題圖所示)
  • 以上一切好處不需要精心設計的網路架構,最簡單的多層全連線網路就可以做到

除了 WGAN,也有其他多種 GAN 的變體於 2017 年出現,我們以資源列表的形式為大家列出:

然而到了年底,谷歌大腦的一篇論文對目前火熱的GAN研究敲響警鐘。在一篇名為《Are GANs Created Equal?A Large-Scale Study》的論文中, 研究人員對 Wasserstein GAN等GAN目前的六種變體進行了詳盡的測試,得出了“沒有找到任何證據證明任何一個演算法優於原版演算法”的結論(參見:六種改進均未超越原版:谷歌新研究對GAN現狀提出質疑)。或許我們應該更多地把目光轉向到新架構上了。

深度神經網路碰上語音合成

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

近年來,隨著深度神經網路的應用,計算機理解自然語音的能力有了徹底革新,例如深度神經網路在語音識別、機器翻譯中的應用。但是,使用計算機生成語音(語音合成(speech synthesis)或文字轉語音(TTS))仍在很大程度上基於所謂的拼接 TTS(concatenative TTS)。而這種傳統的方法所合成語音的自然度、舒適度都有很大的缺陷。深度神經網路,能否像促進語音識別的發展一樣推進語音合成的進步,也成為了人工智慧領域研究的課題之一。

2016 年,DeepMind 提出了WaveNet,在業內引起了極大的關注。WaveNet 可以直接生成原始音訊波形,能夠在文字轉語音和常規的音訊生成上得到出色的結果。但就實際應用而言,它存在的一個問題就是計算量很大,沒辦法直接用到產品上面。因此,這個研究課題還有非常大的提升空間。

2017 年,我們見證了深度學習語音合成方法從實驗室走向產品。從機器之心關注到的內容,我們簡單梳理出瞭如下研究:

  • 谷歌:Tacotron、WaveNet(應用於谷歌助手)
  • 百度:Deep Voice、Deep Voice 2(NIPS 2017)、Deep Voice 3(提交 ICLR 2018)
  • 蘋果:hybrid unit selection TTS system (應用於Siri)

延伸閱讀:

  • 業界 | 百度提出 Deep Voice:實時的神經語音合成系統
  • 業界 | 百度提出神經TTS技術Deep Voice 2:支援多說話人的文字轉語音
  • 業界 | 百度釋出Deep Voice 3:全卷積注意力機制TTS系統
  • 業界 | 歷經一年,DeepMind WaveNet語音合成技術正式產品化
  • 學界 | 谷歌聯合英偉達重磅論文:實現語音到文字的跨語言轉錄
  • 學界 | Yoshua Bengio 等人提出 Char2Wav:實現端到端的語音合成

大批量資料並行訓練ImageNet

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

深度學習隨著大型神經網路和大型資料集的出現而蓬勃發展。然而,大型神經網路和大型資料集往往需要更長的訓練時間,而這正好阻礙研究和開發程式。分散式同步 SGD 通過將小批量 SGD(SGD minibatches)分發到一組平行工作站而提供了一種很具潛力的解決方案。然而要使這個解決方案變得高效,每一個工作站的工作負載必須足夠大,這意味著 SGD 批量大小會有很大的增長(nontrivial growth)。今年6月,Facebook 介紹了一項研究成果——一種將批量大小提高的分散式同步 SGD 訓練方法,引發了一場“快速訓練ImageNet”的競賽。隨著參與研究的機構越來越多,截止11月,UC Berkeley的研究人員已將ResNet-50在ImageNet上的訓練時間縮短到了48分鐘。

延伸閱讀:

  • 學界 | Facebook 新研究:大批量SGD準確訓練ImageNet僅需1小時
  • 繼1小時訓練 ImageNet 之後,你見過採用3萬大批量SGD的模型嗎?
  • 120萬美元機器24分鐘訓練ImageNet,UC Berkeley展示全新並行處理方法

革新深度學習:Geoffrey Hinton與 Capsule

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

眾所周知,最近一波人工智慧行業浪潮是由深度學習及其發展引發的。然而,這一方法是否能夠將人類帶向通用人工智慧?作為深度學習領軍人物,關鍵機制反向傳播提出者之一的Geoffrey Hinton率先提出拋棄反向傳播,革新深度學習。他的創新方法就是Capsule。

Capsule 是由深度學習先驅 Geoffrey Hinton 等人提出的新一代神經網路形式,旨在修正反向傳播機制。在 Dynamic Routing Between Capsules 論文中,Geoffrey Hinton 這樣介紹 Capsule:「Capsule 是一組神經元,其輸入輸出向量表示特定實體型別的例項化引數(即特定物體、概念實體等出現的概率與某些屬性)。我們使用輸入輸出向量的長度表徵實體存在的概率,向量的方向表示例項化引數(即實體的某些圖形屬性)。同一層級的 capsule 通過變換矩陣對更高階別的 capsule 的例項化引數進行預測。當多個預測一致時(本論文使用動態路由使預測一致),更高階別的 capsule 將變得活躍。」

Capsule 中神經元的啟用情況表示了影像中存在的特定實體的各種性質。這些性質可以包含多種不同的引數,例如姿勢(位置、大小、方向)、變形、速度、反射率、色彩、紋理等。而輸入輸出向量的長度表示了某個實體出現的概率,所以它的值必須在 0 到 1 之間。

機器之心也詳細解讀了10月 Hinton 公開的論文,這篇論文的亮點在於 Capsule 層的輸入與輸出都是向量,構建向量的過程可以認為是 PrimaryCaps 層利用 8 個標準的 Conv2D 操作產生一個長度為 8 個元素的向量,因此每一個 Capsule 單元就相當於 8 個卷積單元的組合。此外,在 Capsule 層中,Hinton 等人還使用了動態路由機制,這種更新耦合係數(coupling coefficients)的方法並不需要使用反向傳播機制。

除了 Hinton 等人公佈的 Capsule 論文以外,還有一篇 MATRIX CAPSULES WITH EM ROUTING 論文,該論文采用 EM Routing 修正原論文的 dynamic routing 從而實現更好的效果。

延伸閱讀:

超越神經網路?Vicarious 提出全新概率生成模型

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

代表字母 A 的四層遞迴皮質網路結構


儘管曾受到 Yann LeCun 等人的質疑,但知名創業公司Vicarious提出的生成視覺模型論文仍然發表到了Science上。這種全新的概率生成模型(又名遞迴皮質網路)能在多種計算機視覺任務中實現強大的效能和高資料效率,具有識別、分割和推理能力,在困難的場景文字識別等基準任務上超過了深度神經網路。研究人員稱,這種方法或許會將我們帶向通用人工智慧。

該模型表現出優秀的泛化和遮擋推理(occlusion-reasoning)能力,且更具有 300 倍的訓練資料使用效率(data efficient)優勢。此外,該模型還突破了基於文字的全自動區分計算機和人類的圖靈測試 CAPTCHA,即在沒有具體驗證碼的啟發式方法下分割目標。

「我認為 CAPTCHA 是一個『完全的 AI 問題』。如果你完全地解決了這種型別的問題,那你就得到了通用人工智慧。」Vicarious CTO George 告訴機器之心,為了能徹底識別 CAPTCHA,模型必須能識別任何文字。不只是驗證碼,即使有人在紙上隨便寫什麼形式的字型(就像 PPT 裡的藝術字一樣),模型也需要識別出來。

遞迴皮質網路不只是用來攻破 CAPTCHA,它還將被應用在控制、推理、機器人技術上。近兩年,Vicarious AI 已經在實驗室裡研究如何將技術應用到工業機器人上。工業機器人是目前 Vicarious AI 技術落地的方式,但並不意味著 Vicarious AI 會就此止步。Vicarious AI 希望在 2040 年前後實現高等智慧的 A.I.。


延伸閱讀:

從TPU到NPU:席捲所有裝置的神經網路處理器

機器之心年度盤點:2017年人工智慧領域度備受關注的科研成果

人工智慧的最近一次浪潮起源於 2011 年前後深度學習引起的大發展。從語音識別到訓練虛擬助理進行自然交流,從探測車道線到讓汽車完全自動駕駛,資料科學家們在技術的發展過程中正一步步攀登人工智慧的新高度。而解決這些日益複雜的問題則需要日益複雜的深度學習模型。而在其背後,快速發展的 GPU 技術功不可沒,硬體計算能力突破是這次深度學習大發展背後的原因。

近年來,人們逐漸認識到計算晶片對於人工智慧的重要性,圍繞 AI 任務進行專有加速的晶片越來越多,2017年也成為了深度學習計算專用晶片不斷投入商用的一年。無論是 AlphaGo 背後的谷歌 TPU ,還是加入了全新 Tensor Core 結構的英偉達 Tesla V100,為伺服器端設計的深度學習專用晶片已經獲得了大規模應用,成為了雲服務基礎設施必不可少的一部分。而在移動端,對於機器學習任務加速的 SoC 也隨著蘋果A11(Neural Engine)與華為麒麟970(NPU)的推出而來到了使用者的手中。今天,一些神經網路已經可以塞進智慧手機中,為多種APP提供判斷能力,而科技巨頭的伺服器正以前所未有的高效率處理無數有關機器學習的任務請求,我們所設想的人工智慧生態體系正在逐漸成型。

延伸閱讀:

  • 重磅 | 谷歌釋出TPU研究論文,神經網路專用處理器是怎樣煉成的?
  • 英偉達Volta架構深度解讀:為深度學習而生的Tensor Core到底是什麼?
  • 機器之心獨家解讀:華為首款手機端AI晶片麒麟970

總結

從AlphaGo技術通用化到Geoffrey Hinton傾力推動的Capsule,我們可以看到,2017年的人工智慧行業不僅正將技術落地,也在向實現通用AI的終極挑戰不斷進發。隨著我們對於深度學習探索的深入,新技術的利與弊已經逐漸展現在了我們的眼前,除了打造產品服務使用者,探索新的方向是刻不容緩的任務。在2018年,人工智慧領域將面臨怎樣的變革?讓我們共同期待。

延伸閱讀:機器之心獨家盤點:2016人工智慧領域十大焦點回顧

相關文章