12 月 20 日一早,上海紐約大學 15 層能夠容納 200 人的大教室裡座無虛席,一場為期兩天的人工智慧論壇即將在這裡展開。眼下的人工智慧有烈火烹油、鮮花著錦之盛,如此規模的論壇屢見不鮮,然而當你將目光投向坐滿了會場前兩排的演講者們,你就會發現這一場論壇的與眾不同:他們都太年輕了,平均年齡甚至遠低於在場的聽眾們。
演講者合影
這是一場以「青年」為主題的論壇,全稱為 Future Leaders of AI Retreat(FLAIR),由上海紐約大學終身教授張崢發起,得到了來自業界、市政府以及中國科學工程兩院的支援。它的組織形式很特別:包括深度殘差網路作者何愷明、MXNet 框架創始人李沐等在內的 5 名全球知名年輕學者組成了委員會,挑選了 16 位活躍在全球頂尖實驗室的一流博士生乃至本科生,讓這些「明日之星」們有機會坐在一起,介紹自己的工作同時瞭解對方的工作,能夠相互討論與辯論,並與國內的研究人員與業界實驗室進行交流。
座無虛席的會場
論壇分為五個單元,涉獵面從理論與核心演算法到機器人、自然語言處理、計算機視覺等多個應用領域。論壇內容非常詳實,許多演講者都以自己的研究思路為主線,串聯起多篇近期工作,呈現給聽眾關於某個特定主題一個更全域性化的視角。同時現場的氛圍非常的熱烈,每位演講者都收到了來自老師、同行、業界人士的諸多問題。而最有趣的環節則是每個單元收尾處的十五分鐘「集體 Q&A」環節,演講者們沒有做任何提前準備的情況下對主持人和聽眾拋來的問題做「快問快答」,問題大多涉及當下的熱點與趨勢。一位演講者的回答往往很能體現他或她的價值觀,而幾位演講者的觀點放在一起,就能夠反映存在於青年學者中的一些趨勢了。
問答環節
在理論及核心演算法單元的問答裡,討論的主題一直圍繞著「理論與實踐之間的鴻溝」。單元主持人、微軟研究院首席研究員 David Wipf 問起大家的 NIPS 見聞,研究資訊瓶頸(IB)的 Ravid Shwartz-Ziv 提到理論與實踐之間連線的缺乏:會議上不乏優秀的理論研究者、不乏優秀的實際應用構建者,但致力於聯通二者的學者則少之又少。隨後致力於系統與框架研究的王敏捷也進一步展開了這一話題:瞭解更多的理論知識當然具有啟發意義,但是理論研究範圍廣闊且往往十分艱深,究竟哪些理論研究有助於應用開發者,應用開發者應該瞭解理論到何種程度?研究非凸優化的杜少雷直言:「不同於上一代的凸優化或 SVM 等演算法,我不認為今天的任何深度學習理論真的有助於指導實踐。我們對於神經網路的理解還非常有限。當下我認為你不用太深入挖掘理論,可能再等十到二十年吧。」「」但 Wipf 提到,有很多理論有悖於人的直覺,因此瞭解理論會有助於研究者提出有趣的假設,並在之後通過實證方法進行驗證。杜少雷也同意這一點:在優化領域,很多大規模提高效率的演算法的來源是對理論的挖掘。
在遊戲與通用智慧單元,由於幾乎每位演講者,尤其是工作與機器人相關的幾位演講者,都把波士頓動力的機器人視訊放在了演講的開頭。因此來自 FAIR 的田淵棟提到了當下存在「基於學習的方法(learning-based approaches)與基於模型的方法(model-based approaches)之間的爭論」。研究感知與機器人學結合的朱玉可表示,學習的做法並不見得擅長解決一個非常特定的問題,然而在視覺或者自然語言領域的經驗告訴我們,學習擅長的是為大量不同任務建立一個主程式。而在之前的演講一開始就明確表示自己希望成為一名機器人學家的周佳驥說,「我當然認同我們需要擁抱學習。但我的一項個人哲學是,對於那些能夠計算出來的變數,不要動用基於學習的方法。當然,現在有很多工是計算所不能勝任而學習可以另闢蹊徑的。這二者是不矛盾的。比如作為一個致力於『能算就算』的人,我覺得我們現在急需更好的模擬器,在這方面我們需要視覺方向研究人員的幫助,來處理可以通過計算解決的問題。而基於學習方法的人需要更多的資料。只有所有的方向同時進步,我們才能得到更好的結果。」
在自然語言處理單元,深度好奇創始人呂正東提到了「傳統的基於符號的方法在未來自然語言處理中的地位」。研究生成模型的胡志挺表示,現在的情況是,儘管深度神經網路比基於符號的方法複雜很多,但在生成句子的效果上卻沒有體現出相應的優越性。而效果的不盡人意可能是由於優化方法的問題,也可能我們至今都沒抓住其核心。而他的部分工作就是試圖結合神經網路與符號方法。主攻語義的彭昊認為,在神經網路全面取代現有的自然語言處理任務中好用的模型之前,認定神經網路主宰了自然語言處理都是不妥當的。深度學習誠然改變了連續的、可微的問題的特徵工程特質,但在語言這種離散的問題上,尚且需要極為優雅的關於導數的設計才能解決相關問題。
而從所有的這些回答中,筆者獲得最深的一點體會是,一位好的研究者必然兼顧對巨集觀方向的判斷和對微觀選擇的堅持。有理論研究者對自己的研究給予「落地可能還要十到二十年」的評價,有專注機器人控制的博士生大力表達了對基於學習的方法的推崇,同時非常堅定地說,「我的哲學是能計算則計算」。他們是離潮流最近的人,因為他們對學界與業界行進的趨勢瞭若指掌,他們同時也是離潮流最遠的人,因為有明確的研究動力、清晰的分析邏輯,獨特的看待問題結構問題的視角,他們可以在瞬息萬變的的潮流裡站穩腳跟,不為所動,面向心中的目標一往無前。莊子說「舉世而譽之而不加勸,舉世而非之而不加沮」,大概就是這個意思了吧。
最後,是機器之心對本次論壇中的部分演講內容的簡要梳理。
理論及核心演算法單元
本單元中,一部分研究者試圖從數學的角度給出神經網路有效性的證明,另一部分則利用特定結構的性質構建高效的演算法。
隨機初始化的梯度下降演算法學習卷積神經網路的能力
杜少雷,卡耐基梅隆大學
杜少雷介紹了他兩篇最新的工作,都圍繞著優化神經網路這個非凸優化問題,具體來說,是隨機初始化的梯度下降方法學習卷積濾波器(convolutional filter)的能力這一主題。第一份工作展示了當輸入滿足特定結構時,隨機初始化的梯度下降演算法能夠學到一個帶 ReLU 啟用函式和平均池化的卷積濾波器。第二份工作則展示了當輸入滿足高斯分佈時,帶有權重歸一化的隨機初始化梯度下降演算法能夠學到帶有一個隱藏層的卷積神經網路。
從資訊角度揭開深度神經網路的黑箱
Ravid Shwartz-Ziv,耶路撒冷希伯來大學
Shwartz-Ziv 師從 Naftali Tishby 教授,研究方向為計算機和神經科學。他與他的導師一起,通過「資訊平面」,即深度神經網路的每一層保留了多少輸入資料的資訊,以及多少輸出標籤的資訊,來對深度神經網路進行分析,並提出了「資訊瓶頸」概念。今天的展示中,Shwartz-Ziv 展示了一些以「資訊平面」分析神經網路的新見解,包括:
1. 訓練可以分為兩個階段,分別是隱藏層(1)擬合(fitting)訓練資料、增加與標籤的互資訊,和(2)壓縮(compression)表示、減少與輸入的互資訊。資訊時分層次被學習的,存在部分重疊。
2. 大部分訓練時間花費在壓縮表示,即第二階段上,即使訓練過程中沒有正則化或者直接的壓縮模組。
3. 每個隱藏層的收斂點都位於或接近資訊瓶頸的理論極限,因此從輸入層到隱藏層、從隱藏層到輸出層的對映服從資訊瓶頸的壓縮-預測權衡曲線。
4. 在深度學習中,隨機梯度下降可以實現這種最優,即每一層的壓縮狀態能夠使限制條件鬆弛到服從標籤誤差的最大條件熵狀態。
非凸稀疏盲解卷積:全域性幾何結構和高效方法
張雨倩,哥倫比亞大學
作為一名電子工程學系的博士生,張雨倩並不是某一類機器學習演算法本身的研究者,她更多關注如何為計算機視覺、科學資料分析等應用領域開發高效、可靠、穩健的演算法。本次她帶來的分享主題與「盲解卷積」有關,這些演算法非常有助於模糊/馬賽克圖片的復原。
「盲解卷積」,即從卷積中同時恢復卷積核和啟用訊號相關,然而這本身就是一個不適定的問題。本次,張雨倩通過分析稀疏盲解卷積的全域性幾何結構,來介紹如何找出高效的演算法來解決這個高度非凸的問題。她的工作將卷積核歸一化為單位 Frobenius 範數,然後將盲解卷積問題變為核空間內的非凸優化問題。並且證明:
1. 在一定條件下,每個區域性最優解都是好的,都接近於某些經過位移和截斷的真實情況
2. 對於球面上的通用濾波器來說,當啟用訊號的稀疏度小於 O(k^{-2/3})、觀測次數大於 poly(k),可以證明某些經過位移和截斷的真實情況是可得的。
對抗正則化自編碼器和誤差編碼網路
趙俊博,紐約大學
趙俊博是一名博士二年級學生,他師從 Yann Lecun 教授,主要研究方向為視覺和語言領域的深度學習和無監督學習方法。本次他介紹了一些正則化自編碼器的最新進展。自編碼器是一種重要的表示學習方法,然而在實現中需避免其落入退化解(degenerate solution),對原函式做無意義的複製。為了防止自編碼器落入退化解而採用的一系列措施,如新增稀疏性先驗、變分自編碼器或者注入噪聲等,可稱為「正則化」。本次趙俊博介紹了對抗性正則自編碼器(ARAE)和誤差編碼網路(EEN),兩種正則化自編碼器結構,前者能夠實現最優水平的非對齊文字樣式轉換,後者能夠對時間序列資料進行魯棒的多模態條件預測。
遊戲與通用智慧單元
本單元中的演講者均有一定的機器人學背景,一些人以學習的方式探索機器人的可能性,另一些則專注於經典的控制理論。
用於機器人的樣本高效的深度強化學習:整合線上策略、離線策略和基於模型的方法
顧世翔,劍橋大學
顧世翔在本科階段就與 Geoffrey Hinton 教授一起完成了有關神經網路分散式訓練的論文,現在在劍橋大學 Max Planck 智慧系統研究院從事深度學習與機器人學相關研究,與 UC Berkeley 的 Sergey Levine 和 DeepMind 的 Timothy Lillicrap 多有合作。本次他主要介紹瞭如何應用 Q-Prop 結合線上策略與離線策略模型、用時序差分模型(TDM)整合基於模型的方法和基於離線策略的費模型方法。提高取樣效率,從而將深度強化學習用於機器人等實際應用中。
走向具有感知能力的可泛化的機器人學習
朱玉可,史丹佛大學
朱玉可師從李飛飛教授,主攻視覺知識與機器人學。他表示雖然單一任務的機器人發展很迅速,但是一旦改換任務,機器人就無法泛化。他展示瞭如何整合感知與機器人具身從而使機器人獲得更強的泛化能力。
遊戲中的人工智慧:成果與挑戰
田淵棟,Facebook 人工智慧研究中心
田淵棟主要介紹了 ELF,一個大範圍、輕量級靈活的實時策略遊戲研究平臺。
自然語言處理與計算機視覺單元
本單元中,除了在校的博士生外,也有兩位來自業界的嘉賓給出了不同視角的觀點。
自然語言處理的現狀與未來 - 以對話為例
李航,頭條人工智慧實驗室
李航主要以對話系統為例給出了自然語言處理課題的近況與發展方向的綜述。他介紹了自然語言處理的五個基本問題:分類、匹配、翻譯、結構預測和序列決策過程。簡介了單輪與多輪對話的模型構建要點,並給出了當前趨勢與未來方向:神經符號處理、深度增強學習、語義落地、模組化和分層處理以及元學習。
統一深度生成模型
胡志挺,卡耐基梅隆大學
胡志挺師從邢波教授,主攻方向為用於自然處理的建模與推理,特別是文字生成方向。本次他帶來的工作介紹偏重理論層面,以新角度闡釋生成對抗網路(GAN)與變分自編碼器(VAE),從而建立二者之間的聯絡。統一的觀點為分析兩種模型的各變種提供了有力的工具,並可以將在一種結構上有效的方法遷移到另一種結構上。例如可以將 VAE 中的重要性權重辦法用於 GAN。
系統單元及人工智慧在創意藝術領域的應用
TVM:深度學習系統的端到端中間表示堆疊
陳天奇,華盛頓大學
陳天奇目前的研究方向集中在分散式深度機器學習。他是 DMLC 專案的發起人,本次他主要介紹了 TVM,是與模組化深度學習系統 NNVM 一起,組成深度學習到各種硬體的完整優化工具鏈的解決方案,提供一箇中間層,使不同框架開發的機器學習模型能夠部署到不同硬體上。
對抗神經網路指導的眾包服裝設計
大曾根巨集幸、佐藤大哲,筑波大學
大曾根巨集幸和佐藤大哲是筑波大學本科二年級的學生,他們是本次論壇最年輕的演講者。他們本次介紹的工作入選了 NIPS 2017。他們展示了 DeepWear,用深度卷積對抗生成網路(DCGAN)學習特定品牌的服裝特徵並生成影像,用影像指導圖案的生成,並在此基礎上設計服裝。