更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
幾十年來,這一直是科幻小說中不斷出現的主題,但由於過去幾年人工智慧的飛速進展,這場辯論又重新展開,並且愈演愈烈。越來越多的媒體和主流聲音開始警告我們通用人工智慧的到來,他們宣稱這一過程要比我們想象的要快得多。例如最近上映的一部新紀錄片:《你相信這臺電腦嗎?》由埃隆·馬斯克出資製作,首映後吸引了來自學術界和工業界的眾多 AI 專家。這部紀錄片描繪了一幅令人驚歎的人工智慧畫面,即“地球上的新生命形式”,它們將“用它們的觸角”環繞著我們。越來越多的故事指向 AI 的一個可怕的方面:例如一些可以替代現實的創造(假的名人面部產生器和 deepfakes,有可能在不久的將來還會配有視訊生成和語音合成),波士頓動力學公司詭異的視訊(最新的:機器人合作開啟一扇門),以及關於谷歌的 AI 變得具有“高度攻擊性”的報導。
然而,作為一個在 AI 的“戰壕”中花費了大量時間的投資者,我在這個話題上經歷過相當多的認知失調。我每天都與很多 AI 企業家交流,而我瞭解的情況是完全不同的:即使你解決了某個特定問題,僱傭了一個專業的機器學習工程師,並籌集了數百萬美元的風險投資,仍然很難為現實世界構建一個人工智慧產品。顯然,即使是“狹義”的人工智慧,在真實世界中需要 100% 正確執行的情況下,還遠遠沒有達到正常工作的水平,最近由於自動駕駛造成的人員死亡事件便是最悲慘的證明。
那麼現實情況到底是什麼樣呢?技術的指數發展讓通用人工智慧看起來像是在可及的未來,但突然我們發現情況並不是這樣。我們是否即將達到拐點?
許多關於 AI 的文章都是在講如何打造 AI 應用程式和初創公司,而在這篇文章中,我看起來是在 AI 研究的世界中逆流而上,我試著去了解誰在做什麼工作,以及 AI 研究實驗室可能發明什麼新東西。幾周前我有幸出席了一個很棒的 Workshop,是在 NYU 舉行的大腦和機器的規範計算(Canonical Computation in Brains and Machines)討論會,對我特別有啟發性,也是這篇文章的主要內容來源。
關於 AI 創業活動呈爆炸式發展的報導源源不斷,據 2017 的報告顯示,有 152 億的風險資本流入了 AI 創業公司,但在 AI 研究的上游也出現了同樣的情況。
AI 領域論文的總數量自 2012 年急劇增加,甚至出現了像 Arxiv Sanity Preserver 這樣的專案,這是一個可以訪問超過 45000 篇論文的瀏覽器,由 Andrej Karpathy 推出,因為“事情已經嚴重失控”。
NIPS 是一個從 1987 年開始的高水平學術會議,曾經只是一個很小的、鮮為人知的事件,但是到 2017 年已經有 8000 人參加。
人工智慧研究正在日益全球化。除了美國的大學(例如麻省理工學院 CSAIL 實驗室),還有一些最先進的人工智慧研究中心位於加拿大(特別是多倫多,多倫多大學和新的 Vector 研究所,以及蒙特利爾,包括 MILA),歐洲(倫敦,巴黎,柏林),以色列。而且,中國的學者也越來越多。有趣的是,AI 學術界開始出現越來越多出色的年輕學者,包括一些青少年,他們精通技術,並且有前瞻性思維,這大概是人工智慧工具和教育民主化的結果。
另一個主要的趨勢是越來越多的基本人工智慧研究已經走進大型網際網路公司。當然,公司贊助實驗室這一模式並不是新出現的,比如貝爾實驗室。但是該模式在 AI 領域完全是另一種風景。Alphabet 和 Google 分別擁有 Deepmind(一個 2014 年的初創公司,現在有一個 700 人的團隊,主要集中研究基本的人工智慧,由 Demis Hassabis 管理)和谷歌大腦(由 Jeff Dean、Greg Corrado 和 Andrew Ng 於 2011 年成立,更關注人工智慧的應用)。Facebook 有 FAIR 實驗室,由深度學習之父其中的 Yann LeCun 領導。微軟有 MSR AI。Uber 擁有 Uber AI 實驗室,收購自紐約初創公司 Geometric Intelligence。阿里巴巴有阿里巴巴 AI 實驗室,百度有百度研究院,騰訊有騰訊人工智慧實驗室。
這些工業實驗室擁有雄厚的資源,並且能夠支付數百萬美元來吸引頂尖研究人員。與人工智慧研究者對話中反覆出現的一個主題是,如果初創公司都很難吸引那些在機器學習領域獲得博士學位的學生,學術界將更難保留他們。
上述許多實驗室都在明確地或暗中追求通用人工智慧(AGI)。
此外,人工智慧研究,特別是那些工業實驗室,能夠獲得兩個十分關鍵的資源:資料和計算能力。
目前可以用來訓練人工智慧的 資料 越來越多,而像谷歌和 Facebook 這樣的網際網路巨頭在開發通用的人工智慧解決方案方面有很大的優勢。在中國也有類似的情況,大量的資料池被聚集在一起,以訓練智慧人臉識別,獨角獸初創公司像 Megvii(又名 Face+ +)和商湯成了最大的受益者。在 2017,中國啟動了一個叫做“雪亮工程”的計劃,集中監視和處理來自 50 多箇中國城市的監控攝像機(公共和私人)。
除了資料之外,另一個可能導致 AGI 的變化是 計算能力的巨大加速,尤其是在近幾年。這是在利用現有硬體,並且為 AI 專門打造新的高效能硬體方面取得進展的結果,進步的速度已經 超過了摩爾定律。
在 2012 年贏得 ImageNet 競爭的團隊使用了 2 個 GPU 來訓練他們的網路模型。在當時花了 5 到 6 天,已經被認為是最快的訓練速度。在 2017,Facebook 宣佈,他們已經能夠在 256 小時內使用 1 個 GPU 來訓練 ImageNet。僅僅幾個月之後,一支來自 Preferred Networks 的日本隊伍打破了這一紀錄,用 1024 個 NVIDIA 特斯拉 P100 GPU 只用了 15 分鐘就可以訓練 ImageNet。
但這可能只是一場熱身運動,因為全世界現在都在競相製造越來越強大的人工智慧晶片和圍繞它們的硬體。2017 年,谷歌釋出了第二代張量處理單元(TPU),專門用於加速機器學習任務。每個 TPU 可以提供 180 萬億次浮點運算效能(用於機器學習模型的推理和訓練)。這些 TPU 可以被叢集化,從而產生超級計算機——由 1000 個雲 TPU 組成的系統可供願意公開分享工作的 AI 研究者們使用。
在初創公司圈子裡也有許多活躍的資金雄厚的新興硬體公司,如 Cerebras,Graphcore,Wave Computing,Mythic 和 Lambda,以及中國初創公司 Horizon Robotics,Cambricon 和 DeePhi。
最後,圍繞量子計算和光學計算出現了新的硬體創新。雖然從研究角度來看還處在早期階段,但是谷歌和 IBM 在量子計算方面都取得了一些有意義的進展,這將會使 AI 進入新的發展階段。
計算能力的巨大增長開啟了用越來越大的資料量來訓練人工智慧的大門。它還使 AI 研究人員能夠更快地執行實驗,加速進展,並創造新的演算法。
OpenAI(Elon Musk 的非營利研究實驗室)一直強調的一點是,當五年前演算法在相對普通的硬體上執行時,人工智慧的力量已經讓我們感到震驚——誰知道我們有了現在這些計算能力會發生什麼?(參考 Greg Brockman,OpenAI 的 CTO 在 TWiML & AI 上發表的部落格:Towards Artificial General Intelligence with Greg Brockman。)
2012 年的 ImageNet 競賽深受深度學習的推動,帶來了人工智慧的驚人復甦。這一統計學技巧,由包括 Geoff Hinton、Yann LeCun 和 Yoshua Bengio 在內的數個人工智慧研究者開創和完善,包括逐步改進結果的多層處理方法(發表在 2015 年 Nature 的論文:Deep Learning)。這是一種古老的技術,可以追溯到 20 世紀 60 年代、70 年代和 80 年代,但是在提供了足夠的資料和計算能力時,它突然顯示了自己的真正力量。
幾乎所有 AI 產品的發展都是由深度學習推動的,從 Alexa 到 AI 在放射學中的應用,到 HBO《矽谷》電視劇中“是不是熱狗”的惡搞軟體。深度學習在各種語音識別、影像分類、目標識別和一些語言問題中已被證明是非常有效的。
從 AGI 的角度來看,深度學習激發了想象力,因為它能做到的遠遠超過它被程式設計的範圍,例如,讓機器圍繞著想法來分組影像或單詞(如“紐約”和“美國”),而沒有明確地告知這些影像或單詞之間有聯絡(例如“紐約位於美國”)。人工智慧研究員自己也並不能準確地理解為什麼深度學習能做到這一點。
然而,有趣的是,儘管其他人開始廣泛地接受從消費者到企業應用的深度學習,AI 研究界懷疑它是否正在走下坡路。Geoff Hinton 本人在 2017 年 9 月的一次會議上質疑反向傳播,而這正是他發明的神經網路的核心,並且他建議讓大家從頭開始,這給 AI 研究領域帶來了一定衝擊。Gary Marcus 在 2018 年 1 月的一篇論文中提出了十個關於深度學習的擔心,並提出“如果我們要達到通用人工智慧,就必須通過其他技術來補充深度學習”。
大部分討論似乎都集中在“監督”學習——需要顯示大量標記的樣本來訓練機器識別相似的模式。
AI 研究社群現在似乎同意,如果我們要實現 AGI,需要對無監督學習付出更多的努力和關注——在沒有標記資料的情況下訓練。無監督學習有很多種變體,包括自動編碼器、深度置信網路和 GAN。
GAN,或稱“生成對抗網路”,是一種最近才興起的方法,與無監督深度學習直接相關,由 Lan Goodfellow 在 2014 開創,那時他還是蒙特利爾大學的一名博士生。GAN 通過在兩個神經網路之間建立競爭,在相同的資料上進行訓練。一個網路(生成器)生成儘可能逼真的輸出(如照片);另一個網路(鑑別器)將照片與訓練資料集進行比較,並嘗試區分每個照片是真的還是假的;然後生成器調整其引數,產生新影像,然後一直迴圈。GAN 已經有了自己的變體,2017 年一年內就出現了 GAN 的多個版本,(WGAN,BEGAN,CycleGan,Progressive GAN)。最後一種方法通過逐步訓練 GAN,NVIDIA 用其生成了假名人的高清臉部照片。
另一個發展速度相似的相關領域是 強化學習——AI 可以通過一次又一次地嘗試教會自己如何做某事,將好的動作(可以獲得獎勵)從壞的中分離出來,並且每次改變自己的方法,直到掌握這個動作。強化學習是一種可以追溯到 20 世紀 50 年代的另一種技術,長期以來被認為是一種有趣但不是很有用的想法。
然而,2013 年底這一切都改變了,當時的 DeepMind,一個獨立的初創公司,教會了 AI 玩 22 種雅達利 2600 遊戲,都達到了超越人類的水平。在 2016 年,AlphaGo,一個經過強化學習的 AI,打敗了韓國圍棋大師 Lee Sedol。就在幾個月前,2017 年 12 月,AlphaZero,AlphaGo 的更泛化且更強大的版本,使用了同樣的方法掌握了不僅僅是圍棋,而且還有象棋和將棋。除了遊戲規則之外,沒有任何人的指導,AlphaZero 僅僅在四個小時之內就教會了自己如何成為一個象棋大師。在 24 小時內,AlphaZero 能夠擊敗這 3 種遊戲中所有的目前最先進的人工智慧程式(Stockfish,elmo 和 3 天版本的 AlphaGo)。
AlphaZero 離通用人工智慧有多近?Demis Hassabis,DeepMind 的執行長,稱 AlphaZero 的風格是“外星人的”,因為它贏得棋局完全靠違反直覺的行動,比如犧牲棋子。看到一個計算機程式將最複雜的人類遊戲在短短几小時內修煉到世界級的水平是一種令人生畏的體驗,它已經接近於某種形式的智力。
AI 領域中出現的一個反對理論是 AlphaZero 的訓練過程其實屬於暴力演算法:AlphaZero 通過使用 5000 個第一代 TPU 和 64 個第二代 TPU 進行自我博弈來訓練。訓練完成後,需要執行在一臺具有 4 個 TPU 的機器上。在強化學習中,人工智慧研究者指出,人工智慧不知道它實際上在做什麼(比如玩遊戲),只是受限於它所給定的特定約束(遊戲規則)。可以參考這篇部落格文章:AlphaZero 是否真的是一個科學突破?。
當提到 AGI,或者甚至是普遍的機器學習,一些研究人員對遷移學習抱有很高的期望。例如,DeepMind 的 Deavy Hasabi,將遷移學習稱為“通用智力的關鍵”。遷移學習是一種機器學習技術,其中在一個任務上訓練的模型被重新定位在第二個相關任務上。這個想法是,有了從第一個任務中學習到的先驗知識,相比於在第二個任務上從零開始訓練的新神經網路,AI 能夠更好地執行、更快地訓練並且需要更少的標記資料。從根本上說,希望它能幫助 AI 更“通用”,從任務到任務,從域到域,特別是那些標記資料不太容易獲得的情況(參見綜述:Transfer Learning-Machine Learning`s Next Frontier)。
如果想依靠遷移學習實現 AGI,AI 需要能夠在相距越來越遠的任務和域中進行遷移學習,這將需要增加抽象。根據 Hassabis 的觀點,“遷移學習的關鍵是獲取概念知識,這些知識是從你學習到的感知細節中抽象出來的”。我們現在還沒到那個階段。遷移學習一直是一項具有挑戰性的工作——在任務緊密相關的情況下,它很有效,但是超過那個範圍,情況就會變得複雜得多。但這是人工智慧研究的一個重點領域。
DeepMind 的 PathNet 專案取得了重大進展(綜述:DeepMind just published a mind blowing paper: PathNet.),它是一個由神經網路組成的網路。還有另一個來自該領域的例子,就在幾天前,OpenAI 發起了一個遷移學習競賽,評比的是強化學習演算法從以前的經驗中進行泛化的能力,演算法將通過 30 個 SEGA “舊派”電子遊戲進行評測。
遞迴皮層網路(RCN)是另一種有前景的方法。由矽谷初創公司 Vicarious 開發,RCN 最近被用來解決基於文字的 CAPTCHA 測試(全自動區分計算機和人類的圖靈測試),其準確性高,在場景文字識別基準的情況下,它用到的資料比對手少 300 多倍(論文:A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs)。
隨著最近的技術進步,有許多方法被考慮、開發或重新探索,包括:Geoffrey Hinton 的膠囊網路(CapNets)、神經注意模型,單樣本學習,可微神經計算機(DNC),神經進化,進化策略等等,進一步證明了 AI 研究的爆炸性活力。
到目前為止,所描述的所有技術本質上都是基於數學和統計的,並且依靠大量的計算能力和資料來獲得成功。雖然僅僅對這樣的演算法進行創造和改進已經顯示出相當大的威力,但是對於這些方法的一種常見的批判是機器仍然不能開始或學習原理。AlphaZero 不知道它在玩遊戲,或者說什麼是遊戲。
在研究中越來越多的想法是重新思考人工智慧的核心原理,包括人類大腦如何工作,以及兒童的大腦如何工作。雖然最初是由人腦啟發的(因此命名為“神經”),但是神經網路很快地從生物學中分離開來。一個常見的例子是反向傳播本質上在自然界並沒有等效的機理。
在 20 世紀 50 年代,圖靈和明斯基的時代,教一個機器像孩子一樣學習是 AI 最古老的想法之一,但隨著人工智慧領域和神經科學領域的成熟,這一想法正在取得進展。
AI 和神經科學的交叉點便是之前提到的以“大腦和機器的規範計算”為主題的 Workshop。雖然這兩個領域仍在互相瞭解,但很明顯,一些人工智慧思想家開始越來越多地關注受到神經科學啟發的研究,包括深度學習的教父 Yann LeCun(視訊:新生兒的學習原則是什麼?)和 Yoshua Bengio(視訊:彌合深度學習和神經科學之間的鴻溝)。
麻省理工學院的認知科學和計算教授 Josh Tenenbaum 提出了一個特別有希望的研究領域。Tenenbaum 工作的一個關鍵部分是專注於建立嬰兒或兒童學習的定量模型,而不是她從進化中繼承的東西,他將其稱之為“直覺物理學”和“直覺心理學”。他的工作被概率語言(貝葉斯方向的一部分)的進展所推進,結合了多種方法,例如符號語言的知識表示,不確定性情況下的概率推理和用於模式識別的神經網路(視訊:“建造像人類一樣學習和思考的機器”、“建造像人類一樣看到、學習和思考的機器”)。
雖然麻省理工學院於二月份發起了一項倡議,叫做“智慧探索”,旨在“破解智慧程式碼”,結合神經科學、認知科學和電腦科學,但這一切仍然只是實驗室的理論研究,要產生適用於現實世界和工業的結果還需耐心等待。
那麼,我們離通用人工智慧(AGI)有多遠?這場高水平的體驗顯示出了矛盾的趨勢。一方面,創新的步伐令人眼花繚亂——許多在這篇文章中提到的發展和故事(AlphaZero,新版本的 GAN,膠囊網路,打破 CAPTCHA 的 RCN,谷歌的第二代 TPU 等)都出現在過去的 12 個月,事實上大部分僅在過去半年。另一方面,許多 AI 研究團隊自身在積極追求 AGI 的同時,也在竭盡全力去強調我們還離得很遠,也許是因為擔心 AI 周圍的媒體炒作會導致希望破滅,而造成另一個 AI 核冬天。
不管我們是否能在短期內到達 AGI,很明顯,AI 正在變得強大,並且將變得更加強大,因為它執行在越來越強大的計算機上,這就帶來了一定的擔憂,如果它的能力被掌握在錯誤的手中(不管是人類的還是人造的),會發生什麼。Elon Musk 製作“你相信這臺電腦嗎?”紀錄片的一個主要原因是人工智慧甚至不需要對人類懷有敵意,甚至不知道人類是什麼。在它不懈努力完成一項任務時,它可能僅僅因為人們擋住了它們的路就傷害人類,就像一個馬路殺手。
撇開物理的危害不談,人工智慧的進步導致了一系列更為緊迫的危險,從大工業時代(後勤、卡車運輸)的重要工作崗位丟失,到完全扭曲我們的現實感(當假視訊和音訊可以很容易地建立時),這都是需要我們徹底思考的問題。
檢視英文原文:
https://hackernoon.com/frontier-ai-how-far-are-we-from-artificial-general-intelligence-really-5b13b1ebcd4e
更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)