Deepmind或許是當今世界對AGI影響最深遠的公司。《經濟學人》近日長文撰寫了這家明星AI公司及其創始人的故事。通過對二十餘名內部人士的採訪,研究了這家公司的研究態度——其關於AGI的追求和對強化學習的執念,這對他們的研究意識形態產生了重要影響,也根深蒂固於他們的企業文化。
以下為全文編譯,enjoy。
2010年8月的一個下午,在舊金山灣,一個34歲的倫敦人大步流星地走上舞臺。他深吸一口氣,放鬆緊繃的神經,露出一個蹩腳的微笑,開口講道:“今天,我要講述如何用一個完全不同的方法去構建......” 空氣突然安靜,好像在等待著一個意欲改變世界的人吶喊出自己重大的野心——“ AGI ” Demis Hassabis說道。
AGI指通用型人工智慧,是一種擁有與人類相同智力水平或甚至超過人類的理想化計算機程式。AGI能夠出色地完成離散型任務,例如識別照片或翻譯語言等,這與我們手機和計算機中所見到過的人工智慧(AI)本質上是相同的。
但除此之外,它還會做加減運算、下棋、說法語;可以解物理論文、撰寫小說、制定投資策略、陌生人進行愉快的交談;它甚至可以監測核反應、管理電網和交通流量,毫不費力地在各個領域獲得一個又一個的成就——AGI將使當今最先進的AI融合成一個袖珍計算器。
目前,人類是唯一擁有完成所有這些任務能力的智慧生物,但人類的智力受限於身體所能提供的能量;而AGI是在計算機上執行的,所以它不會受到這些限制,AGI的能力上限僅由處理器的數量決定。
AGI將從完成監測核反應任務開始,按照其一秒閱讀上萬篇物理論文的速度吸收知識,不久便可以具備發現新能源的能力,而這一速度是人類經過千年進化也比不上的。當人類智慧可以被計算機的速度和可擴充套件性輔助,目前看似不可解決的問題將被輕鬆解決。
Hassabis曾向英國報紙《Observer》的記者描述,他希望AGI能夠掌握“癌症、氣象、能源、基因組學、巨集觀經濟和金融系統”等學科知識。
Hassabis發言的這場大會被稱為奇點峰會。根據未來學家的說法,“奇點”指的是由於AGI出現引發的結果。由於AGI將以高速處理資訊,很快它就將變得“聰明絕頂”。自我改善的快速迴圈將導致機器智慧的“爆炸”,使人類窒息於“矽塵”之中。那麼這個奇點將帶來烏托邦還是地獄?這已經成為了一個宗教信仰一般的問題。
“如何建立人造思維”、 “ AI解決老齡化問題”、“取代我們的身體”、 “改變生與死的界限”……從會談的標題來看,這場大會的與會者傾向於將人工智慧視為救世主;相比之下,Hassabis的發言似乎沒有那麼大的噱頭——“基於神經科學的研究方法探究AGI架構”。
Hassabis語速飛快,踱步於講臺和螢幕之間。他身著一件栗色套頭衫和一件白色系扣襯衫,像極了一個在校的大學生,但他瘦小的身材下卻蘊藏了極高的智慧和無限的力量。Hassabis解釋道:到目前為止,科學家已從兩個大方向上探索AGI。
一條支路可以稱為基於規則的人工智慧。在這一支路上的研究人員試圖描述出一個可以像人類一樣思考的系統所需的所有規則,並通過程式設計加以實現。這種方法在20世紀80年代和90年代很流行,但沒有產生預期的結果。Hassabis認為形成人類認知的神經結構太過於精妙,根本無法以這種方式描述。
另一條支路的研究人員試圖數字化復現大腦的神經網路。這雖然有一定的道理,畢竟腦是人類智慧的所在;但Hassabis認為這些研究人員的這一企圖就像想要繪製宇宙中的每一顆恆星,也走在了一個歪路上。更根本的問題是,這一研究方法就像試圖通過鑿開計算機檢查電晶體的相互作用來了解Microsoft Excel的工作原理,他們所關注的大腦加工水平是錯誤的。
Hassabis提出了一箇中間立場:AGI應該從大腦處理資訊的巨集觀方法中獲取靈感——而不是物理系統或它在特定情況下的應用規則。換句話說,它應該專注於理解大腦的軟體,而不是硬體。
現有如功能性磁共振成像(fMRI)這樣的新技術,使得研究人員可以探究人類在特定活動下的大腦活動,說明這一方向具有一定的可行性。他告訴觀眾,最新的研究表明,大腦會在睡眠期間通過重播經驗學習一般原則,研究人員應該嘗試模仿這種系統構造AI。
在演講幻燈片的右下角出現了一個圓形的藍色漩渦,緊貼的兩個單詞DeepMind赫然出現在Logo之下——這是該公司第一次正式出現在公開場合。
這次發言遠遠沒有看起來那麼簡單,Hassabis為了這個邀請,努力了一年之久。他真正的目的是與矽谷億萬富翁彼得·泰爾(Peter Thiel)的一分鐘會面,而Thiel正是這場會議的贊助方——Hassabis想要Thiel的投資。
Thiel似乎比Hassabis本人對AGI更有熱情。在2009年奇點峰會的一次演講中,Thiel曾表示,他對未來最大的恐懼不是機器人起義(他在紐西蘭內陸地區擁有一個末日避難所,他其實比大多數人做好了充足的準備)。相反,他擔心奇點來得太晚,世界更需要新技術來抵禦經濟衰退。
DeepMind最終總募資200萬英鎊,其中Thiel投資了140萬英鎊。當Google以6億美元的價格在2014年1月收購該公司時,Thiel和其他早期投資者的投資收益率高達5,000%。
對於許多創始人來說,這是一個圓滿的結局。他們可能會放慢發展速度,甚至退後一步,花更多的時間和錢打交道。但對於Hassabis來說,谷歌的收購只是他建造AGI帝國的另一步進展。2013年,他花了很多時間談判交易的條款,使DeepMind獨立於Google運營,DeepMind在不失去控股權的前提下獲得了Google提供的現金流和計算能力。
Hassabis認為DeepMind將是一個混合體:它作為創業公司擁有強大的自我驅動力,又彙集了來自各大頂尖大學的聰明頭腦,同時擁有世界上最有價值公司之一的雄厚資金支援——這些因素都將加速AGI的到來,解決人類所面臨的難題。
有著中國血統的天才圍棋少年
Demis Hassabis於1976年出生於倫敦北部,是三個兄弟姐妹中最大的一個。父親是生活在塞普勒斯的希臘人,經營著一家玩具店;母親是生活在新加坡的華人,在英國百貨公司約翰·劉易斯工作。
他從小便體現出驚人的才能——在他四歲時,旁觀了一場父親和叔叔的國際象棋比賽,從此迷上了國際象棋,沒過幾周他竟然在棋局上擊敗了許多成年人,等到他13歲時,他已在世界同齡棋手中位居第二。而且在他八歲時,他已經可以在一臺計算機上實現自己的程式碼,僅通過自學掌握了程式設計技術。
1992年,Hassabis比原計劃提前兩年完成了他的A-levels課程。他找到一份在Bullfrog Productions的電子遊戲程式設計工作。Hassabis編寫了一個名為主題公園(Theme Park)的遊戲,在這個遊戲裡,玩家可以設計並運營了一個虛擬遊樂園,這個遊戲的銷量高達1500萬份。之後這家公司優化並開發了更大規模的虛擬城市遊戲,Hassabis編寫的主題公園(Theme Park)成為這個大規模遊戲的一部分。
除了編寫遊戲外,他還很擅長玩遊戲,比如國際象棋、拼字遊戲、撲克和西洋雙陸棋。1995年,在劍橋大學學習電腦科學時,Hassabis多次在學生圍棋錦標賽擊敗對手。圍棋比國際象棋要複雜得多,玩家只有通過長期訓練才能獲得足夠多的經驗進而熟練制定遊戲戰略。沒有人知道Hassabis以前是否玩過圍棋。
Hassabis很快稱霸了初學者的比賽,然後又擊敗了經驗豐富的圍棋專業玩家,那位專業玩家對於自己敗給一名19歲的新手頗為震驚。劍橋圍棋大師Charles Matthews看了Hassabis的比賽後,決定開始培養他。
Hassabis一次又一次在圍棋比賽上展現他的天賦,漸漸地,他開始好奇計算機是否可以像人類一樣通過不斷積累的經驗來學習。遊戲提供了一個現實世界無法比擬的學習環境。遊戲雖然是從現實世界中發展而來,但它們可以在沒有外界干擾的情況高效進行。與現實世界相比,在遊戲裡,時間可以過得比現實生活中快很多:幾天內,玩家就能組建一個團體,並在幾分鐘內就能進行戰鬥。
1997年的夏天,Hassabis去日本旅遊。那年5月,IBM的Deep Blue計算機擊敗了世界象棋冠軍Garry Kasparov。這是計算機第一次在國際象棋比賽中擊敗了一位大師。這場比賽引起了全世界的關注,同時還引發了人們對計算機不斷髮展和潛在威脅的擔憂。
Hassabis遇到日本棋盤遊戲大師Masahiko Fujuwarea,他談到了一個將戰略遊戲和人工智慧結合起來的想法:有一天他會建立一個計算機程式,這個程式會擊敗全世界最厲害的人類圍棋玩家。20歲的Hassabis認為,他目前的能力還不足以支援他實現自己的夢想,但他心中已經有了一個藍圖。
1998年,他創辦了一個名為Elixir的遊戲工作室。Hassabis專注於開發一個名為共和國革命(Republic: The Revolution)的政治模擬遊戲。當Hassabis還在上學時,他告訴他的朋友Mustafa Suleyman,這個世界需要一個能模擬複雜的社會動態並解決棘手社會問題的模型。現在,他嘗試在遊戲中這樣做。
事實證明,這很難。Elixir最終釋出了這款遊戲的精簡版,但這款遊戲沒有火起來。其他類似的遊戲也相繼失敗(比如一個名為Evil Genius的邦德惡棍模擬器)。2005年4月,Hassabis關閉了Elixir。Matthews認為,Hassabis創立公司只是為了獲得管理經驗。現在,在Hassabis開始尋求AGI之前,他還不夠了解一個至關重要的領域——人類的大腦。
2005年,Hassabis在倫敦大學學院(UCL)獲得神經科學博士學位。他在博士期間進行了記憶和想象力方面的研究。一篇被引用超過1000次的論文表明,健忘症患者很難進行想象,這表明記憶和創造心理影像之間存在聯絡。為了解決AGI,Hassabis正在嘗試理解大腦。他的大部分工作最後都回到了一個問題:人類大腦是如何獲得並記住概念和知識?
Hassabis於2010年11月15日正式成立了DeepMind。該公司的使命宣言與現在一樣—— “解決智慧(solve intelligence)”,然後用它來解決其他問題。正如Hassabis告訴Singularity Summit的參會者,這意味著讓計算機像人類大腦一樣理解並執行任務。
Hassabis並不覺得科學已經完全瞭解人類的思想。他認為不能簡單地從數百項神經科學研究中提出AGI藍圖。他自信地認為以他現在的水平足夠支撐他進行AGI的研究。然而,事實並非如此。我們對大腦的實際運作方式仍然知之甚少。2018年,一群澳大利亞研究人員對Hassabis的博士論文研究結果提出質疑。他們認為文章的統計資料很糟糕。雖然質疑是針對一篇論文,但也足夠表明DeepMind還有很長的路要走。
Suleyman和Shane Legg是兩個痴迷AGI的紐西蘭人,Hassabis在倫敦大學學院認識了他們,他們後來成為了DeepMind的聯合創始人。
Hassabis很有天賦,DeepMind在他的帶領下發展地越來越快。DeepMind前運營經理Ben Faulkner說:“Hassabis有點像磁鐵,吸引著越來越多的人才。”許多人拒絕了谷歌和Facebook等矽谷巨頭的offer,選擇進入DeepMind。也許DeepMind最大的成功就是聘請並留下最聰明和最優秀的人才。DeepMind在布魯姆斯伯裡的羅素廣場(Russell Square)裡開設了商店,地址在倫敦大學學院(UCL)的馬路對面。
DeepMind所關注的一種機器學習技術——強化學習(reinforcement learning),源於Hassabis對遊戲和神經科學的雙重熱愛。這種程式是為收集相關環境資訊而建立的,通過重放積累的經驗來進行學習,就像Hassabis在Singularity Summit lecture講座中給出的人類大腦活動的描述一樣。
計算機在強化學習領域還是一片空白。該程式展示了一個虛擬環境,和國際象棋或視訊遊戲的模擬一樣,只有規則是已知的。該程式包含至少一個稱為神經網路的元件,它由多層計算結構組成,這些計算結構可以篩選資訊並識別特定的特徵或策略。
每個層都以不同的抽象級別對環境進行檢查。起初,這些網路的成功率很低,但重要的是,它們會不斷的積累經驗。在嘗試不同的策略時,它們會變得越來越複雜,如果它們成功,就會獲得獎勵,而且一旦犯過一次錯誤就不會再犯。人工智慧的最牛逼的地方在於重複做任務的速度。
2016年,DeepMind吸引了全世界的目光,它建立了一個結合強化學習和其他技術的AI程式來玩圍棋。
這就是廣為人知的AlphaGo。2016年,AlphaGo在首爾的五場比賽中擊敗了世界冠軍,全世界都為之震驚。次年,改進版的AlphaGo擊敗了中國圍棋冠軍。
像1997年的Deep Blue一樣,AlphaGo改變了人類對自我成就的看法,人類世界的冠軍,已經不再是地球上最智慧的存在了。Hassabis在將他的野心告知了Fujuwarea近20年後,實現了這一目標。Hassabis說,這場比賽讓他幾乎要喜極而泣。傳統來說,AlphaGo的學生回報它的方式就是在一場比賽中擊敗它,而Hassabis就是通過贏得整場比賽來感謝Matthews的。
DeepBlue是通過蠻力和高速運算的優勢贏得的勝利,但AlphaGo卻風格迥異,它看起來就很有藝術性,很具人性化。它的優雅和精緻,及其超強的計算力,都表明在疾病治療和城市管理的專案設計方面,DeepMind要比其競爭對手更進一步。
結緣谷歌,走向世界
Hassabis堅信DeepMind將會改善世界。但AGI具有很大的不確定性,即使有一天它實現了,我們也不知道它是好是壞,又或者它是否會服從人類的控制?即使它能被控制,那又應該由誰來控制它?
從一開始,Hassabis就一直試圖保護DeepMind的獨立性,他堅持認為DeepMind應該留在倫敦。2014年,當谷歌要收購該公司時,控制權問題變得更加緊迫。Hassabis其實不需要向Google出售DeepMind,他手頭上有大量現金,而且他還想出了一個商業模式,可以讓公司設計遊戲來資助研究。
但是,就像許多創始人一樣,他沒能抵擋谷歌的鉅額的資金吸引。Hassabis並不願交出他所精心創立的公司,因此作為交易的一部分,DeepMind制定了一項計劃,來阻止谷歌單方面控制公司的智慧財產權。據知情人士透露,在收購前一年,雙方簽署了一份名為“道德與安全審查協議”的合同。
稽核協議規定,作為DeepMind的核心技術AGI,無論其合何時能夠研究成功,都將被一個稱為道德委員會的理事會掌控。根據同一訊息來源,道德委員會不僅僅是谷歌表面的讓步,它還為DeepMind提供了堅實的法律支援,以控制其最有價值和最危險的技術。
小組成員的名字尚未公開,但另一個與DeepMind和Google關係密切的訊息人士表示,DeepMind的三位創始人都是委員會成員。(DeepMind拒絕回答有關稽核協議的一系列詳細問題,但表示“道德監督和治理從一開始就是我們的首要任務。”)
Hassabis能決定DeepMind命運的還有其他方式,那便是忠誠。無論是過去的老員工還是現在的新員工,都認為Hassabis的研究課題是DeepMind最大的優勢之一。他的課程吸引了世界上數百名最有才華的專家,使其放棄自己的學術研究並心甘情願地加入他的團隊工作。DeepMind在巴黎、阿爾伯塔和阿姆斯特丹均設有分公司。
許多員工認為與Hassabis和DeepMind的關係比與谷歌的關係更為親密,畢竟谷歌收購DeepMind就是為了獲益。他們都認為只要自己保持個人忠誠度,Hassabis相比其唯一的股東就擁有較大的權力。對於谷歌來說,通過代理服務的DeepMind吸納AI人才比從Facebook或Apple挖人更好。
DeepMind有另一個槓桿來源,就是其公眾影響力,但這是需要不斷的增加曝光的。該公司最擅長的就是這一點,其中AlphaGo就是一場公關演出。自被谷歌收購以來,該公司一再引起全球關注。
其中一款火爆的應用產品,可以在眼睛掃描中發現作為黃斑變性指標的圖案。另一個軟體則學會了使用與AlphaGo相似的架構從頭開始下棋,併成為了有史以來最偉大的國際象棋選手,僅用了9個小時它就可以對抗自己。2018年12月,一項名為AlphaFold的計劃比其他競爭對手更準確地預測了複合材料清單中蛋白質的三維結構,這很大程度上為治療帕金森氏症和阿爾茨海默氏症等疾病提供了契機。
DeepMind對其開發的演算法感到特別自豪,該演算法可以計算出最有效的方法來給谷歌的資料中心製冷,其資料中心包含大約250萬臺計算機伺服器。DeepMind在2016年表示,他們將谷歌的能源費用減少了40%,但一些內部人士表示,這種吹噓行為過於誇張。
早在DeepMind存在之前,谷歌就一直在使用演算法來優化其資料中心。一位谷歌的員工表示“他們只想擁有一些所謂的在Alphabet中有價值增值的Prso”。谷歌的母公司Alphabet為這些服務支付了DeepMind費用。2017年,DeepMind向Alphabet公司收取了5400萬英鎊。與DeepMind的管理費用相比,這個數字相形見絀。而那一年,它僅在員工身上花費了2億英鎊。總的來說,DeepMind在2017年損失了2.82億英鎊。
這對現金充裕的巨人來說雖然微不足道,但其他出現赤字的子公司卻引起了Alphabet的首席財務官Ruth Porat的注意。作為網際網路服務提供商的谷歌光纖(Google Fibre)就陷入了財務困境,因為其明確表示需要數十年之後才能獲得投資回報。私下裡人工智慧研究人員都知道DeepMind最後是否會成為獨立的公司。
DeepMind在人工智慧推進方面很謹慎,這是其管理戰略的一部分,這也向當權者表明了其聲譽價值。在谷歌被指控侵犯使用者隱私和傳播假新聞的時候,這一點特別有價值。
DeepMind也很幸運能夠獲得最高階別的認可——Larry Page,他是谷歌兩位創始人之一,現在是Alphabet的執行長。Page是Hassabis唯一的交集可能就是 Page的父親Carl在20世紀60年代研究過神經網路。Page表示在他的職業生涯早期,他就是為了建立一家人工智慧公司而建立的谷歌。
DeepMind對發刊管理的嚴格控制並不符合公司普遍存在的學術精神。一些研究人員抱怨說,發表他們的作品很困難:他們必須先進行內部審批,然後才能將工作提交給會議和期刊。
DeepMind認為,它需要謹慎行事,以避免嚇跑公眾,並破壞AGI的前景。但過於緊張可能會開始惡化學術氛圍並削弱員工的忠誠度。在谷歌收購之後的第五年,誰控制DeepMind的問題顯得至關重要。
該公司的創始人和早期員工即將獲得分紅,他們可以通過收購獲得的經濟補償離開(Hassabis的股票價值約為1億英鎊)。但一位與該公司關係密切的訊息人士表示,Alphabet已將創始人的收益發放推遲了兩年。鑑於此,Hassabis不太可能跳槽。
他只對金錢感興趣,因為錢可以幫助他實現自己的人生。但是有些同事已經離開了,自2019年初以來,已有三名AI工程師離職。全球最著名的安全工程師之一Ben Laurie現已返回其前任僱主谷歌。這個數字雖然很小,但DeepMind提供瞭如此寶貴且令人振奮的工作機會和豐厚的薪酬情況下,任何人其實都應該不會離職的。
直至目前,谷歌都沒有過於干涉DeepMind。但近期的一件事情使人們開始懷疑DeepMind還能保持多久的獨立性。
遭遇瓶頸
DeepMind一直計劃使用AI來改善醫療保健。2016年2月,它成立了一個新部門:DeepMind Health。該部門由該公司的聯合創始人之一Mustafa Suleyman領導。Suleyman的母親曾是一位NHS護士。他希望建立一個名為Streams的程式,當患者的健康狀況惡化時,該程式會警告醫生。
DeepMind從中獲得基於程式效果分成的費用。由於這項工作需要訪問有關患者的敏感資訊,Suleyman建立了一個由英國醫療保健與科技行業精英組成的獨立審查小組(IRP)。DeepMind這樣謹慎行事是非常明智的——英國資訊專員隨後發現其中一家合作醫院違反了處理患者資料的法律。儘管如此,截至2017年底,Suleyman已與四家大型NHS醫院簽署了協議。
2018年11月8日,谷歌宣佈建立了自己的醫療保健部門Google Health。五天後,又宣佈DeepMind Health將被納入其母公司。
DeepMind似乎沒有收到什麼預警。根據資訊自由要求(Freedom of Information Act)所得到的資訊,它僅提前三天向合作醫院釋出了變更通知。DeepMind拒絕透露有關合並的討論是何時開始的,但表示從通知到釋出正式公告如此短的實踐是為了保證資訊透明度的。
Suleyman在2016年寫道:“在任何階段,患者資料都不會與谷歌的賬戶、產品或服務相關聯。”他的承諾似乎已被打破。(回應1843雜誌的問題,DeepMind說“在這個階段,我們的合同都沒有轉移到谷歌,而且只有得到我們合夥人的同意後他們才能轉移合同。Streams成為Google服務並不意味著患者資料......可被用於提供其他Google產品或服務。“)
谷歌的吞併激怒了DeepMind Health的員工。據知情人員表示,一旦吞併完成,更多員工將計劃離開公司。IRP的一名成員Mike Bracken已經離開Suleyman了。據多位知情人士透露,Bracken於2017年12月辭職,是因為擔心該獨立審查小組更多的是為了裝飾門面而並非真正為了應對資訊隱私方面的漏洞。
當Bracken問Suleyman是否會給小組成員賦予非執行董事的問責制和治理權時,Suleyman發出了嘲笑。(DeepMind的一位發言人表示他們“並不記得存在”此事件)。IRP負責人Julian Huppert認為,該小組的管理“比Bracken預期更為激進”,因為成員能夠公開發言而不受保密義務的約束。
這一事件顯示DeepMind的外圍運營容易受到谷歌的影響。DeepMind在一份宣告中表示,“我們都同意,將多方力量凝聚一起共同努力能夠增加資源。”這就引出了一個問題,即Google是否會將相同的邏輯應用於DeepMind的AGI工作。
大體上看,DeepMind看起來已經取得了很大的進步。它已經搭建了可學習執行超人類任務的軟體。Hassabis經常引用Breakout,這是Atari遊戲機上的視訊遊戲。玩家控制一個可以在螢幕底部水平移動小平板,用它將一個球反彈到懸停在螢幕上方的方塊,球撞擊到方塊時會摧毀它們。當所有塊都被摧毀時,玩家獲勝。
如果平板沒有接到球那麼玩家就輸了。在沒有人工指導的情況下,DeepMind的程式不僅學會了玩這個遊戲,而且還研究瞭如何將球反彈進方塊背後的空間中,利用多次反彈來打破更多的方塊。Hassabis說,這證明了強化學習的力量和DeepMind計算機程式超越自然的能力。
這個演示非常令人驚訝,但Hassabis還是有所保留。如果虛擬平板略微往上移動一點點,程式就會失敗。DeepMind程式所學到的技能是如此受限制——它甚至無法對環境的微小變化(比人類走路時對環境產生的微小影響還小)作出反應——至少在沒有數千輪強化學習的情況下既是如此。但是現實世界已經內建了這樣的應對系統。
對於智慧診斷來說,沒有兩個身體的器官是完全一樣的。對於智慧機械,沒有兩個引擎可以以相同的方式進行調整。因此,將在虛擬空間中完善的程式釋出到現實世界其實充滿了困難。
DeepMind很少談到的第二個問題是,虛擬環境中的成功取決於獎勵功能的存在:允許程式衡量其進展的訊號。該程式學習到,發射小球到方塊上方的空間使其多次反彈能夠使得分上升。DeepMind與AlphaGo的大部分工作在於構建與這種複雜遊戲相容的獎勵功能。不幸的是,現實世界並不提供如此簡單的獎勵。
進展很少能夠通過單一分數來衡量。即使在存在此類度量的情況下,政治挑戰也會使問題複雜化。將氣候問題的獎勵訊號(大氣中每百萬的二氧化碳顆粒數)與石油公司的獎勵訊號(股價)相協調,需要同時滿足許多有衝突動機的人。獎勵訊號往往非常弱。在身臨其中時,人類大腦基本無法接收任務成功度的直接反饋。
DeepMind的強化學習之路
DeepMind花費了大量的計算機電力後找到了解決這個問題的方法。為學習任何東西,AlphaGo都需要數千年的人類遊戲時間。很多AI研究者對此提出質疑:這種解決方案是不可持續的。DeepMind承認存在這種含糊之處。它最近專注於星際爭霸2,一款策略計算機遊戲。
在遊戲早期做出的決定會在後期產生影響,這更接近於那些類似許多現實世界任務的錯綜複雜的延遲反饋。1月份,DeepMind軟體在一場演示中擊敗了一些世界頂級的人類玩家;雖然許多功能依然受到大量限制,但這仍然令人印象深刻。該程式也開始通過遵循人工任務主管的反饋來學習獎勵功能。但是,將人類指令置於流程迴圈中可能會喪失無人計算機處理所帶來的規模與速度紅利。
DeepMind和谷歌的現任和前任研究人員(由於嚴格的保密協議而要求匿名)對於DeepMind通過這些方法達到AGI的可能性表示懷疑。這些人認為,過於關乎在模擬環境中的優秀表現使得獎勵訊號問題難以解決。然而,這種方法是DeepMind的核心。它有一個內部排行榜,互相競爭團隊的程式爭奪對虛擬域的掌控。
Hassabis一直將生活視為一種遊戲。他的職業生涯的很大一部分都致力於製作遊戲,而他休閒時間的很大一部分都花在了打遊戲上。DeepMind是他選擇開發AGI的工具。就像他的軟體一樣,Hassabis只能從他的經歷中學習。
追求AGI可能最終會導致失去方向——即使他們已經發明瞭一些有用的醫療技術,還超越了世界上最偉大的棋盤遊戲玩家。這些確實是重大成就,但並非他渴望達到的。但他仍然可以將AGI引入現實應用——就在谷歌眼前卻遠超其掌控。如果Demis Hassabis這樣做,他將贏得的是最艱難的比賽。