智慧本質、對齊、Gemini、超人類AI和多模態、AGI……在這場乾貨滿滿的訪談中,Demis Hassabis可謂「知無不言、言無不盡」。
「如果我們在未來十年內擁有類似 AGI 的系統,我不會感到驚訝。」Google DeepMind 聯合創始人和 CEO Demis Hassabis 近日在人工智慧播客節目 Dwarkesh Podcast 上如是說。
在長達一個小時的節目中,Hassabis 分享了自己對智慧本質、強化學習、規模擴充套件和對齊、AGI、多模態等主題的看法。機器之心選擇性地整理了其中的主要內容並進行了適當編輯以便閱讀。
智慧的本質
Dwarkesh Patel:第一個問題:您有神經科學背景,那麼您是怎麼看待智慧的?
Demis Hassabis:這個問題很有趣。智慧非常寬泛,可普遍用於各種用途。我認為這說明對於大腦處理我們周圍世界的方式,必然存在某種高層級的共同之處,演算法層面的共同之處。當然,大腦中有做特定事情的特定部分,但我認為所有這些事情下面可能有一些基本原則作為支撐。
Dwarkesh Patel:您怎麼看待這一事實:對於現在的 LLM,當你向其提供大量特定領域的資料時,它們往往會在那個領域變得格外地好?難道不能在所有不同領域上實現普遍提升嗎?
Demis Hassabis:首先,我認為當在某個領域內獲得提升時,有時候也會在其它領域獲得出人意料的提升。舉個例子,當這些大模型的程式設計能力提升時,它們的一般推理能力實際上也能得到提升。所以現在是有一定的遷移學習的證據。而且這也是人腦學習的方式。如果我們大量經歷或練習象棋或寫作等事項,我們就會越來越擅長對應的事情,即便我們是使用某種通用學習技術和通用學習系統來學習某個特定的領域。
Dwarkesh Patel:以語言和程式設計為例,在神經網路中,是否存在某種地方存在某種機制讓模型的語言和程式設計能力一起提升?
Demis Hassabis:我們目前的分析技術還不足以確定這一點。實際上,對於這些系統構建的表徵的機制分析,還有待大量研究。我有時候把這稱為虛擬腦分析(virtual brain analytics)。從某個方面看,這有點像是 fMRI,或者記錄真實大腦中單個細胞的活動。對於這類分析技術,可以怎樣將其類比到人造心智呢?這方面有很多出色的研究成果。比如 Chris Olah 就在研究這個,我很喜歡他的研究。有很多計算神經科學的技術可以引入過來分析我們目前正在構建的這些系統。事實上,我也在努力鼓勵我在計算神經科學領域的朋友思考這個方向,應用他們的所學來理解大型模型。
Dwarkesh Patel:由於您有神經科學背景,您多半瞭解一些其他 AI 研究者不太瞭解的有關人類智慧的知識。這方面的知識有哪些?
Demis Hassabis:神經科學的助益很大。看看過去一二十年的研究就能知道。事實上我已經思考這些三十多年了。在這新的一輪 AI 浪潮早期,神經科學提供了大量有趣的引導性線索。於是出現了強化學習以及深度學習等技術。我們在這方面也有一些開創性的研究成果,比如經歷重放(experience replay)以及已經變得非常重要的注意力(attention)概念。很多這些成果的初始靈感都是來自對大腦工作方式的理解,當然它們並不完全一樣。一種是工程開發出的系統,另一種是自然的系統。它們並不是某種演算法的一對一對映,而更像是某種指示方向的靈感——或許是某種架構思想,或者演算法思想或表徵思想。畢竟大腦本身就是通用智慧存在的證據。人類就是這樣的,一旦知道某件事是可能的,就更容易朝那個方向努力,因為你知道這就是一個努力進取直到某時取得成功的問題,而不是能否成功的問題。這能讓人更快地取得進展。
我認為在如今成功的背後,神經科學啟迪了很多人的思考,至少是間接的。至於未來,我認為在規劃方面還有很多有趣的問題有待解決。還有大腦是以何種方式構建出了正確的世界模型?舉個例子,我研究過大腦是如何進行想象的,你也可以將這看作是心智模擬。我們就會問:為了執行更好的規劃,我們是以怎樣的方式建立了對於世界的非常豐富的視覺空間模擬?
LLM 之上的強化學習
Dwarkesh Patel:LLM 能否具備這種類似樹搜尋的能力?您對此怎麼看?
Demis Hassabis:我認為這是一個非常有潛力的研究方向。我們在持續不斷地提升大型模型,讓它們成為越來越準確的世界預測器。在效果上,就是讓它們成為越來越可靠的世界模型。這明顯是必要的,但我認為這可能並不是 AGI 系統的充分條件。在這之外,我們還在研究 AlphaZero 這樣的規劃機制——其可使用模型執行明確的規劃,從而在世界中實現特定的目標。另外可能還會搭配某種鏈式思維或推理路徑,也可能使用搜尋來探索巨大的可能性空間。我認為這是我們當前的大模型所缺少的能力。
Dwarkesh Patel:對於這些方法所需的巨量算力,您會怎麼獲得?您認為這方面的效率會怎麼得到提升?
Demis Hassabis:首先,摩爾定律會幫助我們。每一年,計算能力都在提升;但我們更關注樣本高效型的方法以及複用已有的資料,比如經歷重放。世界模型越好,搜尋效率就越高。舉個例子,AlphaGo 的搜尋效率就遠高於使用暴力搜尋的深藍(Deep Blue)。深藍的每一次決策可能需要檢視數百萬種可能下法。AlphaGo 則只需要大約數萬次就能決定下一步。但人類的大師級棋手可能只需檢查幾百種下法就能得到一個非常好的下一步決策結果。這明顯說明,暴力搜尋系統對這些棋並沒有真正的模型。AlphaGo 有相當不錯的模型,而頂級人類棋手擁有更豐富、更準確的圍棋或國際象棋模型。這讓他們只需少量搜尋就能做出世界級的決策。
Dwarkesh Patel:但是 AlphaGo 勝過了人類冠軍。
Demis Hassabis:當然,所以我們做出了開創性的成果,DeepMind 也因此出名。我們使用遊戲作為驗證平臺,因為很顯然在遊戲中的搜尋效率更高。另外,在遊戲中也更容易設定獎勵函式——不管是獲勝還是贏取分數。這些是大多數遊戲內建的獎勵機制。但對於真實世界系統,這卻非常困難——該如何定義正確的目標函式、正確的獎勵函式和正確的目標?
Dwarkesh Patel:人類智慧有很高的樣本效率,它與 AlphaGo 這些系統得到解答的方式有何不同?比如愛因斯坦如何想出了相對論?
Demis Hassabis:它們大不相同,因為我們的大腦並不會執行蒙特卡洛樹搜尋。這不是我們的有機大腦的工作方式。為了彌補這一點,人類的大腦會用到直覺。人類會使用自己的知識和經歷來構建非常準確的模型,比如愛因斯坦構建了非常準確的物理模型。如果你閱讀一下愛因斯坦的經歷,看看他是如何想出那些理論的,你會發現他習慣視覺化地思考那些物理系統,而不只是透過數學公式。這讓他有了對這些物理系統的非常直覺化的感知。這讓他產生了在當時顯得非常離奇的想法。
我認為這就是我們構建的世界模型的複雜精妙之處。想象一下,如果你的世界模型能讓你抵達你正在搜尋的某個樹的某個節點,然後你就只需要在這個節點附近搜尋即可。這樣一來,你的搜尋量就少多了。
Dwarkesh Patel:現在還有一個問題有待解決:強化學習能否讓模型使用自我博弈合成資料來克服資料瓶頸問題?您似乎對此很樂觀。
Demis Hassabis:是的,我對此非常樂觀。首先,仍然還有大量資料可以使用,尤其是多模態和影片等資料。而且顯然,社會也在一直不斷增加更多資料。但我認為創造合成資料方面也有很大的發展空間。這方面有一些不同的方法,比如模擬和自我博弈,模擬方法包括使用非常模擬的遊戲環境來生成接近真實的資料。而自我博弈則是讓模型互相互動或交談。這種方法在我們開發 AlphaGo 和 AlphaZero 時效果非常好。
Dwarkesh Patel:那麼該如何確保合成的資料不是來自模型的資料集,而是新資料?
Demis Hassabis:我認為這需要一門完整的學科來進行研究。在這方面,我們仍處於資料管理和資料分析的初級階段。比如透過分析資料分佈,能找到分佈中的漏洞,這對於公平與偏見等議題來說非常重要。要將其移出系統,就需要確保資料集能夠代表你想要學習的分佈。對此人們有一些可以使用的技巧,比如增大資料中特定部分的權重或重放這部分資料。也可以想象,如果你發現你的資料集中有如此漏洞,你可以使用生成的資料來進行填補。
Dwarkesh Patel:現在人們很關注強化學習,但其實 DeepMind 很多年前就研究過了。是否還有類似這樣的研究方向——早已經出現了,但還沒有引起人們重視?
Demis Hassabis:事實上,過去幾十年來這種事情一直在發生。新舊思想結合起來就有巨大潛力,比如過去的一些想法與更大規模模型和大型多模態模型結合起來也許就能得到激動人心的結果。
Dwarkesh Patel:強化學習、LLM、樹搜尋,哪種方法有潛力催生出 AGI?
Demis Hassabis:從理論上看,我認為純 AlphaZero 式的方法沒理由不成功。Google DeepMind 和社群一些人正在研究在假設完全沒有先驗知識、沒有資料的前提下,從頭開始構建所有知識。我認為這是有價值的,因為這些想法和演算法在有一定知識時也能使用。
話雖如此,但目前來說我認為最可能最快實現 AGI 的方法是使用目前世界上已有的知識,比如網路上的和我們收集的知識。而且我們還有 Transformer 等有能力消化這些資訊的可大規模擴充套件的演算法。你可以將一個模型用作某種形式的先驗,基於其上進行構建並執行預測,以此啟動 AGI 學習。沒理由不這樣做。我猜想,在最終的 AGI 系統中,大型多模態模型會成為整體解決方案的一部分,但它們本身並不足以成為 AGI。它們還需要額外的規劃搜尋能力。
擴充套件與對齊
Dwarkesh Patel:現在有個規模擴充套件假設(scaling hypothesis)。有人猜想,只要擴大模型和資料分佈的規模,智慧終會出現,您認同嗎?
Demis Hassabis:我認為這是一個需要實驗檢驗的問題。幾乎所有人(包括那些最早開始研究規模擴充套件假設的人)都很驚訝規模擴充套件所帶來的成就。看看現如今的大模型,它們的效果好得簡直不合理!大模型湧現出的一些性質相當出人意料;在我看來,大模型是有某種形式的概念和抽象能力。要是回到五年以前,我會說要做到這一點,我們可能還需要另一種演算法方面的突破。也許更類似大腦的工作方式。我認為,如果我們想要明確的、簡潔的抽象概念,我們依然需要更加理解大腦,但這些系統似乎可以隱式地學習它們。
另一個出人意料的有趣結果是這些系統獲得了某種形式的現實基礎知識(grounding/定基),即便它們並未體驗過世界的多模態——至少在近期的多模態模型出現之前沒有。只是靠語言就能構建起如此大量的資訊和模型,著實讓人驚訝。對此的原因,我有一些假設。我認為大型語言模型能透過 RLHF 反饋系統獲得一些現實基礎知識,因為人類反饋者本身就是生活在現實中的人。我們就立足於現實世界中。所以我們的反饋也是立足於現實的。因此這能讓模型獲得一些現實基礎。另外,也許語言中就包含了更多的現實基礎,如果你能完全洞悉語言,也許能發現我們之前可能沒考慮到的東西,甚至可能已經有語言學家研究過這些方面。這實際上是一個非常有趣的哲學問題。人們甚至可能都尚未觸及其表面。看看過去的進展,暢想未來是非常有趣的。
對於你說的規模擴充套件問題,我認為我們應當儘可能地擴大規模,我們也正在這麼做。至於最後會趨近一條漸近線還是撞上鐵牆,這是個實驗問題,不同的人會有不同的意見。但我認為我們應該直接去測試。沒人能想出答案。但與此同時,我們也應該加倍投資創新和發明。這是谷歌研究院、DeepMind 和谷歌大腦的做法,我們在過去十年中開創性地取得了許多成果。這就是我們的生存之道,
可以說,我們一半的努力是在擴充套件規模,另一半則是在研發未來的架構和演算法——它們或許是在模型變得越來越大之後所需的。我大概猜想,未來這兩方面都需要。所以我們要兩方面都儘可能地發力。我們很幸運,因為我們確實能做到這一點。
Dwarkesh Patel:再多聊聊定基(grounding)。可以想象,有兩件事會讓定基變得更加困難。一是隨著模型變得更加聰明,它們就能在我們無法生成足夠人類標籤的領域工作——因為我們不夠聰明。而是關於計算。目前我們做的都是下一 token 預測。這就像是一個護軌,限制模型讓其像人類一樣談話,像人類一樣思考。現在,如果額外的計算是以強化學習形式出現的呢——我們只知道達成了目標但無法追蹤是如何達成的?如果這兩者組合起來,定基會出現什麼問題?
Demis Hassabis:我認為如果系統沒有適當地定基,系統就無法適當地實現這些目標。我認為在某種程度上系統應該有定基,至少要有一些,這樣才能在真實世界中真正實現目標。隨著 Gemini 這樣的系統變得更加多模態,可以在文字資料之外處理影片、音訊和視覺資料,這些系統就會開始將這些東西融合到一起。我認為這其實就是一種形式的定基。這樣系統就會開始更好地理解真實世界的物理機制。
Dwarkesh Patel:為了對齊比人類更聰明的系統,應該怎麼做?
Demis Hassabis:我和 Shane(注:Shane Legg,DeepMind 聯合創始人,現擔任該公司首席 AGI 科學家)還有其他許多人在我們創立 DeepMind 之前就已經在考慮這個問題了,因為我們計劃著取得成功。2010 年時,還沒什麼人研究 AI,更別說 AGI 了。但我們那時就知道,如果我們能透過這些系統和思想取得成功,創造出的技術將會具有讓人難以置信的變革力量。所以我們 20 年前就在思考了,這樣會有什麼正面和負面的後果。正面的後果就是驚人的科學成果,比如 AlphaFold、科學和數學領域的科學發現。同時我們也需要確保這些系統是可理解的和可控的。
為了得到經過更為嚴格評估的系統,人們提出了很多想法。但我們目前還沒有足夠好的評估方法和基準可以確定系統是否欺騙了你、系統是否會洩漏自己的程式碼等不良行為。還有些人提出可以使用 AI 來輔助分析,就是使用應用範圍窄的 AI(narrow AI)。它們不具備通用學習能力,而是專門為某個特定領域專門設計的;它們可以幫助人類科學家分析更通用的系統的行為。我認為一個有很大潛力的方向是創造強化型沙盒或模擬環境——它們的網路安全經過增強,可以把 AI 困在其中,也能保證外部攻擊者無法進入。這樣一來,我們就可以在這個沙盒中自由地做實驗了。另外也有些人在研究讓人類能夠理解這些系統構建的概念和表徵。
時間線和智慧爆炸
Dwarkesh Patel:您認為 AGI 會在什麼時候出現?
Demis Hassabis:我沒有具體的時間預測,因為我感覺還有很多未知和不確定,而且人類的聰明才智和努力總是會帶來驚喜。這些都可能導致時間線變化。但我要說,在我們 2010 年創立 DeepMind 時,我們認為這個專案需要 20 年時間。實際上,我覺得我們正按預期向目標靠近。這很了不起,因為通常的 20 年計劃總是還要另外 20 年。如果我們在未來十年內擁有類似 AGI 的系統,我不會感到驚訝。
Dwarkesh Patel:如果有了 AGI,您會使用嗎?您可以將其用來進一步加速 AI 研究。
Demis Hassabis:我認為這是有可能的。這要看我們做出什麼決定。我們需要作為一個社會來決定如何使用第一個新生的 AGI 系統或甚至 AGI 原型系統。即便是我們現有的系統,我們也需要考慮其安全方面的影響。
Gemini 的訓練
Dwarkesh Patel:目前 Gemini 的開發遇到了什麼瓶頸?既然規模擴充套件法效果很好,為什麼不直接把它增大一個數量級?
Demis Hassabis:首先,有實踐方面的限制。一個資料中心究竟能有多少算力呢?實際上,這會遇到非常有趣的分散式計算難題。幸運的是,我們有最好的研究者在研究這些難題以及如何實現跨資料中心訓練等等。還有硬體方面的難題,我們有自己構建和設計的 TPU 等硬體,也會使用 GPU。至於規模擴充套件的效果,也不是總如魔法般有效。擴大規模時也還需要擴充套件超引數,每一種規模都需要各種不同的創新。不是每一種規模都能重複一樣的配方。我們必須調整配方,而且這在某種程度上就像是搞藝術。另外還需要獲得新的資料點。
Dwarkesh Patel:在 Gemini 的開發過程中,您覺得最出人意料的是什麼?
Demis Hassabis:我得說沒什麼非常出人意料,但是能在那種規模上進行訓練並從一種組織化的角度去研究它,是非常有趣的。
Dwarkesh Patel:很多人認為其它實驗室的模型的計算效率可能比 DeepMind 的 Gemini 高。您怎麼看?
Demis Hassabis:我認為情況並非如此。實際上,Gemini 使用的算力差不多,也許就比傳聞中 GPT-4 使用的算力稍多一點。
Dwarkesh Patel:對於 2010 年剛創立 DeepMind 的您來說,現在的 AI 進展中哪一點最讓您感到意外?
Demis Hassabis:你也採訪過我的同事 Shane。他總是從計算曲線方面進行思考,也常常將 AI 與大腦進行比較——有多少神經元或突觸。但現在我們已經差不多到大腦中神經突觸數量的數量級和那樣的計算量了。
但我認為,更根本的問題在於,我們關注的重心始終是通用性和學習。這始終是我們使用任何技術的核心。因此我們把強化學習、搜尋和深度學習看作是三種可以擴充套件並且可以非常通用的演算法,無需大量人工設計的人類先驗知識。這不同於 MIT 等在當時構建的 AI——它們是基於邏輯的專家系統,需要大量人工編碼。事實證明這種做法是錯誤的。我們在早期看出了發展趨勢。我們使用遊戲作為驗證平臺,發現結果還不錯。最後也取得了巨大的成功。AlphaGo 等成功給其他許多人帶去了啟發。當然,還有我們谷歌研究院和谷歌大腦的同事發明的 Transformer,這種深度學習方法讓模型可以處理海量資料。這些技術就是如今成果的基礎。這些都是一以貫之的傳承。我們當然不可能預測出每一次技術轉變,但我認為我們前進的總體方向是正確的。
治理超人類 AI
Dwarkesh Patel:您怎麼看待超人類智慧的前景?它仍然受私有企業控制嗎?具體應該如何治理它?
Demis Hassabis:我認為這種技術將會帶來重大影響。大於任何一家公司,甚至大於任何一個行業。我認為這必需來自民間社會、學術界、政府的許多利益相關者的大規模合作。好訊息是,隨著近期聊天機器人等技術的廣泛使用,社會中其它一些部分被喚醒了,他們開始認識到這種系統正在到來並且他們也將與這些系統互動。這很不錯。這為良好的對話開啟了很多大門。
其中一個例子是幾個月前在英國舉辦的 AI Safety Summit。我認為這是一次巨大成功。我們需要進行國際間的對話,要讓整個社會一起來決定我們要使用這些模型做什麼、我們希望怎樣使用它們、我們希望它們不被用於什麼目的。
Dwarkesh Patel:現在的 AI 系統已經非常強大,為什麼它們的影響沒有更大呢?
Demis Hassabis:這說明我們依然還處在這個新時代的起點。目前的這些系統已經有一些有趣的用例,比如使用聊天機器人系統來為你做總結、完成一些簡單的寫作任務、進行樣板式寫作;但這些只是我們日常生活的一小部分。
我認為,對於更一般化的用例,我們仍然需要新的能力,比如規劃和搜尋,另外還需要個性化、記憶、情境記憶等。因此長上下文視窗是不夠的,還要記住 100 輪對話之前我們說了什麼。一旦這些技術成熟了,我們就會看到新的用例,比如能幫助我們找到更好更豐富材料(書、電影、音樂等)的新推薦系統。那樣我就會每天使用這類系統。我認為我們目前只是觸及了這些 AI 助理的表面,其實未來它們能為我們的一般日常生活和工作做更多事情。另外用它們做科研也不足夠可靠。但我相信未來當我們決定了事實性和定基等問題之後,這些 AI 系統就能變成世界上最好的研究助理。
Dwarkesh Patel:說到記憶,您在 2007 年有一篇論文談到記憶和想象(imagination)有某種程度的相似之處。現在也有人說目前的 AI 就只是記住了些東西。您對此怎麼看?只靠記憶就足夠了嗎?
Demis Hassabis:在有限的情況下,也許記住一切就夠了,但這樣無法泛化到原有的分佈之外。但很明顯 Gemini 和 GPT-4 等模型確實能夠泛化到新的情況。至於我的那篇論文,我實際上表達的是:記憶(至少是人類記憶)是一種重建的過程。記憶不是磁帶式的精確記錄。我們的大腦是把看起來熟悉的東西組合到一起。這讓我思考想象可能也是這麼回事。只不過這時候我們組合的是語義元件(semantic component)——你的大腦將它們組合起來並且認為結果是全新的。我認為我們目前的系統依然缺少這種能力——即把世界模型的不同部分拿出來組合到一起來模擬新東西,從而幫助用來執行規劃。這就是我所說的想象。
安全、開源和權重安全
Dwarkesh Patel:你們有計劃和其它兩家主要的 AI 實驗室一樣從某種程度上放出 Gemini 的框架嗎?
Demis Hassabis:是的,我們內部已經做了大量的檢查和平衡,我們也會開始釋出一些東西。未來幾個月,我們有很多部落格文章和技術論文發出來。
Dwarkesh Patel:如何保護模型的權重,使其不被惡意盜用?
Demis Hassabis:這涉及到兩個方面。一是安全,二是開源。安全非常關鍵,尤其是網路安全。我們 Google DeepMind 非常幸運。因為我們在谷歌的防火牆和雲的保護之下,這可以說是世界上最好的安全防護。除此之外,我們 DeepMind 還有特定的措施來保護我們的程式碼庫。所以我們有雙重保護。而且我們還在不斷提升和改進,比如使用強化沙盒。我們也在考慮特定的安全資料中心或硬體解決方案。所有的前沿實驗室都應該這麼做。
開源也很重要。我們是開源和開放科學的大力支持者。我們已經發布了數千篇論文,包括 AlphaFold、Transformer 和 AlphaGo。但對於核心的基礎技術,我們會考慮如何阻止惡意組織、個人或流氓國家,防止他們使用這些開源系統去實現他們的有害目的。這是我們必須回答的問題。我不知道這個問題的答案,但我也沒能從支援開源一切的人那裡聽到讓人信服的答案。我認為這其中必須要有些平衡。但很顯然這是個很複雜的問題。
Dwarkesh Patel:在安全方面,其它一些實驗室有自己的專攻領域,比如 Anthropic 在研究可解釋性。現在你們有了最前沿的模型,你們也會在安全方面做前沿研究嗎?
Demis Hassabis:我們已經開創了 RLHF 等技術,這不僅能用於提升效能,也能用於安全。我認為很多自我博弈想法也有潛力用於自動測試新系統的邊界條件。部分問題在於,對於這些非常通用的系統,它們的適用範圍非常廣。我認為我們將需要一些自動測試技術以及之前提到的模擬和遊戲、非常擬真的虛擬環境。在這方面我們有很長的研究歷史。另外,很幸運谷歌有大量網路安全專家和硬體設計師。這也是我們可以獲得的安全保障。
多模態和進一步的進展
Dwarkesh Patel:對於 Gemini 這樣的系統,目前與它們預設的互動方式是透過聊天。隨著多模態和新能力的加入,這種情況會如何改變?
Demis Hassabis:在理解完整的多模態系統方面,我們還處於起步階段。與其的互動方式將與我們現在的聊天機器人大不相同。我想明年的下一代版本可能會具有一定的環境理解能力,比如透過相機或手機。然後我可以想象下一步。模型在理解方面會變得越來越順暢。我們可以使用影片、聲音甚至觸碰。如果再考慮到使用感測器的機器人,世界將會開始變得激動人心。我想未來幾年,我們就能看到多模態對機器人學科意味著什麼。
Dwarkesh Patel:Ilya 曾在播客上跟我說過 OpenAI 放棄研究機器人的原因:在該領域的資料不夠,至少在那時候是如此。您認為這對機器人的發展而言依然還是一個瓶頸嗎?
Demis Hassabis:我們的 Gato 和 RT-2 Transformer 取得了激動人心的進展。我們一直以來都很喜歡機器人。我們在這一領域也有出色的研究成果。我們仍然在進行機器人研究,因為我們其實喜歡這一事實:這是一個資料稀少的領域。我們認為這會是一個非常有用的研究方向,其中涉及到的課題包括取樣效率和資料效率、從模擬環境遷移到現實的遷移學習。我們一直在努力研究。
實際上 Ilya 說得對,機器人很有挑戰性就是因為資料問題。但我想我們會開始看到大模型可以遷移到機器人領域、在非常普適的領域學習,並且可以將 Gato 這樣的 token 當作是任意型別的 token 進行處理。這些 token 可以是動作,也可以是詞、圖塊、畫素等等。我心中的多模態就是這樣。但一開始,訓練這樣的系統比簡單直接的文字語言系統更困難。我們之前聊遷移學習時也談到了,對於一個真正的多模態系統,一個模態是可以從其它模態獲益的。比如如果模型更加理解影片,其語言能力也會有所提升。我們最後會有一個這樣的更加通用、更有能力的系統。
Dwarkesh Patel:DeepMind 發表了許多有趣的研究成果來加速不同領域的科學研究。為什麼要構建這樣的特定領域的方案呢?為什麼不等到一二十年後讓 AGI 來做?
Demis Hassabis:我想我們並不知道 AGI 將在何時到來。而且我們過去也常常說,我們不必等到 AGI,也能做出些出色的成果來造福這個世界。我個人也對 AI 在科學和醫療領域的應用充滿熱情。而且你可以看到我們的多篇 Nature 論文關注了多個不同的領域。有很多激動人心的研究方向能影響這個世界。作為擁有數十億使用者的谷歌的一分子,我們很榮幸有這樣的巨大機會,可以將我們取得的進步快速提供給數十億人,幫助改善、豐富和助力他們的日常生活。
從 AGI 的角度看,我們也需要檢驗我們的想法。我們不能指望閉門造 AI 就能推動發展,因為這樣只會讓內部指標偏離人們真正會關心的真實事物。真實世界應用能提供大量直接的反饋,可以讓我們知道系統是否在進步或者我們是不是需要提高資料或樣本效率。因為大多數真實世界難題都需要這樣。這能不斷推動和引導你的研究方向,以確保它們走在正確的道路上。當然,另一方面是,即便是在 AGI 誕生之前很多年,世界也能從中獲益。
Google DeepMind 內部
Dwarkesh Patel:Gemini 的開發工作涉及到谷歌大腦和 DeepMind 等不同機構的合作。這其中遇到了哪些挑戰?產生了哪些協同效應?
Demis Hassabis:過去的一年是很棒的一年。當然,挑戰是有的,和任何大型整合工作一樣。但我們是兩個世界級的組織,各自都發明瞭許多重要技術,從深度強化學習到 Transformer。因此,我們的很多工作就是將這些彙集起來,實現更加緊密的合作。其實我們過去常常合作,只不過之前是針對具體專案的合作,現在則是更加深度和廣泛的合作。
Gemini 是這一合作的首個成果,其實 Gemini 這個名字就暗含了孿生兄弟姐妹的意思。當然,也有很多事情的效率更高了,像是把計算資源、想法和工程開發工作彙集到一起。我們目前就處於這個階段,基於世界級的工程開發來構建前沿系統。我認為進一步的合作是有意義的。
Dwarkesh Patel:您和 Shane 創立 DeepMind 的部分原因是你們擔憂 AI 的安全問題。您認為 AGI 的到來有現實的可能性。您感覺來自谷歌大腦的研究者也有類似看法嗎?這個問題方面是否存在文化差異?
Demis Hassabis:沒有。總體而言,這就是我們在 2014 年與谷歌攜手的原因之一。我認為,谷歌和 Alphabet 整體(不只是谷歌大腦和 DeepMind)都以負責任的態度認真對待這些問題。差不多我們的座右銘就是大膽嘗試這些系統,同時要負起責任。我顯然是一個技術樂觀主義者,但我希望我們對技術保持謹慎,畢竟我們共同為這個世界帶來的東西具有變革性的力量。我認為這很重要。我認為這將成為人類發明的最重要的技術。
Dwarkesh Patel:最後一個問題。2010 年時,當其他人還覺得 AGI 很荒謬時,您就在思考這個終極目標了。現在隨著這類技術的慢慢起飛,您是怎麼想的呢?您是否已經在您的世界模型中預想到過?
Demis Hassabis:是的,我確實已經在我的世界模型中預想到過這些,至少是從技術角度。但很顯然,我們不一定預料到了公眾會在如此早期階段參與進來。像是 ChatGPT 等一些應用在某些方面還有所欠缺,但人們已經有濃烈的興趣去使用它們了。這一點挺讓人意外的。
另外還有更加專業化的系統,比如 AlphaFold 和 AlphaGo 以及一些科學方面的成果,但它們在公眾關注的主線發展之外,也許幾年後公眾會關注到它們,那時候我們可能就有了更加普遍適用的助理型別的系統。這會創造出一個和現在不一樣的環境。而且情況可能看起來會更混亂,因為會有很多事情發生,也會有很多風險投資,好像所有人都失去理智一樣。
我唯一擔憂的是我們能否負責任地、深思熟慮地、科學地對待這種情況,使用科學方法來應對。也就是我說的樂觀但謹慎的方式。我一直都相信這是我們應對 AI 這類事物的方式。我希望我們不會迷失在這場快速襲來的巨大熱潮中。
參考連結:
https://www.dwarkeshpatel.com/p/demis-hassabis
https://twitter.com/dwarkesh_sp/status/1762872471479529522