LeCun最新專訪:為什麼物理世界終將成為LLM的「死穴」?

机器之心發表於2024-03-11

人工智慧領域,很少有像 Yann LeCun 這樣的學者,在 65 歲的年齡還能高度活躍於社交媒體。

一直以來,Yann LeCun 都是以「直言不諱的批評者」形象活躍於人工智慧領域。他始終支援開源,並帶領 Meta 的團隊推出了佔據如今開源大模型領域半壁江山的 Llama 2;他對很多人深感恐慌的人工智慧末日論不以為然,堅信 AGI 的到來一定是件好事……

近日,LeCun 又一次來到 Lex Fridman 的播客,展開了一場接近三個小時的對談,內容涉及開源的重要性、LLM 的侷限性、為什麼人工智慧末日論者是錯誤的,以及通向 AGI 的道路等話題。

圖片

觀看頁面:https://youtu.be/5t1vTLU7s40?feature=shared

我們從這場播客內容中精選了一些有參考價值的觀點,以下是相關內容:

LLM 的侷限性

Lex Fridman:你說過,自迴歸 LLM 並不是我們在超人類智慧方面取得進展的方式。為什麼它們不能帶我們一路走下去?

Yann LeCun:出於多種原因。首先,智慧行為有許多特徵。例如,理解世界的能力、理解物理世界的能力、記憶和檢索事物的能力、永續性記憶、推理能力和計劃能力。這是智慧系統或實體、人類、動物的四個基本特徵。LLM 無法做到這些,或者只能以非常原始的方式做到這些,而且並不真正瞭解物理世界。LLM 並沒有真正的持久記憶,無法真正推理,當然也無法計劃。因此,如果你期望系統變得智慧,但卻無法做這些事情,那麼你就犯了一個錯誤。這並不是說自迴歸 LLM 沒有用。它們當然有用,但它們並不有趣,我們無法圍繞它們構建整個應用程式生態系統。但作為邁向人類水平智慧的通行證,它們缺少必要的組成部分。

透過感官輸入,我們看到的資訊比透過語言看到的資訊多得多,儘管我們有直覺,但我們學到的大部分內容和知識都是透過我們的觀察和與現實世界的互動,而不是透過透過語言。我們在生命最初幾年學到的一切,當然還有動物學到的一切,都與語言無關。

Lex Fridman:也就是你所說的,LLM 缺乏對物理世界的理解?所以,直覺物理學、關於物理空間、關於物理現實的常識推理對你來說沒有什麼特別之處。這是 LLM 無法做到的巨大飛躍?

Yann LeCun:我們今天使用的 LLM 無法做到這一點,原因有很多,但最主要的原因是 LLM 的訓練方式是:你獲取一段文字,刪除文字中的一些單詞,遮蔽它們,用空白 token 代替它們,然後訓練一個遺傳神經網路來預測缺失的單詞。如果你以一種特殊的方式構建這個神經網路,讓它只能檢視左側的單詞或它試圖預測的單詞,那麼你所擁有的系統基本上就是試圖預測文字中的下一個單詞。因此,你可以給它輸入一段文字、一個提示,然後讓它預測下一個單詞。它永遠無法準確預測下一個單詞。

因此,它要做的就是生成字典中所有可能單詞的機率分佈。事實上,它並不預測單詞。它預測的是作為子單詞單位的詞塊,因此很容易處理預測中的不確定性,因為字典中可能出現的單詞數量有限,你只需計算它們的分佈即可。然後,系統就會從該分佈中選出一個詞。當然,在該分佈中,選取機率較高的詞的機率會更高。因此,你從該分佈中取樣,實際產生一個單詞,然後將該單詞移入輸入中,這樣系統就不會預測第二個單詞了。

這就是所謂的自迴歸預測,這也是為什麼這些 LLM 應該被稱為「自迴歸 LLMs」,但我們只是稱其為 LLM。這種過程與在產生一個單詞之前的過程是有區別的。

當你我交談時,你我都是雙語者,我們會思考我們要說什麼,而這與我們要說的語言相對獨立。當我們談論一個數學概念時,我們所做的思考和我們打算給出的答案與我們是用法語、俄語還是英語來表達無關。

Lex Fridman:喬姆斯基翻了個白眼,但我明白,所以你是說有一個更大的抽象存在於語言之前並對映到語言?

Yann LeCun:對於我們所做的很多思考來說,是的。

Lex Fridman:你的幽默是抽象的嗎?當你發推文時,你的推文有時有點辛辣,在推文對映到英語之前,你的大腦中是否有一個抽象的表示?

Yann LeCun:確實有一個抽象的表示來想象讀者對該文字的反應。但是,想一個數學概念,或者想象一下你想用木頭做一個什麼東西,或者諸如此類的東西,這種思考與語言完全無關。你並不是在用某種特定的語言進行內心獨白。你是在想象事物的心理模型。我的意思是,如果我讓你想象一下,如果我把這個水瓶旋轉 90 度,它會是什麼樣子,這與語言毫無關係。很顯然,我們的大部分思考都是在更抽象的表徵層面上進行的,如果輸出的是語言,我們會計劃好要說的話,而不是輸出肌肉動作,我們會在做出答案之前就計劃好答案。

LLM 不會這樣做,只是本能地說出一個又一個單詞。這有點像下意識的動作,有人來問你一個問題,你就會回答這個問題。沒有時間思考答案,但答案很簡單。所以你不需要注意,會自動做出反應。這就是 LLM 的工作。它真的不會思考答案。因為它已經積累了很多知識,所以能檢索到一些東西,但也只會吐出一個又一個 token,而不會計劃答案。

Lex Fridman:一個 token 一個 token 地生成必然是簡單化的,但如果世界模型足夠複雜,它最有可能生成的是一連串的 token,這將是一件深奧的事情。

Yann LeCun:但這基於一個假設:這些系統實際上擁有一個永恆的世界模型。

影片預測

Lex Fridman:所以真正的問題是…… 能否建立一個對世界有深刻理解的模型?

Yann LeCun:能否透過預測來構建它,答案很可能是肯定的。但能透過預測單詞來構建它嗎?答案很可能是否定的,因為語言在弱頻寬或低頻寬方面非常貧乏,沒有足夠的資訊。因此,建立世界模型意味著要觀察世界,瞭解世界為什麼會以這樣的方式演變,然後世界模型的額外組成部分就是能夠預測你可能採取的行動會導致世界如何演變。

因此,一個真正的模型是:這是我對 T 時世界狀態的想法,這是我可能採取的行動。在 T+1 時間,預測的世界狀態是什麼?現在,世界的狀態並不需要代表世界的一切,它只需要代表與這次行動規劃相關的足夠多的資訊,但不一定是所有的細節。

現在,問題來了。生成模型無法做到這一點。因此,生成模型需要在影片上進行訓練,我們已經嘗試了 10 年,你拍攝一段影片,向系統展示一段影片,然後要求你預測影片的提醒,基本上就是預測將要發生什麼。

如果你願意,可以製作大型影片模型。這樣做的想法由來已久,在 FAIR,我和我們的一些同事嘗試這樣做已有 10 年之久,但你無法真正做到與 LLM 相同的技巧,因為 LLM,正如我所說,你無法準確預測哪一個單詞會跟隨一連串單詞,但你可以預測單詞的分佈。現在,如果你去看影片,你要做的就是預測影片中所有可能幀的分佈,而我們並不知道如何正確地做到這一點。

我們不知道如何以有用的方式來表示高維連續空間上的分佈。這就是主要問題所在,我們之所以能做到這一點,是因為這個世界比文字複雜得多,資訊豐富得多。文字是離散的,而影片是高維的、連續的。這裡面有很多細節。因此,如果我拍攝了這個房間的影片,影片中的攝像機在四處轉動,我根本無法預測在我四處轉動時房間裡會出現的所有東西。系統也無法預測攝像機轉動時房間裡會出現什麼。也許它能預測到這是一個房間,裡面有一盞燈,有一面牆,諸如此類的東西。它無法預測牆壁上的畫是什麼樣子,也無法預測沙發的紋理是什麼樣子。當然也無法預測地毯的質地。所以我無法預測所有這些細節。

因此,一種可能的處理方法,也是我們一直在研究的方法,就是建立一個擁有所謂潛在變數的模型。潛在變數被輸入到神經網路中,它應該代表所有你還沒有感知到的關於這個世界的資訊,你需要增強系統的預測能力,才能很好地預測畫素,包括地毯、沙發和牆上畫作的細微紋理。

我們試過直接的神經網路,試過 GAN,試過 VAE,試過各種正則化自動編碼器。我們還嘗試用這些方法來學習影像或影片的良好表徵,然後將其作為影像分類系統等的輸入。基本上都失敗了。

所有試圖從損壞版本的影像或影片中預測缺失部分的系統,基本上都是這樣的:獲取影像或影片,將其損壞或以某種方式進行轉換,然後嘗試從損壞版本中重建完整的影片或影像,然後希望系統內部能夠開發出良好的影像表徵,以便用於物體識別、分割等任何用途。這種方法基本上是完全失敗的,而它在文字方面卻非常有效。這就是用於 LLM 的原理。

Lex Fridman:失敗究竟出在哪裡?是很難很好地呈現影像,比如將所有重要資訊很好地嵌入影像?是影像與影像、影像與影像之間的一致性形成了影片?如果我們把你所有失敗的方式做一個集錦,那會是什麼樣子?

Yann LeCun:首先,我必須告訴你什麼是行不通的,因為還有其他東西是行得通的。所以,行不通的地方就是訓練系統學習影像的表徵,訓練它從損壞的影像中重建出好的影像。

對此,我們有一整套技術,它們都是去噪自編碼器的變體,我在 FAIR 的一些同事開發了一種叫做 MAE 的東西,即掩蔽自編碼器。因此,它基本上就像 LLM 或類似的東西,你透過破壞文字來訓練系統,但你破壞影像,從中刪除補丁,然後訓練一個巨大的神經網路重建。你得到的特徵並不好,而且你也知道它們不好,因為如果你現在訓練同樣的架構,但你用標籤資料、影像的文字描述等對它進行監督訓練,你確實能得到很好的表徵,在識別任務上的表現比你做這種自監督的再訓練要好得多。

結構是好的,編碼器的結構也是好的,但事實上,你訓練系統重建影像,並不能使它產生長而良好的影像通用特徵。那還有什麼選擇呢?另一種方法是聯合嵌入。

JEPA(聯合嵌入預測架構)

Lex Fridman::聯合嵌入架構與 LLM 之間的根本區別是什麼?JEPA 能帶我們進入 AGI 嗎?

Yann LeCun:首先,它與 LLM 等生成式架構有什麼區別?LLM 或透過重構訓練的視覺系統會生成輸入。它們生成的原始輸入是未損壞、未轉換的,因此你必須預測所有畫素,而系統需要花費大量資源來實際預測所有畫素和所有細節。而在 JEPA 中,你不需要預測所有畫素,你只需要預測輸入的抽象表示。這在很多方面都要容易得多。因此,JEPA 系統在訓練時,要做的就是從輸入中提取儘可能多的資訊,但只提取相對容易預測的資訊。因此,世界上有很多事情是我們無法預測的。例如,如果你有一輛自動駕駛汽車在街上或馬路上行駛,道路周圍可能有樹,而且今天可能是大風天。因此,樹上的葉子會以一種你無法預測的半混亂、隨機的方式移動,而你並不關心,也不想預測。因此,你希望編碼器基本上能消除所有這些細節。它會告訴你樹葉在動,但不會告訴你具體發生了什麼。因此,當你在表示空間中進行預測時,你不必預測每片樹葉的每個畫素。這樣不僅簡單得多,而且還能讓系統從本質上學習到世界的抽象表徵,其中可以建模和預測的內容被保留下來,其餘的則被編碼器視為噪音並消除掉。

因此,它提升了表徵的抽象程度。仔細想想,這絕對是我們一直在做的事情。每當我們描述一種現象時,我們都會在特定的抽象層次上進行描述。我們並不總是用量子場論來描述每一種自然現象。那是不可能的。因此,我們有多個抽象層次來描述世界上發生的事情,從量子場論到原子理論、分子、化學、材料,一直到現實世界中的具體物體等等。因此,我們不能只在最底層模擬一切。而這正是 JEPA 的理念所在,以自我監督的方式學習抽象表徵,而且還可以分層學習。因此,我認為這是智慧系統的重要組成部分。而在語言方面,我們可以不用這樣做,因為語言在某種程度上已經是抽象的,已經消除了很多不可預測的資訊。因此,我們可以不做聯合嵌入,不提升抽象程度,直接預測單詞。

Lex Fridman:你是說語言,我們懶得用語言,因為我們已經免費得到了抽象的表述,而現在我們必須放大,真正思考一般的智慧系統。我們必須處理一塌糊塗的物理現實和現實。而你確實必須這樣做,從完整、豐富、詳盡的現實跳轉到基於你所能推理的現實的抽象表徵,以及所有諸如此類的東西。

Yann LeCun:沒錯。那些透過預測來學習的自監督演算法,即使是在表徵空間中,如果輸入資料的冗餘度越高,它們學習到的概念也就越多。資料的冗餘度越高,它們就越能捕捉到資料的內部結構。因此,在知覺輸入、視覺等感官輸入中,冗餘結構要比文字中的冗餘結構多得多。語言可能真的代表了更多的資訊,因為它已經被壓縮了。你說得沒錯,但這也意味著它的冗餘度更低,因此自監督的效果就不會那麼好。

Lex Fridman:有沒有可能將視覺資料的自監督訓練與語言資料的自監督訓練結合起來?儘管你說的是 10 到 13 個 token,但其中蘊含著大量的知識。這 10 到 13 個 token 代表了我們人類已經弄明白的全部內容,包括 Reddit 上的廢話、所有書籍和文章的內容以及人類智力創造的全部內容。

Yann LeCun:嗯,最終是的。但我認為,如果我們太早這樣做,就有可能被誘導作弊。而事實上,這正是目前人們在視覺語言模型上所做的。我們基本上是在作弊,在用語言作為柺杖,幫助我們視覺系統的缺陷從影像和影片中學習良好的表徵。

這樣做的問題是,我們可以透過向語言模型提供影像來改進它們,但我們甚至無法達到貓或狗的智力水平或對世界的理解水平,因為它們沒有語言。它們沒有語言,但對世界的理解卻比任何 LLM 都要好得多。它們可以計劃非常複雜的行動,並想象一系列行動的結果。在將其與語言結合之前,我們如何讓機器學會這些?顯然,如果我們將其與語言相結合,會取得成果,但在此之前,我們必須專注於如何讓系統學習世界是如何運作的。

事實上,我們使用的技術是非對比性的。因此,不僅架構是非生成的,我們使用的學習程式也是非對比的。我們有兩套技術。一套是基於蒸餾法,有很多方法都採用了這一原理,DeepMind 有一種叫 BYOL,FAIR 有幾種,一種叫 vcREG,還有一種叫 I-JEPA。應該說,vcREG 並不是一種蒸餾方法,但 I-JEPA 和 BYOL 肯定是。還有一種也叫 DINO 或 DINO,也是從 FAIR 生產出來的。這些方法的原理是,你將完整的輸入,比如說一張圖片,透過編碼器執行,產生一個表示,然後你對輸入進行破壞或轉換,透過本質上等同於相同的編碼器執行,但有一些細微差別,然後訓練一個預測器。

有時預測器非常簡單,有時預測器並不存在,但要訓練一個預測器來預測第一個未損壞輸入與已損壞輸入之間的關係。但你只訓練第二個分支。你只訓練網路中輸入損壞輸入的部分。另一個網路則不需要訓練。但由於它們共享相同的權重,當你修改第一個網路時,它也會修改第二個網路。透過各種技巧,你可以防止系統崩潰,就像我之前解釋的那種崩潰,系統基本上會忽略輸入。因此,這種方法非常有效。我們在 FAIR 開發的兩種技術,DINO 和 I-JEPA 在這方面都非常有效。

我們的最新版本稱為 V-JEPA。它與 I-JEPA 的理念基本相同,只是將其應用於影片。因此,你可以獲取整個影片,然後遮蔽其中的一大塊內容。我們所遮蔽的實際上是一個時間管,所以是整個影片中每一幀的整個片段。

這是我們所擁有的第一個能學習到良好影片表徵的系統,因此當你將這些表徵輸入到一個有監督的分類器頭部時,它能以相當高的準確率告訴你影片中發生了什麼動作。因此,這是我們第一次獲得這種質量的東西。

結果似乎表明,我們的系統可以透過表徵來判斷影片在物理上是可能的,還是完全不可能的,因為某些物體消失了,或者某個物體突然從一個位置跳到另一個位置,或者改變了形狀什麼的。

Lex Fridman:這能讓我們建立一種足夠了解世界並能夠駕駛汽車的世界模型嗎?

Yann LeCun:可能還需要一段時間才能達到這個目標。現在已經有一些機器人系統,就是基於這個想法。你需要的是一個稍加改動的版本,想象你有一段完整的影片,而你對這段影片所做的,就是把它在時間上轉換到未來。因此,你只能看到影片的開頭,而看不到原始影片中的後半部分,或者只遮蔽影片的後半部分。然後你就可以訓練一個 JEPA 系統或我描述的那種系統,來預測被遮擋影片的完整表現形式。不過,你也要給預測器提供一個動作。例如,車輪向右轉動 10 度或其他動作,對嗎?

因此,如果這是一個汽車攝像頭,而你又知道方向盤的角度,那麼在某種程度上,你應該能夠預測你所看到的畫面會發生什麼變化。顯然,你無法預測檢視中出現的物體的所有細節,但在抽象表示層面,你或許可以預測將要發生的事情。所以,現在你有了一個內部模型,它說:"這是我對 T 時刻世界狀態的想法,這是我正在採取的行動。這裡是對 T 加 1、T 加 delta T、T 加 2 秒時世界狀態的預測," 不管它是什麼。如果你有這樣一個模型,你就可以用它來進行規劃。因此,現在你可以做 LMS 做不到的事情,即規劃你要做的事情。因此,當你到達一個特定的結果或滿足一個特定的目標時。

因此,你可以有很多目標。我可以預測,如果我有一個這樣的物體,我張開手,它就會掉下來。如果我用一種特定的力量把它推到桌子上,它就會移動。如果我用同樣的力推桌子,它可能不會移動。因此,我們腦海中就有了這個世界的內部模型,它能讓我們計劃一系列的行動,以達到特定的目標。現在,如果你有了這個世界模型,我們就可以想象一連串的動作,預測這一連串動作的結果,衡量最終狀態在多大程度上滿足了某個特定目標,比如把瓶子移到桌子左邊,然後在執行時規劃一連串動作,使這個目標最小化。

我們說的不是學習,而是推理時間,所以這就是規劃,真的。在最優控制中,這是一個非常經典的東西。它被稱為模型預測控制。你有一個想要控制的系統模型,它能預測與一系列指令相對應的狀態序列。而你正在規劃一連串的指令,以便根據你的角色模型,系統的最終狀態將滿足你設定的目標。自從有了計算機,也就是 60 年代初開始,火箭軌跡的規劃就一直採用這種方式。

強化學習

Lex Fridman:建議放棄生成模型而轉而採用聯合嵌入架構?你已經有一段時間是強化學習的批評者了。這感覺就像法庭證詞,放棄機率模型,轉而支援我們談到的基於能量的模型,放棄對比方法,轉而支援正則化方法。

Yann LeCun:我認為它不應該被完全放棄,但我認為它的使用應該最小化,因為它在取樣方面效率非常低。因此,訓練系統的正確方法是首先讓它從主要觀察(也許還有一點互動)中學習世界和世界模型的良好表示。

Lex Fridman:RLHF 為什麼效果這麼好?

Yann LeCun:具有轉化效果的是人類反饋,有很多方法可以使用它,其中一些只是純粹的監督,實際上,它並不是真正的強化學習

開源

Yann LeCun:擁有人工智慧行業、擁有不存在獨特偏見的人工智慧系統的唯一方法就是擁有開源平臺,任何團體都可以在該平臺上構建專門的系統。歷史的必然方向就是,絕大多數的 AI 系統都會建立在開源平臺之上。

Meta 圍繞的商業模式是,你提供一種服務,而這種服務的資金來源要麼是廣告,要麼是商業客戶。

舉例來說,如果你有一個 LLM,它可以透過 WhatsApp 與顧客對話,幫助一家披薩店,顧客只需點一份披薩,系統就會問他們:「你想要什麼配料或什麼尺寸,等等」。商家會為此付費,這就是一種模式。

否則,如果是比較經典的服務系統,它可以由廣告支援,或者有幾種模式。但問題是,如果你有足夠大的潛在客戶群,而且無論如何你都需要為他們構建該系統,那麼將其釋出到開放原始碼中也無傷大雅。

Lex Fridman:Meta 所打的賭是:我們會做得更好嗎?

Yann LeCun:不。賭注更大,我們已經擁有龐大的使用者群和客戶群。

我們提供開源的系統或基本模型、基礎模型,供他人在此基礎上構建應用程式,這也無傷大雅。如果這些應用對我們的客戶有用,我們可以直接向他們購買。他們可能會改進平臺。事實上,我們已經看到了這一點。LLaMA 2 的下載量已達數百萬次,成千上萬的人提出瞭如何改進平臺的想法。因此,這顯然加快了向廣大使用者提供該系統的程序,而且數以千計的企業正在使用該系統構建應用程式。因此,Meta 從這項技術中獲取收入的能力並沒有因為基礎模型的開源分佈而受到影響。

Llama 3

Lex Fridman:關於 LLaMA 3 ,你最興奮的是什麼?

Yann LeCun:會有各種版本的 LLaMA,它們是對以前的 LLaMA 的改進,更大、更好、多模態,諸如此類。然後,在未來的幾代中,有能夠真正瞭解世界如何運作的規劃系統,可能是透過影片進行訓練的,因此它們會有一些世界模型,可能能夠進行我之前談到的推理和規劃型別。

這需要多長時間?朝這個方向進行的研究什麼時候會進入產品線?我不知道,也不能告訴你。在我們實現這一目標之前,我們基本上必須經歷一些突破,但大家能夠監控我們的進展,因為我們公開發布了自己的研究。因此,上週我們釋出了 V-JEPA 工作,這是邁向影片訓練系統的第一步。

下一步將是基於這種影片創意訓練的世界模型。DeepMind 也有類似的工作,加州大學伯克利分校也有關於世界模型和影片的工作。很多人都在做這方面的工作。我認為很多好的想法正在出現。我敢打賭,這些系統將是 JEPA 輕型系統,它們不會是生成模型,我們將看看未來會發生什麼。

30 多年前,我們正在研究組合網路和早期的神經網路,我看到了一條通往人類水平智慧的道路,系統可以理解世界、記憶、計劃、推理。有一些想法可以取得進展,可能有機會發揮作用,我對此感到非常興奮。

我喜歡的是,我們在某種程度上朝著一個好的方向前進,也許在我的大腦變成白沙司或在需要退休之前取得成功。

Lex Fridman:你的大部分興奮點還是在理論方面,也就是軟體方面?

Yann LeCun:很多年前我曾經是一名硬體人員。規模是必要的,但還不夠。有可能我未來還能活十年,但我還是要跑一小段距離。當然,對於能源的效率,我們取得的進步越遠,我們在努力工作方面取得的進步就越多。我們必須降低功耗。如今,一個 GPU 的功耗在半千瓦到一千瓦之間。人腦的功率約為 25 瓦,而 GPU 的功率遠遠低於人腦。你需要 10 萬或 100 萬的功率才能與之媲美,所以我們的差距非常大。

AGI

Lex Fridman:你經常說 GI 不會很快到來,背後的基本直覺是什麼?

Yann LeCun:那種被科幻小說和好萊塢廣為流傳的想法,即某個人會發現 AGI 或人類級 AI 或 AMI(不管你怎麼稱呼它)的秘密,然後開啟機器,我們就擁有了 AGI,是不可能發生的。

這將是一個循序漸進的過程。我們是否會有系統能從影片中瞭解世界是如何運作的,並學習良好的表徵?達到我們在人類身上觀察到的規模和效能之前,還需要相當長的一段時間,不是一天兩天的事。

我們會讓系統擁有大量關聯記憶,從而記住東西嗎?是的,但這也不是明天就能實現的。我們需要開發一些基本技術。我們有很多這樣的技術,但要讓它們與完整的系統協同工作,那就是另一回事了。

我們是否將擁有能夠推理和規劃的系統,或許就像我之前描述的目標驅動型人工智慧架構那樣?是的,但要讓它正常工作,還需要一段時間。在我們讓所有這些東西協同工作之前,在讓系統基於此實現學習分層規劃、分層表示,能夠像人腦那樣針對手頭的各種不同情況進行配置之前,至少需要十年時間甚至更長,因為有很多問題我們現在還沒有看到,我們還沒有遇到,所以我們不知道在這個框架內是否有簡單的解決方案。

在過去的十幾年,我一直聽到有人聲稱 AGI 指日可待,但他們都錯了。

智商可以衡量人類的一些東西,但因為人類的形式相對統一。但是,它只能衡量一種能力,而這種能力可能與某些任務相關,但與其他任務無關。但如果你說的是其他智慧實體,對它們來說很容易做到的基本事情卻截然不同,那麼它就沒有任何意義了。因此,智慧是一種技能的集合,也是一種高效獲取新技能的能力。一個特定的智慧實體所擁有或能夠快速學習的技能集合與另一個智慧實體的技能集合是不同的。因為這是一個多維度的東西,技能集合是一個高維空間,你無法測量,也無法比較兩個東西是否一個比另一個更聰明。它是多維的。

Lex Fridman:你經常反對所謂的人工智慧末日論者,解釋一下他們的觀點以及你認為他們錯誤的原因。

Yann LeCun人工智慧末日論者想象了各種災難場景,人工智慧如何逃脫或控制並基本上殺死我們所有人,這依賴於一大堆假設,而這些假設大多是錯誤的。

第一個假設是,超級智慧的出現將是一個事件,在某個時刻,我們會發現其中的秘密,我們會開啟一臺超級智慧的機器,因為我們以前從未這樣做過,所以它會佔領世界,殺死我們所有人。這是錯誤的。這不會是一個事件。

我們將擁有像貓一樣聰明的系統,它們具有人類智慧的所有特徵,但它們的智慧水平可能像貓或鸚鵡之類。然後,我們再逐步提高它們的智慧水平。在讓它們變得更聰明的同時,我們也要在它們身上設定一些防護欄,並學習如何設定防護欄,讓它們表現得更加正常。

在自然界中,似乎更聰明的物種最終會統治另一個物種,甚至有時是有意為之,有時只是因為錯誤而區分其他物種。

所以你會想:「好吧,如果人工智慧系統比我們更聰明,肯定會消滅我們,如果不是故意的,只是因為他們不關心我們,」這是荒謬的 —— 第一個原因是它們不會成為與我們競爭的物種,不會有主宰的慾望,因為主宰的慾望必須是智慧系統中固有的東西。它在人類身上是根深蒂固的,狒狒、黑猩猩、狼都有這種慾望,但在猩猩身上卻沒有。這種支配、服從或以其他方式獲得地位的慾望是社會性物種所特有的。像猩猩這樣的非社會性物種就沒有這種慾望,而且它們和我們一樣聰明。

人形機器人

Lex Fridman:你認為很快就會有數以百萬計的人形機器人四處走動嗎?

Yann LeCun:不會很快,但一定會發生。

未來十年,我認為機器人行業將非常有趣,機器人行業的興起已經等待了 10 年、20 年,除了預程式設計行為和諸如此類的東西外,並沒有真正出現。主要問題還是莫拉維克悖論,我們如何讓這些系統理解世界是如何運作的,並計劃行動?這樣,我們才能完成真正專業的任務。波士頓動力的做法基本上是透過大量手工製作的動態模型和事先的精心策劃,這是非常經典的機器人技術,其中包含大量創新和一點點感知,但這仍然不夠,他們無法制造出家用機器人。

此外,我們離完全自主的 L5 駕駛還有一定距離,比如一個可以像 17 歲孩子一樣透過 20 小時的駕駛來訓練自己的系統。

因此,在擁有世界模型、能夠自訓練以瞭解世界如何運作的系統之前,我們不會在機器人技術方面取得重大進展。

相關文章