李飛飛：語言之外，另一半的智慧還有待實現

机器之心發表於2025-01-22

原文網址 : https://www.jiqizhixin.com/articles/2025-01-22-7

「語言是人類的語言，而 3D 是自然的語言。」

「除了語言，我們還有另外一半智慧，這部分非常深刻，就是我們做事的能力。」

「在 AI 之間加一個 G 以強調其通用性，我是尊重這個想法的。從製造能夠思考和幫助人們做出決策的機器的角度來看，AI 或 AGI 對我來說是同樣的事情。」

「《龍貓》是我最喜歡的電影之一，這部電影雖然簡單卻又如此深刻。」

最近，史丹佛大學教授李飛飛接受了矽谷著名投資人 Reid Hoffman 和 Aria Finger 的聯合播客專訪。李飛飛：語言之外，另一半的智慧還有待實現

影片連結：https://www.youtube.com/watch?v=0jMgskLxw3s

在這場對話中，李飛飛主要探討了以下主題：

ImageNet 的靈感源於難以避開模型的過擬合問題，李飛飛意識到與其苦心改進模型，不如用資料驅動。

探究智慧的本質，李飛飛認為智慧分為說話的能力和做事能力，與之對應的是語言智慧和空間智慧，語言是人類的語言，而 3D 是自然的語言。而擁有空間智慧的 AI，將做到人類從未做到的事：真正地打破物理世界和數字世界的界限。

在 AI 發展中，需要尊重一些源自「舊石器時代」的核心原則：首先是人類的主體能動性，像「AI 將治癒癌症」這類把 AI 置於主語的表述，容易忽視人是使用技術的主體；二是重視人類的基本需求，包括對健康、生產力和社會認同的普遍追求。

對於人類和 AI 技術安全的關係，李飛飛認為首先要考慮的是，我們應該基於科學，而不是科幻。對於 AI 治理，精力應集中在應用層面設定護欄上，也就是人類受到影響的地方，而不是阻止上游開發。

李飛飛認為只有當擁有正面的生態系統時，才會有正面的 AI 未來，這需要服務於公眾福祉的公共部門參與。其分為兩種形式：一是推動基礎研究和創新，從醫療到教育；二是人才，需要教育越來越多的年輕人和公眾瞭解這項技術。

以下為訪談內容的文字記錄：

ImageNet 的起源：人們都只關注模型，而不關注資料

主持人：是什麼給了你 ImageNet 的想法？

李飛飛：很難確定具體的某一刻，但這個想法主要形成於 2006 年左右。當時我正在深入研究使用機器學習演算法來理解影像中的物體。無論我怎麼研究，都無法避開機器學習模型中過擬合這個數學概念。這種情況發生在模型複雜度與使用的資料不太匹配時，特別是當資料的複雜性和數量無法有效驅動模型時。

當然，並不是所有模型都是一樣的。我們現在知道神經網路模型具有更高的容量和表示能力。撇開這些專業術語不談，資料和模型之間確實存在相互作用。但我發現，人們都只關注模型，而不關注資料。這就是我產生洞見的時刻我們不能只關注模型，或者用錯誤的方式看待問題，我們需要關注資料，用資料來驅動模型。

當時我剛到普林斯頓擔任教職，接觸到了一個叫 WordNet 的專案。雖然 WordNet 與計算機視覺無關，但它提供了一種很好的組織世界概念的方式。我很喜歡這個名字，一件事接著一件事，ImageNet 就這樣誕生了。因為我深信需要大資料和視覺世界的多樣化表示，所以開始了這個專案。

解鎖智慧最重要的另一半：空間智慧

主持人：從你 AI 職業生涯中期的 ImageNet 到現在的 World Labs，你能談談 World Labs 的理念是什麼？你們正在構建什麼？你正在建設的東西是我們要去哪裡以及如何理解這一點的關鍵部分，無論是 World Labs 本身還是 AI 的趨勢。

李飛飛：是的，這是我們喜歡討論的話題技術將何去何從。在 ImageNet 之後，我一直在執著地思考一個問題：什麼是智慧？我們如何讓機器產生智慧？對我來說，這實際上可以歸結為兩個簡單的方面。如果我們觀察人類智慧：

第一個方面是我們說話的能力 —— 我們使用語言交流作為工具來交談、組織知識和溝通。但還有另外一半智慧，這部分非常深刻，就是我們做事的能力。比如煎蛋卷、去遠足、與朋友相處並享受彼此的陪伴這些都遠遠超出了我們所說的語言範疇。就像我們能夠舒適地坐在對方面前，拿著啤酒罐聊天，這些都是智慧的一部分。

這部分智慧實際上植根於我們理解我們所生活的 3D 世界的能力感知它，並將其轉化為一系列理解、推理和預測，使我們能夠在其中行動。在我看來，這種能力被稱為空間智慧，這是像人類這樣的智慧生物所具有的基本能力，也就是處理 3D 空間的能力。

ImageNet 之所以誕生，是因為我在尋求為 2D 影像中的畫素新增標籤。對人類來說，2D 影像是 3D 世界的投影。所以你可以看到，這只是理解我們所生活的更完整的視覺世界的一小步，但這一小步很關鍵。因為無論是對人類、動物還是機器來說，理解和標記這些影像中的物體都是重要的第一步。

現在，過去了 15 年，我認為我們已經準備好迎接一個更大的挑戰。這幾乎是一個本壘打式的追求 —— 解鎖智慧最重要的另一半，也就是空間智慧的問題。讓空間智慧特別有趣的是，它實際上有兩個方面：一個是物理的 3D 世界，另一個是數字的 3D 世界。我們以前從未真正能夠在兩者之間生活，但現在空間智慧可以成為一種統一的技術，既可以理解 3D 實體世界，也可以理解數字 3D 世界。

空間智慧將如何改變物理世界和數字世界？

主持人：回想一下，如果回到 1880 年，馬車和未鋪砌的道路，那是一個完全不同的世界。但如果回到 1980 年，好吧，人們開的車不同了，但他們住在相同的建築裡，仍然在開車，現實世界的機制基本上是一樣的。你認為這「另一半智慧」會在未來幾十年改變這一點嗎？我們會看到實體世界發生像過去幾年數字世界那樣的巨大轉變嗎？

李飛飛：我認為會的。我認為現實和數字之間的界限將開始模糊。舉個例子，我想象自己在高速公路上開車，如果爆胎了，儘管我是個技術專家，我可能還是會遇到困難。但如果我能戴上眼鏡，或者只需要用手機對著爆胎的車，與潛在的應用程式協作，透過視覺引導或對話或兩者的結合來指導我更換輪胎，這就是一個非常平凡的日常生活例子，真正打破了物理 3D 世界和數字 3D 世界的界限。這種技術賦能人類的景象，無論是更換輪胎還是進行心臟手術，對我來說都非常令人興奮。

大語言模型和大世界模型有什麼區別？

主持人：你說你經常使用大語言模型來學習，我覺得這很鼓舞人心。我的孩子們總是說「哦，我數學很好，不需要再學習了」，我可以告訴他們「看，李飛飛也在使用大語言模型學習」。我想你還有一些要說的。在談到大世界模型與大語言模型時，你如何向人們解釋這種區別？你認為這在未來會如何發展？

李飛飛：從根本上說，就像我說的，一個是關於說話，另一個是關於看和做事。所以它們是非常不同的模態。大語言模型的基本單位是字母或詞，而在我們的世界模型中，基本單位是畫素或體素。它們是非常不同的語言。我幾乎覺得語言是人類的語言，而 3D 是自然的語言。我們真的想要達到這樣一個點：AI 演算法能讓人們與畫素世界互動，無論是虛擬的還是物理的。

舊石器時代的情感、中世紀的制度以及技術的作用

主持人：你的回答讓我想起你引用過的社會生物學家愛德華・威爾遜的話：「我們有舊石器時代的情感，中世紀的制度，和神一樣的技術，這非常危險。」考慮到你剛才談到的關於推理、自然語言、人們的教育，你如何扭轉這種局面？在 AI 時代，人類面臨什麼機遇？

李飛飛：我仍然相信這句話，正因如此，你和我還有我們的朋友才創立了以人為中心的 AI 研究所。如果要我反轉這個局面，我會反過來說這句話：人類有能力創造上帝一樣的技術，這樣我們就能改善我們的中世紀制度，超越我們舊石器時代的情感，或者將這些情感引導到創造力、生產力和善意上來。

在 AI 的發展中，尊重人的主體能動性

主持人：在構建技術以幫助我們實現抱負方面，你認為關鍵是什麼？是關注同理心？是以人為中心和互動的共生關係？在讓技術和 AI 幫助我們實現更好的自我方面，你會把什麼作為下一步？

李飛飛：我能理解為什麼你同時主修人文科學，你身上體現了哲學和技術的結合。我同意，而且你知道，我們之前幾乎把「舊石器時代」當作負面詞使用，但它實際上不是負面詞，它是一個很中性的詞。人類的情感或者我們對自我的認識深深植根於進化，植根於我們的 DNA 中，我們無法改變這一點。世界之所以同時美麗又混亂，正是因為這個原因。

在思考技術與人類關係的未來時，我認為我們需要尊重這一點。我們需要尊重一些最基本的、真正的舊石器時代根源。技術發展需要尊重幾個方面，我們越尊重這些，就會做得越好：

首先是尊重人類的主體能動性。我認為 AI 公共傳播中的一個問題是，我們經常把 AI 作為句子的主語，好像我們在剝奪人類的主體能動性。比如說「AI 將治癒癌症」，我有時也會犯這個錯誤，但事實是人類將使用 AI 來治癒癌症，不是 AI 在治癒癌症，也不是 AI 將解決核聚變問題。事實是人類科學家和工程師將使用 AI 作為工具來解決核聚變。更危險的說法是「AI 將奪走你的工作」。我認為我們真的需要認識到，這項技術有更多機會創造機會和工作，賦能人類主體能動性，這是我關心的一個非常重要的第一性原理。

第二個重要的第一性原理是尊重每個人：每個人都想健康，都想有生產力，都想成為受人尊重的社會成員。無論我們如何發展或使用 AI，我們都不能忽視這一點。忽視這一點是危險的，是適得其反的。我認為僅這兩點就對指導我們開發這項技術至關重要。

談論這些深深植根於這樣一個信念：任何技術、任何創新的意義都在於對人類有益。這就是人類文明的軌跡每次我們創造一個工具，我們都想用這個工具來做好事。當然，這是一把雙刃劍，我們可能會誤用工具，會有壞人使用工具。所以即使看到技術和工具的陰暗面，它也推動我們更加努力地讓它變得更好，讓它更以人為本。這確實是以人為本 AI 研究所的基本原則。在史丹佛，你和我還有我們的朋友都將 AI 視為如此強大的工具，它是一個文明性的工具，我們最好儘早圍繞它建立一個框架，將人類和人類利益置於其中心。以人為中心的 AI 最關鍵的方面之一，也是我認為應該指導每個公司、每個開發者的，就是賦能人們的理念。

AI 治理應該集中在應用層面，而不是阻止上游開發

主持人：你在 AI 領域工作了這麼長時間，擔任過許多不同的職務。我感覺有些人現在才開始瞭解 AI。你如何看待當前的 AI 創新時刻，無論是就我們所處的位置，還是開發者面臨的挑戰來說？你認為要達到解決這些問題的下一個層次，我們需要做什麼？

李飛飛：這確實是一個非凡的時刻。我認為這絕對是一場革命的轉折點，原因在於應用 ——AI 現在可以被人們和企業日常使用，而且早期 AI 先驅在職業生涯早期階段設想的許多夢想已經實現或即將實現。比如，公眾熟知的圖靈測試基本上是一個已解決的問題。圖靈測試本身我不會說是智慧的終極測試，但它曾是一個如此困難的標準，是一個合理的衡量標準，現在已經解決了。再比如自動駕駛汽車，雖然還沒有完全解決，但比 2006 年時已經解決得多得多。

所以我認為，因為這些模型的力量已經產品化到人們和企業手中，這是 AI 革命的一個非凡階段。但我也清楚地意識到，我們生活在矽谷泡沫中，因為我認為整個全球人口仍在逐步瞭解 AI 的現狀，但我們確實看到了未來和未來的發展方向。

主持人：是的，AI 可能是一個巨型的人類能力放大器，可能帶來巨大的積極影響，但我們也確實需要擔心負面後果。我們需要引導它朝著正確的方向發展。從發展的視角來看，你認為我們需要做什麼來確保 AI 的發展是積極的？

李飛飛：說實話，我認為我們可以做很多事，我認為我們應該昨天就開始做，現在還不晚，我們應該真正致力於此。

第一件事是我認為我們應該基於科學，而不是科幻。關於 AI 導致人類滅絕或 AI 帶來世界和平的說法，都有太多炒作和言論，這兩種觀點都更像是科幻而不是科學。所以當我們思考如何處理 AI 政策、AI 治理時，基於資料、基於科學事實、基於科學方法是非常重要的。

其次，我真的相信，就像許多其他技術和工具一樣，我們應該將治理精力集中在應用層面設定護欄上，也就是人類受到影響的地方，而不是阻止上游開發。想想汽車早期，它並不是很安全，沒有安全帶，一開始甚至沒有車門，沒有速度限制等等。然後我們確實有了教訓，付出了人命的代價，但發生的事情不是讓福特和通用汽車關閉工廠，而是為安全帶、速度限制等建立了監管框架。

今天的 AI 類似，它是一個深具賦能性的技術，但也帶來危害。所以我們應該關注的是，當 AI 應用於醫療時，我們如何更新 FDA 監管措施；當 AI 應用於金融時，我們如何設定監管護欄。應用是我們應該集中治理精力的地方。

最後但同樣重要的是，我們需要理解，只有當擁有正面的生態系統時，才會有正面的 AI 未來。而這個生態系統需要私營部門。我認為私營部門（無論是大公司還是創業企業）很重要，但我們也需要公共部門。因為公共部門服務於公眾福祉（public goods）。

在我看來，公共福祉有兩種形式：一種是那些由好奇心驅動的創新和新知識 —— 無論是使用 AI 研究核聚變，還是使用 AI 治癒疾病，使用 AI 賦能我們的教師。所有這些不同的想法，很多都來自公共部門。ImageNet 就來自公共部門。

另一種形式的公共福祉是人才，我們需要教育越來越多的年輕人和公眾瞭解這項技術，公共部門在 K12 到高等教育方面承擔了社會教育責任的主要部分。這些是我非常關心的 AI 治理和政策的不同方面。

一些鼓舞人心的訊息：有人在用 AI 評估農村社群的水質

主持人：我認為你也應該強調一下 AI for All，也就是要確保 AI 不是學術大佬們的專利，而是可以造福所有人。請談談 AI for All 以及它的使命和貢獻是什麼。

李飛飛：AI for All 是一個非營利組織，我與我的前學生和同事共同創立，其使命是為來自不同背景的 K12 學生提供機會，透過大學暑期專案和實習接觸 AI。這個想法是試圖實現 AI 的公共教育福祉 —— 我們知道 AI 將改變世界，但誰將改變 AI？我們希望更多樣化的群體能來受到啟發，使用這項技術，為各種偉大的事業開發這項技術。

我們一直專注於女性和來自農村、城市內或其他歷史上代表性不足的社群和背景的學生，讓他們參與這些暑期專案。看到這些年輕人使用 AI 或學習 AI，改進救護車排程演算法、使用 AI 評估農村社群的水質，真是太鼓舞人心了！這個事情的規模依然很小，但我希望它能繼續發展，因為讓更多樣化的人參與到 AI 中來這個目標非常重要。

AI 在革新醫療保健服務方面的潛力

主持人：你在醫療保健領域也做了研究。我覺得人們應該更多關注 AI 如何提升醫療水平。能談談你在這方面的工作和對未來的展望嗎？

李飛飛：是的，正如我在書中所寫，我對 AI 在醫療領域的應用充滿熱情。醫療保健是一個以人為本的領域，涵蓋從基礎生物科學、藥物研發、臨床診斷到公共衛生等多個方面。令人振奮的是，AI 在這個體系的每個環節都能發揮重要作用。

我特別關注醫療服務這個領域，因為這裡最能體現人與人之間的互助。目前我們面臨護士人力短缺的問題，他們工作繁重，流失率高。資料顯示，護士每個班次要走四英里以上來取藥和裝置，在一個班次中，護士可能要完成多達 150 至 180 個不同的任務。同時，我們有病人從病床上摔下來，因為他們缺乏足夠的照顧。對病情嚴重患者的分診存在很多問題，更不用說獨居老年人，面臨痴呆惡化等諸多風險。

過去十多年，我一直在研究如何用智慧攝像頭技術幫助醫護人員。這種非接觸式的系統可以監測病床上病人的動作預防跌倒，追蹤居家老人的行為和生活狀況，甚至在手術室幫助護士清點器械避免遺留體內。我們將這種技術稱為 NBA 智慧，目標是協助醫護人員提供更優質的照護服務。

AGI 到底是什麼意思？

主持人：現在 AGI 這個詞經常被提到，我記得你可能在某處說過你甚至不確定 AGI 是什麼意思，因為顯然很多人對它有自己的理解，就像是羅夏測試。請談談為什麼會有這樣的 AGI 討論，它應該意味著什麼，如何讓這個討論更理性，而不是一堆零散的呼喊 ——「它很棒」、「它很可怕」、「它會摧毀所有工作」、「它會幫助全人類」。

李飛飛：我知道，這既是一個最有趣但也令人沮喪的對話。我真的不知道 AGI 是什麼意思。我想這個詞來自大約 10 年前，那時候 AI 剛開始成熟，商業界對此開始產生興趣。在 AI 之間加一個 G 以強調其通用性，我是尊重這個想法的。比如，現在的自動駕駛汽車就比僅能檢測樹木的相機要通用得多。這兩者之間的差異是真實存在的。

如果回溯歷史，回到 AI 的奠基者約翰・麥卡錫和馬文・明斯基，回到他們從 1956 年夏天開始的夢想和希望，你會發現這其實就是他們的夢想 —— 製造能夠思考和幫助人們做出決策的機器。而我們想的是解決檢測樹木這種極其狹窄的 AI 任務。

AI 這個領域就是為了創造思考機器。所以從這個角度來看，我們分享著同樣的夢想、同樣的科學好奇心、同樣的追求 —— 讓機器可以執行極其智慧的任務。

所以從這個角度來看，AI 或 AGI 對我來說是同樣的事情。

人際互動的價值：李飛飛與數學老師

主持人：我感覺最近的進步正在讓我們更加接近這種 AI。我們可以透過日常對話讓 AI 完成各種不同的任務。也就說所謂的智慧體（Agent）。你認為這個發展方向如何？在未來幾年裡，智慧體 AI 會像一些人說的那樣改變一切嗎？

李飛飛：自然語言能幫助人們搜尋、構思、學習，是非常強大的工具。我自己也會使用 LLM 來幫助理解某些概念、閱讀論文、探索我不知道的東西。最讓我興奮的是看到人們和孩子們將其用作提高自己學習的工具。

我確實想保持專注。保持人們的自我主動性很重要，這就需要為他們提供學習和賦能的好工具。我認為隨著工具愈漸強大，我們將看到越來越多的協作能力，允許人類使用這些工具更精確地做事。我會很高興看到這些發生。

主持人：我認為這不僅很重要，而且也是正確的事情。但也有人會擔憂這些 AI 會取代人與人之間的互動，而我們知道社交很重要 —— 不管是對於教學，還是對於社群和同理心。您在自己的書《我看到的世界》中講述了一個關於數學老師的故事，也涉及到了人際互動的重要性。你能多分享一些這方面的見解嗎？

李飛飛：作為一個移民孩子，15 歲來到新澤西州，在不會說英語的情況下進入了一所公立高中。那是我旅程的開始。我非常幸運，很快就遇到了一個數學老師，薩貝拉先生。他以那種真正尊重和無條件的支援對待我。他不僅是我的數學老師，而且在我作為新移民的艱難青少年時期成為了我的朋友。我們的友誼一直持續。

他教育我的方式並不是透過言語。他從來沒告訴我：飛飛，AI 要掌控世界了，聽我的，去做以人為本的 AI（human-centered AI）。我想這個詞從來沒出現在我們的對話中。他是透過行動告訴我：我們社會和生活的意義在於我們為彼此所做的積極的事情，以及我們持有的信仰和我們追求的信標。透過他的行動，我開始認識到尊重和幫助他人是一件美好的事情，即使那是一個不會說英語、不知道自己在新國家做什麼的迷茫孩子。我認為那種慷慨、善良和同情心是人類的核心。對我來說，從他那裡學到的最重要的東西就是「以人為本」。

主持人：真是一個美好的故事。說到這裡，有什麼電影、歌曲或書籍能讓你對未來充滿希望嗎？

李飛飛：《龍貓》是我最喜歡的電影之一。看到你的動作，彷彿已經能聽到《龍貓》的主題曲了。但是我唱得不好，我就不唱了。這部電影雖然簡單卻又如此深刻。我還可以用陪孩子作為藉口看這部電影，但說實話，我才不是因為孩子喜歡看呢！我就是喜歡看這部電影。

技術進步帶來的紅利必須共享

主持人：那麼飛飛，你希望人們更經常問你什麼問題呢？

李飛飛：我希望人們多問我如何用 AI 來幫助人類。關於這個話題我可以聊上幾個小時，談到這個我就能想到很多在史丹佛，或者遍佈世界各地的優秀同事都為這方面做貢獻。他們的具體研究我可能不太瞭解，但我很樂意透過他們的工作，來指明可供探索的方向。

主持人：沒錯。現在有很多人在做令人驚歎的事情，我們需要激勵更多的人同行。在你的行業之外，有沒有看到哪些讓人激動的進展呢？

李飛飛：人文學科對能源的關注讓我感到鼓舞。這好像再次證明，談論其他話題，我的思維總會自然而然地回到 AI。就連 AI 的發展也面臨著能源這個非常現實的問題，對吧？我認為環境的變化，以及為全球關係實現能源民主化都非常關鍵。而且我們不能永遠依賴化石燃料。因此，許多能源領域的進展和全球性運動都令人興奮。

主持人：最後一個問題，如果一切都對人類有利，你認為未來 15 年會朝著怎樣的方式發展？實現那個目標的第一步是什麼？

李飛飛：我希望未來 15 年能看到全球知識、福祉和生產力的整體提升，尤其是實現共同繁榮。之所以特別強調「共同」二字，是因為作為一個技術樂觀主義者，我深信技術能幫助人類發現新知識、推動創新、提升福祉。歷史一次又一次教會我們：技術進步帶來的紅利必須共享，我們要讓這些技術福祉真正惠及每一個人。

^{參考連結：https://www.youtube.com/watch?v=0jMgskLxw3s}

^{https://x.com/reidhoffman/status/1879531513752248565}

李飛飛：語言之外，另一半的智慧還有待實現

相關文章