李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界

机器之心發表於2024-05-16
李飛飛創業選擇的「空間智慧」,完整的 TED 解讀影片公佈了。

圖片

前段時間,路透社獨家報導了知名「AI 教母」李飛飛正在建立一家初創公司,並完成了種子輪融資。

在介紹這家初創公司時,一位訊息人士引用了李飛飛在溫哥華 TED 上的一次演講,表示她在此次 TED 演講中介紹了空間智慧的概念。

就在今天,李飛飛在 X 上放出了她在溫哥華 TED 上的完整演講影片。李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界她在 X 上介紹稱,「空間智慧是人工智慧拼圖中的關鍵一環。這是我 2024 年有關從進化到人工智慧歷程的 TED 演講,也涉及到我們如何構建空間智慧。從看到變為洞察,洞察轉變為理解,理解引導為行動。所有這些帶來智慧。」

圖片

李飛飛 TED 演講連結:

https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript

為了進一步解釋「空間智慧」這一概念,她展示了一張貓伸出爪子將玻璃杯推向桌子邊緣的圖片。她表示,在一瞬間,人類大腦可以評估「這個玻璃杯的幾何形狀,它在三維空間中的位置,它與桌子、貓和所有其他東西的關係」,然後預測會發生什麼,並採取行動加以阻止。

圖片

她說:「大自然創造了一個以空間智慧為動力的觀察和行動的良性迴圈。」她還補充說,她所在的史丹佛大學實驗室正在嘗試教計算機「如何在三維世界中行動」,例如,使用大型語言模型讓一個機械臂根據口頭指令執行開門、做三明治等任務。

以下為李飛飛在 2024TED 的演講實錄:

我先給大家展示一下,這是 5.4 億年前的世界,充滿了純粹而無盡的黑暗。這種黑暗並非因為缺乏光源,而是因為缺少觀察的眼睛。儘管陽光穿透了海洋表面,深入到 1000 米之下,來自海底熱液噴口的光線照亮了充滿生命力的海底,但在這些古老水域中,找不到一隻眼睛,沒有視網膜,沒有角膜,沒有晶狀體。因此,所有的光線,所有的生命體都是不可視的。

圖片

曾經有一個時代,「看見」這個概念本身並不存在,直到三葉蟲的出現,它們是第一批能夠感知光線的生物,標誌著一個全新世界的開始。它們首次意識到,除了自己,還有更廣闊的世界存在。

這種視覺能力可能催生了寒武紀大爆發,讓大量動物物種開始在化石記錄中留下痕跡。從被動地感受光線,到主動地用視覺去理解世界,生物的神經系統開始進化,視覺轉化為洞察力,進而引導行動,最終產生了智慧。

如今,我們不再滿足於自然界賦予的視覺智慧,而是渴望創造能像我們一樣,甚至更智慧地「看」的機器。

九年前,我在這個舞臺上介紹了計算機視覺領域的早期進展,這是人工智慧的一個子領域。那時,神經網路演算法、圖形處理器(GPU)和大資料首次結合,共同開啟了現代人工智慧的新紀元。例如我的實驗室花費數年整理的含有 1500 萬張影像的資料集,即 ImageNet 資料集。我們的進步非常迅速,從最初的影像標註到現在,演算法的速度和準確性都有了顯著提升。我們甚至開發了能夠識別影像中的物件並預測它們之間關係的演算法。這些工作是由我的學生和合作者完成的。

圖片

回想上一次我向大家展示了第一個能夠用人類自然語言描述照片的計算機視覺演算法。那是我與我的學生 Andrej Karpathy 共同完成的工作。那時,我碰運氣說,「Andrej,我們能造出反向的計算機嗎?」Andrej 說:「哈哈,這是不可能的。」正如你從這篇帖子中看到的,最近這個不可能已經變成了可能。這都要歸功於一系列擴散模型,這些模型為今天的生成性人工智慧演算法提供了動力,該演算法可以將人類提示的句子轉化為全新的照片和影片。

圖片

許多人已經目睹了由 OpenAI 的 Sora 所創造的令人讚歎的影片作品。然而,即便沒有大量的 GPU 資源,我的學生和我們的合作者還是在 Sora 之前幾個月,成功開發出了一個名為 Walt 的生成式影片模型。

圖片

儘管如此,我們仍在不斷探索和改進。我們注意到生成的影片中仍有一些不完美的地方,比如貓的眼睛以及它穿過波浪而不被淋溼的細節處理。但正如過去的經歷告訴我們的,我們會從這些錯誤中學習,不斷進步,創造一個我們夢想中的未來。在那個未來,我們希望人工智慧能夠為我們做更多的事情,或者幫助我們做得更好。

多年來我一直強調,拍照和真正地「看」並理解是兩回事。今天,我想補充一點。僅僅看見是不夠的。真正的「看」是為了行動和學習。當在三維空間和時間中採取行動時,我們將透過觀察來學習如何做得更好。自然界透過「空間智慧」創造了一個良性迴圈,將視覺和行動聯絡起來。

圖片

為了說明空間智慧是如何工作的,看看這張照片。如果你突然有種衝動想要做點什麼,那說明你的大腦已經在瞬間分析了這個玻璃杯的幾何形狀、它在空間中的位置,以及它與周圍物體的關係。這種想要行動的衝動是所有具有空間智慧的生物的本能,它將感知和行動緊密相連。

圖片

如果我們想讓人工智慧超越現有的能力,我們不僅需要它能看會說,更需要它能行動。在這方面,我們已經取得了令人興奮的進展。最新的空間智慧里程碑是教會計算機看、學習、行動,並且不斷學習如何更好地看和行動,這並不容易,因為自然界花了數百萬年才進化出依賴眼睛接收光線、將二維影像轉化為三維資訊的空間智慧。

直到最近,一組來自谷歌的研究人員才開發出一種演算法,將一組照片轉化為三維空間,就像我們在這裡展示的例子一樣。我的學生和我們的合作者更進一步,建立了一個演算法,它只輸入一張影像,就可以將其轉化為三維形狀。這裡有更多的例子。

圖片

回想一下,我們曾談論過一種計算機程式,可以將人類的語言描述轉化為影片。密歇根大學的一組研究人員找到一種方法,將一句話轉化為三維房間佈局。我和史丹佛的同事以及我們的學生開發了一個演算法,只輸入一張影像,就創造出無限多個可能的空間,供觀眾探索。

圖片

這些都是我們在空間智慧領域取得的令人激動的進展,也預示著我們未來世界的可能性。屆時,人類可以將整個世界轉化為數字形式,這個數字世界能夠模擬出現實世界的豐富性和細微之處。

隨著空間智慧的進步加速,這個良性迴圈的新時代正在我們眼前展開。這種來回的互動正在催化機器人學習,這是任何需要理解和與三維世界互動的具身智慧系統的關鍵組成部分。

十年前,我的實驗室開發的 ImageNet 啟用了一個包含數百萬張高質量照片的資料庫,用以訓練計算機視覺。今天,我們正在收集行為和動作的行為「ImageNet」,來訓練計算機和機器人如何在三維世界中行動。但這次收集的不是靜態影像,而是在建構由三維空間模型驅動的模擬環境。這樣,計算機就可以有無限多的可能性來學習如何行動。

圖片

我們還在機器人語言智慧方面取得了令人興奮的進展。使用基於大型語言模型的輸入,我的學生和合作者們成為了第一批做出了根據口頭指令能夠讓機械臂執行各種任務的團隊,比如它可以開啟某個抽屜或拔掉手機的充電線,或者它可以製作三明治,加了麵包、生菜、番茄,甚至還能為你放上一張餐巾紙。通常我對三明治的要求可能要高於機械臂做的,但這是個不錯的開始。

圖片

在我們的遠古時代,在那片原始海洋中,觀察和感知周圍環境的能力,開啟了寒武紀時期生物物種的大爆發。今天,這道光正在觸及「數字形式的生命」,空間智慧讓機器不僅能彼此互動,還能與人類或者與真實或虛擬形態的三維世界互動,隨著這個未來逐漸成形,它將對許多人的生活產生深遠影響。

讓我們以醫療保健為例,在過去的十年裡,我的實驗室已經邁出了第一步,探索如何應用人工智慧來影響患者治療的效果以及如何應對醫務人員疲勞的挑戰。

我們與史丹佛醫學院以及其他醫院的合作者正在試用智慧感測器。它能夠檢測到臨床醫生在沒有正確洗手的情況下進入病房,並跟蹤手術器械,或者在患者面臨風險時,如跌倒時,提醒護理團隊。這些技術是一種環境智慧,就像多了一雙眼睛,確實能為世界帶來改變。我更希望為我們的患者、臨床醫生和護理人員提供更多互動式的幫助,他們迫切需要額外的一雙手。想象一下,一個自主機器人可以在護理人員專注於病人的時候運送醫療用品,或者在擴增實境中,引導外科醫生進行更安全、更快、更少侵入式的操作。

或者想象一下這種場景,嚴重癱瘓的患者可以用他們的思想控制機器人。沒錯,用腦電波來完成你和我視為理所當然的日常任務。你可以從我的實驗室最近的這項實驗中窺見這種未來的可能性。在這個影片中,機械臂正在烹飪一份日本壽喜鍋,它完全是由大腦電訊號控制的,這些訊號透過 EEG 腦電帽無創收集。

圖片

大約五億年前,視覺的出現顛覆了黑暗的世界,它引發了最深刻的進化過程:動物世界中智力的發展。過去十年間,人工智慧的驚人進展同樣令人驚歎。但我相信,直到我們用空間智慧驅動的計算機和機器人,這場數字寒武紀大爆發的全部潛力才會完全實現,就像大自然曾對人類做過的那樣。

這將是一個激動人心的時刻,我們的數字伴侶將學會推理,並與人類世界這個美麗的三維空間互動,同時也創造更多我們可以探索的新世界。實現這一未來並非易事。它需要深思熟慮,始終以人為本開發技術。但如果我們處理得好,由空間智慧驅動的計算機和機器人不僅會成為有用的工具,還將成為值得信賴的夥伴,提升人類生產力,促進人類和諧共處。同時,我們個人的尊嚴也將更加凸顯,引領著人類社會的共同繁榮。

最讓我對未來感到興奮的是,AI 將變得更加敏銳、更加富有洞察力,並具有空間意識。它們將與人類同行,不斷追求用更好的方式,來創造更美好的世界。

相關文章