說到史丹佛大學教授李飛飛(Fei-Fei Li),她提倡的「空間智慧」最近正在引領 AI 發展方向。李飛飛已經在人工智慧歷史上贏得了一席之地,她多年來一直致力於建立 ImageNet 資料集和競賽,在深度學習革命中發揮了重要作用。 2012 年,一個名為 AlexNet 的神經網路引爆了 AI 研究界,它的表現遠遠超過所有其他型別的模型,並贏得了當年的 ImageNet 競賽。自那時起,神經網路開始騰飛,其動力來自網際網路上可用的大量免費訓練資料和提供空前計算能力的 GPU。 自 ImageNet 以來的 13 年裡,計算機視覺研究者們掌握了物體識別,並轉向影像和影片生成。李飛飛與他人共同創辦了史丹佛大學以人為本人工智慧研究所 (HAI),並繼續突破計算機視覺的界限。 就在今年,她創辦了一家初創公司 World Labs,旨在生成使用者可以探索的 3D 場景。World Labs 致力於為人工智慧提供「空間智慧」,即生成、推理和與三維世界互動的能力。 李飛飛昨天在人工智慧頂會 NeurIPS 上發表了主題演講,講述了她對機器視覺的願景。她表示,非常榮幸第一次在 NeurIPS 上演講,50 分鐘講 180 頁 PPT 是個很有趣的經歷。在演講之前,李飛飛接受了 IEEE Spectrum 的獨家採訪,讓我們看看她對空間智慧有哪些新的見解: Eliza Strickland:你為什麼把你的演講命名為「提升視覺智慧的階梯(Ascending the Ladder of Visual Intelligence)?」 李飛飛:智慧具有不同層次的複雜性和精細度。在這次演講中我想傳達的是,在過去幾十年,尤其是深度學習發生變革的十多年裡,我們在視覺智慧方面學會做的事情簡直令人歎為觀止。我們正在變得越來越擅長使用這項技術。同時,我也受到了 Judea Pearl 因果階梯理論的啟發,這一理論出自他 2020 年出版的書《The Book of Why》。 演講還有一個副標題,即「從看到做到(From Seeing to Doing)」。這是人們沒有足夠重視的一點:從看到與互動和做事緊密相關,無論是對於動物還是對於 AI 智慧體來說都是如此。這與語言背道而馳。語言從根本上來說是一種用來傳達思想的交流工具。在我看來,它們是非常互補但同樣深刻的智慧模式。 Eliza Strickland:你的意思是我們對某些視覺刺激有本能的反應嗎? 李飛飛:我不僅僅是在談論本能。如果你觀察感知的演變和動物智慧的演變,你會發現它們是深深交織在一起的。每當我們能夠從環境中獲取更多資訊時,進化的力量就會推動事物能力和智慧向前發展。如果你不能感知環境,你與世界的關係就非常被動;無論你是捕食者還是被捕食者,都是一個非常被動的行為。 但是一旦你能夠透過感知從環境中獲取線索,進化的壓迫感就會增加,這推動了智慧的發展。 Eliza Strickland:你認為這就是我們創造越來越深層次的機器智慧的方式嗎?透過讓機器更多地感知環境? 李飛飛:我不確定「深度」這個詞是不是我該用的形容詞。我認為我們正在創造更多的能力。我認為它將變得更加複雜,更有能力。解決空間智慧問題確實是朝著全面智慧(full-scale intelligence)邁出的一個基本且關鍵的步驟,這是絕對正確的。 Eliza Strickland:我看到過 World Labs 的演示。你為什麼想研究空間智慧並構建這些 3D 世界。 李飛飛:我認為空間智慧是視覺智慧的發展方向。如果我們真的想要解決視覺問題,並且將其與行動聯絡起來,有一個非常簡單、顯而易見的事實:世界是三維的。我們不是生活在一個平面世界中。我們的物理智慧體,無論是機器人還是裝置,都將生活在三維世界中。即使是虛擬世界也越來越變得三維化。 如果你和藝術家、遊戲開發者、設計師、建築師、醫生交談,即使他們在虛擬世界中工作,很多內容也是三維的。如果你花一點時間認識到這個簡單但深刻的事實,毫無疑問,解決 3D 智慧的問題是根本性的。
Eliza Strickland:我很好奇 World Labs 中的場景是如何保持物體永久性並遵守物理定律的。這感覺像是一個令人興奮的進步,因為像 Sora 這樣的影片生成工具仍然在處理這些事情。 李飛飛:一旦你遵循世界的 3D 特性,很多事情就會變得自然而然。例如,在我們釋出的一段影片中,有一個關於籃球的影片。由於場景是 3D 的,籃球會根據重力或其他物理規則正確落地並與環境互動。如果場景只是由 2D 畫素生成的,籃球不會有任何物理反應,無法表現出落地或運動的效果。 Eliza Strickland:就像 Sora,球可能會去某個地方,然後消失。在推動這項技術發展的過程中,你面臨的最大技術挑戰是什麼? 李飛飛:沒有人解決了這個問題,對吧?這非常非常困難。在一個 demo 中,我們取了一幅梵高的畫作,並圍繞它生成了整個場景,風格一致:藝術風格、光線,甚至是那個街區會有什麼樣的建築。如果你轉過身來看到的是摩天大樓,那將完全不可信,對吧?而且它必須是三維的。你必須能夠進入其中。所以它不僅僅是畫素。 Eliza Strickland:你能說說你用來訓練它的資料嗎? 李飛飛:非常多。 Eliza Strickland:在算力方面是否存在很多挑戰? 李飛飛:這需要大量的算力。是公共部門無法承擔的那種計算能力。這也是我需要透過休學術假,以私營部門的方式來做這件事的部分原因。同時,這也是我一直倡導公共部門獲得計算資源訪問權的部分原因,我自己的經歷強調了在足夠資源支援下進行創新的重要性。 Eliza Strickland:賦予公共部門權力是一件好事,因為公共部門通常更願意透過獲取知識,為人類謀福利。 李飛飛:知識發現需要資源支援,對吧?在伽利略時代,最好的望遠鏡是讓天文學家觀察新天體的望遠鏡。Hooke 意識到放大鏡可以變成顯微鏡,並發現了細胞。 每當有新的技術工具出現時,它都會幫助人們尋求知識。現在,在人工智慧時代,技術工具涉及計算和資料。對於公共部門,我們必須認識到這一點。 Eliza Strickland:你希望聯邦政府提供哪些資源? 李飛飛:過去五年來,史丹佛大學 HAI 一直在做這項工作。我們一直在與國會、參議院、白宮、行業和其他大學合作,建立國家人工智慧研究資源中心 (NAIRR)。 Eliza Strickland:假設我們能讓人工智慧系統真正理解 3D 世界,這會給我們帶來什麼? 李飛飛:它將為人們釋放大量創造力和生產力。我希望以更高效的方式設計我的房子。我知道許多醫療用途都涉及理解一個非常特殊的 3D 世界,即人體。我們總是談論未來人類將創造機器人來幫助我們,但機器人在 3D 世界中導航,它們需要空間智慧作為大腦的一部分。 我們還談論虛擬世界,它將允許人們參觀很多地方、學習概念或娛樂。這些都要使用 3D 技術,尤其是混合現實技術,我們稱之為 AR [擴增實境]。我很想戴著一副眼鏡穿過國家公園,它能讓我瞭解樹木、道路、雲朵的資訊。我也想借助空間智慧學習不同的技能。 Eliza Strickland:會是什麼樣的技能? 李飛飛:我舉個蹩腳的例子,如果我在高速公路上爆胎了,我該怎麼辦?現在,我開啟一個「如何換輪胎」的影片。但如果我能戴上眼鏡,看看我的車發生了什麼,然後得到指導,那就太酷了。但這是一個蹩腳的例子。你可以考慮烹飪,你可以考慮雕刻 —— 有趣的事情。 Eliza Strickland:你認為(這個方向)在我們這一代能走多遠? 李飛飛:我認為這會是我們有生之年的事,因為技術進步的速度非常快。你已經看到了過去 10 年帶來的變化。這肯定預示著接下來會發生什麼。 參考內容:https://spectrum.ieee.org/fei-fei-li-world-labshttps://x.com/drfeifei/status/1867286498086990325