我們人類擁有一項強大的能力,那就是預測周圍物體的運動。例如,我們之所以喜歡魯布·戈德堡機械,正是因為我們能觀賞一系列的物體運動,包括下落、滾動、滑動和相撞,並預測下一步會發生什麼。我們把這種預測物體運動的能力當做理所當然的事情。 那麼,我們究竟是如何做到這一點的呢?我們為何能如此有效地吸收周圍環境中的資訊,並實時做出反應呢?電腦科學家是否能從這個問題中窺見一些原理,並教給機器呢?
最近,MIT電腦科學與人工智慧實驗室(CSAIL)的科學家們就給出了自己的答案——他們開發了一個計算機模型,能夠精確地預測物體的運動,其精準度與人類不相上下。 這個系統用真實世界的視訊來進行訓練,並使用一個「三維物理引擎」來模擬人類直覺。該系統名為「伽利略」(Galileo)。它能夠推斷出物體的物理性質,並預測一系列物理事件的結果。儘管這篇論文主要關注在相對簡單的實驗(包括斜坡和相撞),但他們說這個系統能夠對自己的發現進行概括,並不斷地自我改進,這意味著它能夠預測更廣泛的行為。 博士後研究員Ilker Yildirim和博士生Jiajun Wu領導了該項研究。Yildirim說,在斜坡的情境中,伽利略能推斷出物體的密度,並預測它們是否能夠漂浮。這是讓計們,為算機深入理解動態情境的第一步。 這篇論文上個月發表在神經資訊處理系統會議(NIPS)上。共同作者還包括腦與認知科學系的博士後Joseph Lim、William Freeman教授、Joshua Tenenbaum教授。
他們是如何做到的?
最近的神經科學研究告訴我了理解場景和預測其中的事件,我們的大腦依賴於腦中的「物理引擎」,該引擎由詳細但模糊的物理規律知識所組成,這些知識支配著更廣闊的世界中的物體運動。 研究者用人類的框架來改進他們的模型。首先,他們用150段描繪物理事件的視訊來訓練伽利略,這些事件包括了15種不同的材料,從硬紙片到金屬和橡膠。這個訓練過程允許這個模型產生出一個關於物體及其物理性質的資料集,這些物理性質包括形狀、體積、質量、摩擦力和在空間中的位置。
接下來,這個團隊為該系統輸入了來自Bullet的模型資訊,Bullet是一個三維物理引擎,通常用在電影和遊戲中創造特效。Bullet可以通過輸入一個給定場景的構造,然後在物理上模擬它,以此來檢驗伽利略的假設。
最終,這個團隊開發出一個深度學習演算法,允許該模型教自己改進預測,最終達到一個程度:只要伽利略看到一段視訊的第一幀,就能識別出場景中的物體,並推測出它的物理性質,然後確定物體之間會發生什麼相互作用。
卡耐基梅隆大學的電腦科學助理教授Abhinav Gupta說:「人類學習物理性質的方式是與物理世界互動,但是這對計算機來說很困難,因為缺乏訓練資料。這篇論文通過深度學習卷積神經網路與傳統AI(如模擬引擎)相結合,以一種優美的方式解決了這個問題。」
人類 vs. 機器
為了評估伽利略的能力,這個團隊讓它與人類被試的表現進行了比較。 在其中一個實驗中,使用者先觀看一組物體的相撞過程,然後觀看一段視訊,該視訊會停在相撞的那一瞬間。接著,讓使用者標出他們認為物體最遠會到達的地方。 Yildirim 說:「這個場景似乎很簡單,但是存在許多不同的物理力,從物體的相對質量、彈性、重力到表面與物體之間的摩擦力,這讓計算機模型進行預測變得很困難。人類利用直覺進行判斷,從本質上說我們必須把這些性質以及它們互相影響的方式教給系統。」 在另一個模擬實驗中,使用者首先觀看了一段斜面為20度的撞擊視訊,然後觀看斜面為10度的視訊的第一幀,接著預測這個物體是否會沿著斜面滑下來。 Yildirim說:「有趣的是,計算機模型和人類被試的表現都很隨機,並且都傾向於預測這個物體會移動。這表明,不僅人類和計算機會犯類似的錯誤,還提供了更多證據證明人類對場景的理解在概率模擬中能被更好地描述。」
接下來會怎樣?
該團隊的成員說,他們計劃擴充套件該研究到更復雜的場景中,包括流體、彈簧等材料。他們說,該研究繼續下去,將有助於為機器人學和人工智慧帶來直接的應用。 Lim說:「想象一下,在未來,一臺機器人或許能夠迅速適應極端物理事件,例如龍捲風或地震。我們的最終目標是建造一臺靈活的模型,在極端不確定的環境中輔助人們的工作。」
來自csail.mit,作者 Adam Conner-Simons,機器之心編譯出品。編譯:汪汪。