人類可能是完全自主的車輛在城市街道上執行的最大障礙之一。如果機器人要引導車輛安全地通過波士頓市中心,它必須能夠預測附近的司機、行人和騎自行車的人接下來會做什麼。

然而,行為預測是一個艱難的問題,目前的人工智慧解決方案要麼過於簡單(他們可能假設行人總是走在一條直線上),要麼過於保守(為了避開行人,機器人只是把車留在停車場),要麼只能預測一個道路使用者的下一步行動(道路通常同時承載許多使用者)。

麻省理工學院(MIT)的研究人員為這個複雜的挑戰設計了一個看似簡單的解決方案。他們將多個道路使用者的行為預測問題分成小塊,並單獨解決每個問題,因此計算機可以實時解決這一複雜的任務。

他們的行為預測框架首先猜測兩個道路使用者之間的關係–哪輛汽車、騎自行車的人或行人擁有通行權,哪個道路使用者會讓路–並利用這些關係來預測多個道路使用者的未來軌跡。

與自動駕駛公司Waymo編制的巨大資料集中的真實交通流相比,這些估計的軌跡比其他機器學習模型的軌跡更準確。麻省理工學院的技術甚至超過了Waymo最近釋出的模型。而且,由於研究人員將問題分解成更簡單的部分,他們的技術使用的記憶體更少。

“這是一個非常直觀的想法,但之前沒有人充分探索過,而且效果相當好。簡單性絕對是一個優點。我們正在將我們的模型與該領域的其他最先進的模型進行比較,包括該領域的領先公司Waymo的模型,我們的模型在這個具有挑戰性的基準上取得了頂級的效能。這在未來有很大的潛力,”研究共同牽頭人黃昕(音譯)說,他是航空和航天系的研究生,也是航空和航天系教授、電腦科學和人工智慧實驗室(CSAIL)成員Brian Williams實驗室的研究助理。

與黃昕和 Williams一起撰寫論文的還有來自中國清華大學的三位研究人員:共同第一作者孫橋、顧俊如和資深作者趙行。該研究將在計算機視覺和模式識別會議上發表。

多個小模型

研究人員的機器學習方法被稱為M2I,它需要兩個輸入:在交通環境(如四通八達的十字路口)中互動的汽車、自行車和行人的過去軌跡,以及一張包含街道位置、車道配置等的地圖。

利用這些資訊,一個關係預測器推斷出兩個道路使用者中哪一個先擁有路權,將一個人歸類為通行者,一個人歸類為讓路者。然後,一個被稱為邊際預測器的預測模型猜測過路者的軌跡,因為這個代理人的行為是獨立的。

第二個預測模型,被稱為條件預測器,然後根據經過的代理人的行為,猜測屈服的代理人會做什麼。該系統預測出讓者和傳遞者的一些不同軌跡,單獨計算每個軌跡的概率,然後選擇發生可能性最大的六個聯合結果。

M2I輸出一個預測,即這些道路使用者在未來8秒內將如何在交通中移動。在一個例子中,他們的方法使一輛車減速,以便行人能夠過馬路,然後在他們清除了交叉路口後加速。在另一個例子中,車輛在從一條小街轉入一條繁忙的主幹道之前,一直等待幾輛車通過。

雖然這項初步研究的重點是兩個道路使用者之間的互動,但M2I可以推斷出許多道路使用者之間的關係,然後通過連線多個邊際和條件預測器來猜測他們的軌跡。

真實世界的駕駛測試

研究人員使用Waymo開放運動資料集訓練模型,該資料集包含數百萬個真實的交通場景,涉及車輛、行人和騎自行車的人,由安裝在該公司自主車輛上的鐳射雷達(光探測和測距)感測器和攝像頭記錄。他們特別關注有多個代理人的情況。

為了確定準確性,他們將每種方法的六個預測樣本(按其置信度加權)與一個場景中的汽車、自行車和行人的實際軌跡進行了比較。他們的方法是最準確的。它在被稱為重疊率的指標上也優於基線模型;如果兩條軌跡重疊,就表明有碰撞。M2I的重疊率最低。

“我們沒有僅僅建立一個更復雜的模型來解決這個問題,而是採取了一種更像人類在推理與他人互動時的思維方式。人類不會對所有數百種未來行為的組合進行推理。我們做出決定的速度相當快,”黃昕說。

M2I的另一個優點是,由於它將問題分解成更小的部分,使用者更容易理解模型的決策。黃昕說,從長遠來看,這可能有助於使用者對自動駕駛汽車給予更多信任。

但是,該框架無法解釋兩個代理人相互影響的情況,例如,當兩輛汽車在一個四向停靠點上各自向前移動,因為司機不確定誰應該讓路。

他們計劃在未來的工作中解決這一限制。他們還想用他們的方法來模擬道路使用者之間的現實互動,這可以用來驗證自動駕駛汽車的規劃演算法,或者建立大量的合成駕駛資料來提高模型效能。

“預測多個相互作用的道路使用者的未來軌跡,對於在複雜場景中實現完全自動駕駛來說,探索不足且極具挑戰性。M2I提供了一個非常有前途的預測方法,它的關係預測器可以區分被預測為邊緣或有條件的代理,這大大簡化了問題。”加利福尼亞大學伯克利分校機械工程系傑出教授Masayoshi Tomizuka和助理專業研究員Wei Zhan在一封電子郵件中寫道。“預測模型可以捕捉到道路使用者的內在關係和相互作用,以達到最先進的效能。”兩人沒有參與這項研究。