導讀
本文是計算機視覺領域國際頂級會議CVPR 2019入選論文《Multi Agent Tensor Fusion for Contextual Trajectory Prediction》的解讀。
該論文由MIT支援的自動駕駛初創公司ISEE Inc,北京大學資訊科學技術學院電腦科學技術系/數字視訊編解碼技術國家工程實驗室教授、前沿計算研究中心副主任王亦洲老師課題組,UCLA,以及MIT CSAIL合作共同完成。王亦洲老師課題組的學生趙天洋為論文第一作者。
該論文主要提出了一種基於深度學習的車輛和行人軌跡預測方法,提出了一個可以保持空間結構資訊的多智慧體張量融合網路,在機動車駕駛和行人軌跡資料集中對模型的效能進行了驗證。
簡介
人類駕駛員不斷地預測其附近的車輛和行人未來的行為,從而避免與其他車輛和行人衝撞,以規劃安全迅捷的行車路線。自動駕駛汽車也必須預測其他人和車的軌跡,以便在未來的社會互動發生之前主動規劃,而不是被動地在意外發生後才作出反應。這樣做可以儘量避免不安全的行為,如急剎車、急並道、急轉彎等。從根本上來說,軌跡預測讓自動駕駛車輛得以推斷他們將遇到的未來可能情況,以評估特定規劃相對於這些情況的風險,從而得以選擇最小化該風險的行車規劃。這為自動駕駛系統增加了一層可解釋性,對於除錯和驗證至關重要。
軌跡預測問題之所以具有挑戰性,是因為智慧體的動作是隨機的,並且取決於他們的目的地、與其他智慧體的社會互動、以及其所在場景的物理約束。預測還必須對不同場景中不斷變動的智慧體數量和型別具有泛化性。基於神經網路的預測演算法往往很難編碼類似的資訊,因為標準的神經網路架構只接受固定的輸入、輸出和引數維度;而對於這類預測任務,這些引數維度會因場景而異。之前的論文或利用面向智慧體(agent-centric)的方法進行軌跡預測,例如 Social LSTM [1],Social GAN [2];或利用面向空間結構(spatial-centric)的編碼方式解決這個問題,例如 Chauffeur Net [3]。 面向智慧體的編碼在多個智慧體的特徵向量上執行聚合函式,而面向空間結構的方法則直接在鳥瞰視角的場景表示圖上進行運算。
而多智慧體張量融合(Multi-Agent Tensor Fusion, MATF)則提出了一種創新的多智慧體張量融合編碼器-解碼器(Encoder-Decoder)網路架構。該架構結合了面向智慧體和麵向空間結構的軌跡預測方法的長處,通過端到端訓練學習表示和推理有關社會互動和場景物理約束的所有相關資訊。圖1展示了MATF的核心張量MAT的構造,該張量在空間上將場景的特徵編碼與場景中每個智慧體的過去軌跡的特徵編碼向量對齊,保持了靜態場景以及多智慧體的空間位置關係。接下來,通過全卷積網路(Fully Convolutional Layers)構造出融合的多智慧體張量編碼(見下一個小節)。這種編碼方式一方面可以像面向空間結構的方法那樣很自然地保持多智慧體張量中的所有智慧體和靜態場景的空間結構以捕捉空間資訊,另一方面也可以像面向智慧體的方法那樣敏感捕捉多智慧體間的微妙社會互動。
MAT編碼是一個鳥瞰視角的靜態場景和動態多智慧體的特徵圖(Feature Map),包括多智慧體編碼通道(Multi-Agent Encoding Channels)(上)和靜態場景編碼通道(Scene Context Encoding Channels)(下)。單智慧體長短時記憶網路(Single Agent LSTM)編碼器輸出的多智慧個體特徵向量(紅色)在空間上根據這些智慧體的座標對齊,構造出多智慧體編碼通道。多智慧體編碼通道與靜態場景編碼通道(場景編碼全卷積網路的輸出特徵圖)對齊,以保持智慧體與場景間的空間結構。
MAT緊接著將融合了社會互動和場景物理制約的MAT編碼結果解碼,以同時預測場景中所有智慧體的未來軌跡。現實世界中人的行為不是確定性的,智慧體可以在同一個場景中做出不同的行為,MATF使用條件生成對抗訓練(Conditional GAN)來捕獲預測軌跡的這種不確定性。
MATF對新提出的模型在駕駛資料集和行人人群資料集上進行了實驗驗證。該論文報告了來自以下資料集的結果:公開的NGSIM駕駛資料集,史丹佛無人機行人資料集(Stanford Drone dataset),ETH-UCY人群資料集,以及最近收集的暫未公開的馬薩諸塞州駕駛資料集。 文章彙報了定量和定性實驗結果,顯示了模型每個部分的貢獻。與領域最先進論文的定量比較表明所提出的方法在高速公路駕駛和行人軌跡預測方面都有著最好的表現。
網路架構
多智慧體張量融合(MATF)的網路架構簡圖如下所示:
該網路的輸入是在過去時間段內的所有智慧體的軌跡,以及鳥瞰視角下的靜態場景影像。每個智慧體的過去軌跡和靜態場景影像分別通過迴圈(Single-Agent LSTM Encoders)和卷積編碼流獨立編碼。編碼後的多智慧體向量和靜態場景特徵圖在空間上對齊以構造出多智慧體張量。例如,圖中3-D黑框(下方)顯示的是橙色智慧體周圍的多智慧體張量切片。
接下來,結構類似U-Net的全卷積網路(Convolutional Operator: Multi-Agent Tensor Fusion)作用在構造出的多智慧體張量上,用以推斷社會互動和空間物理約束,同時始終保持空間結構和空間區域性性特徵,該全卷積網路最終輸出融合的多智慧體張量(上方)。每個融合的智慧體向量從該張量切片得出,包含了推理加工過的相應智慧體的社會互動資訊、自身歷史軌跡資訊、以及其周圍的場景物理約束資訊。值得指出的是,因為MATF架構執行共享卷積運算,所以在同一次正向傳播中可以計算得出的所有智慧體的相應融合向量。例如,實心藍框(上方)所表示的智慧體融合向量融合了來自卷積層感受野內的該智慧體附近的所有智慧體和場景特徵的綜合推斷資訊。
MATF在此之後將這些融合的特徵向量作為殘差(Residual)加到相應智慧體的原始編碼向量上,以獲得最終智慧體編碼向量。這些向量最終將被迴圈神經網路解碼器(Single-Agent LSTM Decoders)獨立地解碼為網路對這些智慧體的未來的軌跡的預測結果。MATF整個架構是完全可微的,並且支援端到端的訓練。
駕駛資料集實驗結果樣例
馬薩諸塞州駕駛資料集的定性實驗結果樣例如上所示。每輛車的過去軌跡以不同的顏色顯示,其後連線的是網路對這些車未來軌跡的預測的取樣。正確結果(Ground Truth)的軌跡以黑色顯示,車道中心以灰色顯示。
(a)一個涉及五輛車的複雜情景;MATF準確地預測了所有車的軌跡和速度分佈;
(b)MATF正確地預測了紅色車輛將完成換道;
(c)MATF捕捉到紅色車輛是否將駛入高速公路出口的不確定性。
(d)當紫色車輛通過高速公路出口後,MATF預測它將不會退出。
(e)在這裡,MATF無法預測精確的真實未來軌跡;然而,一小部分取樣軌跡成功預測到了紅色車輛將持續變道。
行人資料集實驗結果樣例
史丹佛無人機資料集的定性實驗結果樣例如上所示。從左到右分別是MATF多智慧體-場景推斷模型,MATF多智慧體-無場景推斷模型,和LSTM基準模型的預測結果,所有用來預測的模型都是確定性模型。藍線顯示的是過去的軌跡,紅色是真實的未來軌跡,綠色的是三個模型分別預測的未來軌跡。MATF可以通過一個正向傳播同時預測該圖所示的所有的智慧體的未來的軌跡。綠色的預測軌跡越接近紅色的真實未來軌跡,預測就越準確。MATF多智慧體-場景推斷模型成功預測了:
(1)兩個人或自行車從頂部進入環形交叉口,並將向左駛出;
(2)環形交叉路口左上方路徑的一位行人正在轉彎向左移動到影像的頂部;
(3)一個人在環形交叉路口的右上方建築物門口減速;
(4)在一個有趣的失敗案例中,環形交叉路口右上方的人向右轉,向影像頂部移動;該模型成功預測了此次轉彎,但失敗在無法預測轉彎的急緩程度。
MATF多智慧體-場景推斷模型正確預測了這些和其他各種場景的軌跡情形,其中一些情形也被MATF多智慧體-無場景推斷模型近似地預測了出來,但大多數情形都沒有被基準的LSTM模型預測出來。
參考文獻:
[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei Fei, and S. Savarese. Social lstm: Human trajectory prediction in crowded spaces. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2016.
[2] A. Gupta, J. Johnson, L. Fei Fei, S. Savarese, and A. Alahi. Social gan: Socially acceptable trajectories with generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2018.
[3] M. Bansal, A. Krizhevsky, and A. S. Ogale. Chauffeurnet: Learning to drive by imitating the best and synthesizing the worst. CoRR, abs/1812.03079, 2018.