自動駕駛行業已持續了多年的火熱,但與之形成鮮明對比的是,業內對於實現相對複雜場景下的全自動駕駛的預期時間節點卻一再延後,甚至略顯悲觀。其中一個很重要的原因,就是對於高度動態和互動性的場景下的行為和軌跡預測問題始終沒有得到很好的解決,失去這一前提,再完美的決策、規劃、控制在實際應用中都不可能是安全和高效的。
實際上,從業者很早就指出行為預測是實現全自動駕駛最具挑戰性的問題之一,比如曾經領導Google無人車專案多年的Chris Urmson,在三年前的演講中說到Google無人車專案的最大障礙就是怎樣理解並預測周圍道路參與者的行為(https://youtu.be/O2bXF7XJ5P0?t=2343)。筆者也經常從一些學界大佬口中聽到類似的論斷。
在一些相對成熟的自動駕駛細分領域,到底該解決什麼具體問題,以及怎樣評價方法的優劣都相對清晰,研究者可以更多地關注演算法和框架的改進和創新,但預測領域卻並非如此。除了在預測方法上研究者們仍在深入探索,其他問題諸如解決什麼樣的問題是有實際價值的,該怎樣去簡化對於運動的表達以便於獲取其概率分佈,什麼表達適合作為真值,怎樣去評價方法的效能,都是懸而未決卻經常被忽略的問題。忽略這些根本性的問題可能導致緣木求魚,浪費大量的研究努力。
本文將通過簡要介紹筆者所在研究團隊2018年在智慧車、智慧交通和機器人領域頂會所發表的一些預測與行為建模領域相關論文的內容,來闡述預測領域面臨的問題以及研究團隊的一些初步探索,力求簡潔通俗,希望能對讀者有所啟發。本文的結構大體遵循了文章[1]的各個章節,討論了預測領域想解決什麼問題,怎樣表達並簡化運動,用什麼方法解決問題和怎樣評價預測結果,以之為視角拆解了文章[2-8]中的部分內容,並進行簡要總結,詳情請參考對應的論文。
如果有讀者有興趣在智慧車領域頂會上與學者們深入探討這一領域的問題和解決方案,或者有興趣參與到我們研究團隊的相關工作中,請關注文末的IEEE IV 2019 Workshop投稿和UC Berkeley MSC Lab研究團隊的招生資訊。
解決什麼問題
交通場景中,各個實體(車輛、自行車、行人等)的行為充滿了不確定性,所以對於這些行為的預測也應是概率的而非確定性的。本文隨後提到的預測問題所指皆為概率預測問題,也就是說我們想得到實體未來行為的概率分佈。文章[1]中指出了影響到預測領域problem formulation的四個重要的區分點,分別是視角,互動性,實體數量和運動表達。文章[2]中進一步給出了最具互動性的回應預測(reaction prediction)和多實體預測之間的條件概率的轉換關係,進而將兩種在高度動態和複雜互動場景中最具實用性的預測問題進行了統一,使其評估成為可能。
視角可將預測問題區分為全域性鳥瞰,本車區域性和遮擋盲區的預測。目前在車輛預測領域最常用的資料集NGSIM dataset就屬於全域性鳥瞰視角下的預測,但基於這一資料集的研究也會不可避免的忽略掉本車感測器遮擋所產生的影響。如圖1所示,由於觀測資訊的缺失,本車(灰色)對可能出現在盲區的車輛(綠色)進行可靠的預測與跟蹤非常困難,但是我們經常可以獲得對於盲區車輛行為產生影響的其他車輛運動的可靠觀測(如綠車的前車等),這些資訊會幫助我們提升對於盲區車輛的跟蹤和預測效能,文章[3]嘗試利用從資料中學到的跟車和變道行為模型,基於盲區車輛周邊車輛的運動,來提供對於盲區車輛運動更準確的推斷,顯著提升預測與跟蹤效能。
圖1. 被遮擋車輛的跟蹤與預測 [3]
互動性可以說是預測領域最為重要的一個區分點,可將預測問題分為獨立(independent)、依賴(interdependent)和回應(reactive)預測。獨立預測只基於被預測實體的歷史運動給出未來可能的行為,由於問題不具有挑戰性和實用性,目前較少為人關注。依賴預測基於預測實體及其周圍實體的歷史運動給出未來可能的行為,也是最近幾年絕大多數研究者關注和研究的問題。然而當我們探討高度動態和複雜互動場景中的預測問題時,依賴預測是顯然無法滿足要求的。圖2中是從NGSIM dataset裡面抽取的一個高速公路上匝道的場景,紅車與藍車進行了將近30秒的路權爭奪,整個過程中如將紅車視為本車,單純基於紅藍黑三輛車的歷史運動去預測藍車的未來行為是沒有意義的,因為在每個時間點來看,藍車未來的行為都會受到其認定的紅車的未來行為的影響,相應的,紅車更關心的也是一個“what if”的問題:如果我加速搶路權,藍車讓我還是撞到我的概率分別會有多大。這就是為什麼在複雜互動場景中,我們真正需要的是回應預測,就是基於預測實體及其周圍實體的歷史運動,以及本車的未來運動來給出被預測實體未來可能的回應行為。文章[4]正是針對回應預測問題給出了一種層級式逆強化學習的解決方案。
圖2. NGSIM dataset中典型的複雜互動場景 [2]
實體數量可將預測問題區分為單實體和多實體預測。目前多數研究者關注的是單實體預測問題,即預測結果只對應於一個被預測物件,然而在複雜互動場景中,我們常常關心多個實體未來行為的聯合概率分佈。而且特定型別的預測方法(如基於神經網路的演算法)很難解決互動場景下的回應預測問題,反倒很適合解決多實體預測問題,這樣我們就可以藉助多實體預測問題和回應預測問題之間的聯絡,將回應預測問題轉變為包含著本車的多實體預測問題加以解決。文章[5]和[6]就是將本車納入多實體預測問題,進而獲得互動場景下本車與被預測車輛未來行為的聯合概率分佈,用以刻畫其互動行為。
運動表達及其簡化方式對於預測演算法的輸入輸出的形式都有著根本的影響,由於內容較為複雜,我們在下一個單獨的章節中予以闡述。
怎樣表達運動並簡化
我們一般用帶有空間和時間資訊的軌跡來描述實體的運動,一段時間內實體的運動軌跡被定義在極其高維的空間上,因而在複雜互動場景中,想要描述各個實體的軌跡的概率分佈是很困難的,所以研究者經常試圖將運動的表示進行簡化,以便獲取其概率分佈。
連續運動可包含實體的位置,速度,加速度和方向等資訊,儘管描述實體一段時間的軌跡的概率分佈極為困難,仍然有兩種方式能幫我們實現這一描述。第一種方式是時間軸上的簡化,即每次只考慮一個時間步的連續運動的概率分佈,例如在文章[3]和[5-7]中通過一個一個時間步的演進來獲取整個軌跡的概率分佈,即便如此,我們仍然希望儘量降低單個時間步的狀態空間維數。另一種方式是通過一些強假設給出一串軌跡及其概率分佈之間的對應關係,如[4]中的帶噪理性人(noisily rational)假設,就可以通過代價函式的學習幫助我們獲取一整段時間軌跡的概率分佈。
運動模式(motion pattern)是研究者為了簡化運動的描述而定義的一些離散量,大體上可分為路線(route)、路權(pass-yield)和細微(subtle)模式這三個層級。實體的預定路線一般不受周圍實體和環境的影響,定義也比較清晰,路線預測問題一般也可以轉化為分類問題來解決和評價。路權模式體現出有路權衝突的實體間的先後關係,結果很大程度上受到動態互動過程的影響。細微模式一般定義不明確,但有助於分析互動過程。在很多高度動態的場景中,實際問題可能更為複雜,我們經常要同時預測不同層級的運動模式以及連續運動,而且我們關心的經常是一些帶有語義資訊的離散或連續的量,比如被預測車輛到底要塞進哪個空(如圖3所示),變道還有多少時間完成,以及變道完成的時候該車輛在當前空的位置等等,文章[5]中便給出了一個解決對於帶有語義資訊的量進行概率預測的統一框架和方法。
圖3. 帶有語義資訊的預測 [5]
運動模式和意圖的區別是一個經常被研究者忽略的問題,但這個問題在定義預測問題的真值和資料標籤的形式的時候是極其重要的。我們可以回看一下前面那個從NGSIM dataset抽取的兩輛車爭搶上匝道路權的那個過程,如果我們只從路權模式和紅車的所謂“意圖”方面來考慮,很容易就會給整個互動過程打上一個“紅車先走”的標籤和真值,但這明顯是不能準確反映整個互動過程的。在整個互動過程的大部分時間裡,兩個司機頭腦中的“意圖”很可能都是“我想先走”,所以有20秒左右的時間兩車都是寸步不讓,給這20秒的時間打上“紅車先走”的標籤是明顯不符合事實的,而且事實上我們永遠都不知道這兩個司機頭腦中每時每刻的真實“意圖”,這個資訊是不能拿來當做真值的。所以在這樣的複雜互動場景中,只有運動軌跡或者基於運動軌跡得到的細微運動模式才能被拿來當成每一時刻的真值。
離散化時空運動表達包括典型軌跡(prototype trajectory)、可達集(reachable set)和柵格(occupancy grid)等,可以將連續運動進行離散化表達,繼而方便概率分佈的獲取。其中典型軌跡和可達集能夠幫助我們獲取特定運動模式的離散時空表達,文章[2]中對於定義好的運動模式,採用了典型軌跡來表示時空運動,並通過歸一化獲取典型軌跡在各種方法得到的概率分佈中的概率。
用什麼方法解決問題
前面兩個章節主要是為了加深我們對問題本身的理解,下面要講到我們可以用什麼方法來解決這些問題。預測領域的演算法和模型大體上可以分為三類,即神經網路模型、概率圖模型和基於規劃的預測模型。幫助我們解決問題的知識和資訊主要有兩個來源,一個是人類對於駕駛行為、地圖資訊、交通規則、車輛動力學等先驗知識,一個是採集到的真實交通場景中的運動資料。大體上來說,以上三類模型的設計對於先驗知識的需求依次上升,而對於資料的要求則依次降低。下面將就研究團的近期文章中提出和運用的方法分類加以介紹。
神經網路模型是一種端到端的,多數情況下是黑箱的模型,即研究者在設計網路結構的時候,更多考慮的是模型本身的特性,而非先驗知識。很多研究者在預測問題上應用神經網路的時候都是將其作為一種確定性的模型,近年來一些研究開始將概率模型納入其中。如圖4所示,文章[5]採用的做法就是將引數化概率分佈中的引數作為全連線網路的輸出,進而獲取其概率分佈,提出了一種對於帶有語義資訊的離散和連續值進行概率預測的統一框架和方法(可參考“基於語義意圖的車輛行為預測”)。在文章[5]的基礎上,文章[7]又引入了條件變分自編碼器(conditional variational auto-encoder),通過讓隱空間(latent space)的分佈趨近於高斯分佈,使得我們在隱空間分佈中的取樣可被轉化為對於輸出軌跡的取樣,進而獲取其概率分佈(如圖5所示)。
圖4. 全連線神經網路的概率分佈輸出實現 [5]
圖5. 條件變分自編碼器的概率分佈輸出實現 [7]
概率圖模型一般被作為概率在時間上演進或者各種事件和行為因果關係推導的框架,經常會與高斯混合模型或其他機器學習或行為模型一起使用。如圖6所示,文章[3]將從資料中學到的行為模型融入混合粒子濾波框架中,提出了一種可自適應跟蹤目標數量,無需觀測與實體軌跡之間的顯式資料關聯(data association)的統一的跟蹤框架。文章[6]則提出了一種基於雙層隱馬爾科夫模型和高斯混合模型相結合的層級模型來處理對於運動模式和連續軌跡的預測(如圖7所示)。
圖6. 遮擋車輛跟蹤的粒子濾波框架 [3]
圖7. 雙層的隱馬爾科夫模型 [6]
基於規劃的預測模型一般從資料中學習特定的規劃方法(如基於最優控制/數值優化的方法)中的某些重要引數,這些引數在一般的規劃演算法中通常是人為設定的。最典型的基於規劃的預測模型便是逆強化學習(逆最優控制),主要是從資料中學習代價函式中的關鍵引數,進而通過帶噪的理性人假設,把一段時間軌跡的代價數值轉化為其概率分佈。文章[4]提出了一種層級的逆強化學習方法來解決回應預測問題中的軌跡概率分佈估計,切實地回答瞭如果本車做出某種行為,其他實體可能會怎樣回應這一難題。逆強化學習的應用也不僅限於此,文章[8]量化了“禮貌”這一駕駛行為中的社會性因素,並將其嵌入規劃的代價函式中,通過逆強化學習從資料中獲取對應於“禮貌”相關項的引數,使得自動駕駛車學到禮貌的行為,同樣的方法也可用於對於有人車輛社會化行為的建模中(可參考“無人車,請禮貌駕駛”)。
怎樣評價預測效果
最後我們要講到的是怎樣評價預測的效果。預測領域典型的評價方式一般是從資料擬合(data approximation)的準確性的角度來考慮,常用的度量(metric)有均方誤差、似然率(likelihood)和KL散度。這種評價方式相對直觀,操作簡便,一定程度上或單純從資料角度來說也反映了預測的效果。但是做預測的根本目的並不是擬合資料集,而是服務於後續的決策規劃模組,所以在評價預測演算法的時候,是有必要充分考慮不準確的預測被決策規劃模組採納後所產生的負面影響,這也是文章[2]想討論的核心內容。
資料擬合的度量本身也存在著一些問題。均方誤差不能準確反映多模態(multi-modal)分佈擬合的準確性是大家公認的問題,而且對於軌跡很小的擾動在均方誤差上幾乎無法體現出變化,卻有可能使得軌跡從無碰撞變為有碰撞,或者從符合車輛動力學變得不符合,事實上天差地別。似然率能反映真值軌跡處的概率準確程度有多好,卻無法反應非真值處的預測會有多差。KL散度需要有軌跡的概率分佈的真值,而這一資訊在實際資料中是很難拿到的。文章[2]把概率分佈的評價從軌跡空間轉移到運動模式的概率空間上,使用Brier Score這一概率預測領域常用的度量來避免前述的這些問題。
考慮後果的度量(fatality-aware metric)是文章[2]提出的一種考慮了不準確的預測被決策規劃模組採納後所產生的負面後果的度量方式。基本想法就是,如果預測演算法給出了明顯比其他實體真值軌跡更危險更激進的軌跡,那意味著決策規劃模組的輸出會因此更保守以避免實際上不會發生的碰撞,所以預測結果越是比真實情況危險和激進,意味著從後果角度來說其保守性越高;類似地,如果預測演算法給出了明顯比其他實體真值軌跡更禮讓的軌跡,那意味著決策規劃模組的輸出會因忽略掉本來存在的危險而更激進,沒有采取本應是防禦性的駕駛策略,所以預測結果越是比真實情況更禮讓,意味著從後果角度來說其非防禦性越高。文章[2]通過定義後果上的保守性和非防禦性,以及保留真值處的擬合準確性,定義了考慮後果的度量。
文章[2]將三類主要的預測方法(神經網路、概率圖、基於規劃的預測)納入到統一的評估框架中,通過實現混合密度網路(mixture density network),隱馬爾科夫模型和逆強化學習(逆最優控制),並將其結果統一為回應預測的條件概率,從資料擬合度量和考慮後果的度量兩個角度來評價幾種典型的概率預測方法。結果表明,三種方法在真值處的總體概率依次降低,即資料擬合能力依次降低,對於這個結果我們並不意外,因為神經網路有更多的可學習引數和更強的資料表達能力,逆最優控制中的可學習引數最少,而且神經網路和隱馬爾科夫模型的訓練的度量就是真值處的似然率。然而如果考慮了採納預測的後果,逆最優控制反倒有最好的表現,很可能的原因是逆最優控制其規劃器(planner)結構本身就帶有很強的先驗知識,不容易對訓練資料出現過擬合,輸出的概率分佈雖然在真值處並沒有很高,卻不容易輸出明顯不符合實際情況的,可能導致本車極為保守或非防禦的預測結果,使其在實際使用中反而可能有更好的表現。
IV 2019 Workshop徵稿
有鑑於預測領域的這些根本問題和對於高效能演算法的迫切需求,預測與決策的密切關係,以及預測和決策在面對社會化互動問題時面臨的困難,我們在智慧車領域的頂會IEEE IV 2019上組織了workshop “Prediction and Decision Making for Socially Interactive Autonomous Driving” (https://sites.google.com/berkeley.edu/iv19-interaction/),歡迎各位業內同仁踴躍投稿和參與,希望我們能共同推進這一領域的發展。
訪問學生招收
各位同學如果有興趣參與我們研究團隊的相關的工作,請參考下面的訪問學生的招生資訊,歡迎大家報名,傳送郵件至 wzhan@berkeley.edu
UC Berkeley MSC Lab 自動駕駛方向招收訪問學生
參考文獻
[1] W. Zhan, A. de La Fortelle, Y.-T. Chen, C.-Y. Chan, and M. Tomizuka, “Probabilistic Prediction from Planning Perspective: Problem Formulation, Representation Simplification and Evaluation Metric”, IEEE IV 2018. (https://ieeexplore.ieee.org/abstract/document/8500697)
[2] W. Zhan, L. Sun, Y. Hu, J. Li, and M. Tomizuka, “Towards a Fatality-Aware Benchmark of Probabilistic Reaction Prediction in Highly Interactive Driving Scenarios”, IEEE ITSC 2018. (https://arxiv.org/abs/1809.03478)
[3] J. Li, W. Zhan, and M. Tomizuka, “Generic Vehicle Tracking Framework Capable of Handling Occlusions Based on Modified Mixture Particle Filter”, IEEE IV 2018. (https://arxiv.org/abs/1809.10237)
[4] L. Sun, W. Zhan, and M. Tomizuka, “Probabilistic Prediction of Interactive Driving Behavior via Hierarchical Inverse Reinforcement Learning’’, IEEE ITSC 2018. (https://arxiv.org/abs/1809.02926)
[5] Y. Hu, W. Zhan, and M. Tomizuka, “A Framework for Probabilistic Generic Traffic Scene Prediction”, IEEE ITSC 2018. (https://arxiv.org/abs/1810.12506)
[6] J. Li, H. Ma, W. Zhan and M. Tomizuka, “Generic Probabilistic Interactive Situation Recognition and Prediction: From Virtual to Real”, IEEE ITSC 2018. (https://arxiv.org/abs/1809.02927)
[7] Y. Hu, W. Zhan, and M. Tomizuka, “Probabilistic Prediction of Vehicle Semantic Intention and Motion”, IEEE IV 2018 (Best Student Paper Award). (https://arxiv.org/abs/1804.03629)
[8] L. Sun, W. Zhan, M. Tomizuka, and A. Dragan, “Courteous Autonomous Cars”, IEEE/RSJ IROS 2018. (https://arxiv.org/abs/1808.02633)
致謝
感謝孫立婷、李家琛、胡冶萍的學術貢獻和對文章的核對修改。