自動駕駛中的障礙物行為預測

美團無人配送發表於2019-05-14

自動駕駛中的障礙物行為預測

作者簡介:Yann,2017年加入美團無人配送部,目前在PNC組負責障礙物預測工作。

1. 簡介

自動駕駛應用中,相比於耳熟能詳的感知規劃控制,人們對障礙物行為預測稍顯陌生。事實上障礙物的行為預測對於整個無人車安全、平穩地行駛有著至關重要的支撐作用。

感知層面,通過藉助鐳射雷達、攝像頭、毫米波雷達等感測器裝置以及複雜的處理演算法,無人車往往能夠較準確地感知周圍環境;基於這些感知資料,規劃控制演算法會規劃出一條無碰撞的安全路徑,並控制車輛按照指定路線運動。在簡單的場景下(或者主車低速行駛場景),這種“感知-規劃控制”的模式可以保證無人車正常行駛;但面對複雜的交通流與路況場景(或者主車高速行駛場景),往往會出現很多問題,最常見的有規劃軌跡跳變以及碰撞問題,如下圖1所示。造成這種現象的本質原因在於規劃演算法缺乏對障礙物未來行為的預見性,“短期”(僅包含當前時刻的障礙物資訊)感知資料促使規劃演算法陷入區域性解。自動駕駛中的障礙物行為預測

圖1 規劃軌跡跳變問題(時間不一致問題) 。A中不使用行為預測,所有障礙物被當做靜態對待,隨著時間的推移,規劃軌跡會出現跳變,甚至發生碰撞,同時也加大了控制的難度;B中引入障礙物行為預測,通過預測未來一定時間(E.g. 3s)來提升規劃軌跡的質量,可以保證規劃軌跡的時間一致性,軌跡跳變少、複用性高。

預測問題的本質是根據感知到的障礙物資訊(包括其歷史時刻資料)以及環境資訊(道路拓撲結構、訊號燈等),推斷出障礙物未來可能的行為模式。此外,在推斷過程中還需要考慮到障礙物與障礙物、障礙物與主車、障礙物與基礎設施等的互動(例如跟車、超車、讓行、紅燈停車等)。最終預測輸出也有很多形式,常見的包含:確定的運動軌跡[1]、物體佔有網格(Occupancy Grids)[2, 3]、區域能量圖[4]等。

2. 行為預測的難點

行為預測是一個非常有挑戰性的研究領域,該方向一個明顯的特點是未來行為/互動的不確定性,即各個障礙物的行為由對應的駕駛員主觀決定,因此想要對不同駕駛員的差異行為進行建模是非常困難的事情。同一場景下障礙物存在多種合理的行為決策,這就是所謂的多模態問題(Multi-Modal Problem)。例如在前方存在車輛阻擋的情況下,不同司機往往會做出不同的決策,或者跟車,或者左超車,更有右超車甚至出現事故發生碰撞等“非常規”狀況。對於這些狀況的確定性預測本質上很難實現,目前的演算法只能通過更多的先驗知識以及訓練資料來分析各種可能行為的概率,以此來達到更合理的預測。

此外一個難點是盲區與遮擋問題,由於車輛的感測器方案佈局問題,採集到的資料(點雲、影象等)可能存在物體被遮擋的問題,遮擋區域內物體的跟蹤與預測同樣是自動駕駛開發過程中考慮的重點。最後在預測中引入並量化基礎設施、交規約束也是一項挑戰。

接下來我們將給大家展示幾種常用的預測演算法,這些演算法有些被用於學術界,有些則落地到工業界。

3. 預測演算法介紹

在具體介紹預測演算法前,我們簡單地瞭解一下預測演算法能夠從感知拿到什麼樣的資料。感知使用感測器從周圍環境獲取原始資料(鐳射點雲、影象、毫米波雷達測速/測距、超聲波雷達測距等資訊),經過演算法後處理可以得到每個時間點自動駕駛車輛周圍環境中所有障礙物的ID、位置、速度、加速度、運動方向等;配合使用高精地圖,我們也能夠知道各障礙物所處的車道、路口、附近紅綠燈等地圖資訊。

在預測演算法中,一類演算法是使用感知後處理的資料進行預測;另一類則是使用感測器原始資料進行預測,預測的結果往往也以原始資料的形式呈現(例如下一時刻的影象或者點雲)。從實用性與可靠性上來講,第一類演算法在工程上更為實用,尤其是L4級別的自動駕駛對系統安全性與可靠性等級要求非常高。針對不同的模型,我們將介紹幾種預測演算法模型及其原理。

3.1 基於策略選擇的預測演算法

這是最常見也最實用的預測演算法,將預測問題退化成為一個策略或者車道選擇的分類問題(判斷在當前場景下,障礙物各種決策的可能性)。該類演算法在2008年CMU的論文[5]中被使用,其核心思想可以總結為:如果一個動態障礙物在直道上行駛,那麼未來很大可能它將繼續沿著同一車道行駛;如果障礙物在路口出現多條可行車道時,列出所有可行車道,根據當前所在車道與運動方向,選擇最合理的可行車道作為後續行駛車道。具體的預測效果如下圖2所示,圖2中a展示了對路上車輛的預測情況,其中黃色、藍色、紅色的連續座標框分別表示一個障礙物預測的軌跡。而b中還額外展示了一個停車的行為預測,預測綠色車輛的停車車位。此外論文中還介紹了對於訊號燈、停車區的處理,採用簡單的減速停車規則來完成。

該方法強結合了高精地圖資訊,約束更強、實用性較高,但幾乎沒有考慮到障礙物之間的互動問題,且車道的選擇相對來說偏簡單,尤其在路口附近僅僅使用規則判斷可能會帶來很大的誤差。因此目前很多團隊(百度、美團等)使用基於機器學習的方法進行決策選擇,除了使用常規的障礙物歷史運動資訊(與車道中心偏移距離/夾角、障礙物運動方向/速度等),還將額外的車道資訊、駕駛員習慣、周圍車輛之間的位置關係等資訊融入到學習模型中進行提升模型的準確性,並取得了不錯的效果。

自動駕駛中的障礙物行為預測圖2 預測效果展示,引自[5]

2018年UCSD團隊提出了一種預測演算法[6],使用長短期記憶神經網路完成策略選擇和軌跡生成,網路使用端到端方式完成模型的訓練。下圖3展示了該團隊提出的多模態預測模型,圖中上半部分為決策選擇過程,可以看到網路的輸入為障礙物 自動駕駛中的障礙物行為預測 個時刻的位移座標,最終經過兩個柔性最大值傳輸函式(Softmax)輸出橫向行為決策 自動駕駛中的障礙物行為預測 與縱向行為決策 自動駕駛中的障礙物行為預測 。橫向行為決策包括左變道、直行、右邊道;縱向行為決策包括減速、勻速、加速。通過兩兩匹配(對應概率相乘)即可得到9種車道行為的 自動駕駛中的障礙物行為預測 。

自動駕駛中的障礙物行為預測圖3 多模態預測演算法結構,引自[6]圖中下半部分是根據每種策略計算對應預測軌跡分佈。如圖中的解碼器(Decoder LSTM)所示,假設需要預測某個障礙物未來 自動駕駛中的障礙物行為預測 個時刻的運動軌跡,由於障礙物的真實軌跡存在噪聲干擾,演算法中假設噪聲服從高斯分佈,那麼軌跡也就遵循高斯分佈。因此對於每種行為決策(例如勻速直行),預測未來 自動駕駛中的障礙物行為預測 個運動軌跡點,只要 自動駕駛中的障礙物行為預測 個高斯分佈引數即可(圖中引數theta是五元組,包含:x和y方向的均值u,方差sigma和協方差係數pho)。最後可以計算得到每種車道行為下Y的概率 自動駕駛中的障礙物行為預測 ,與真實值計算交叉熵損失並最小化得到模型引數

自動駕駛中的障礙物行為預測

該方法一個創新點結合了策略選擇與軌跡生成兩個過程,並通過端到端的方式訓練網路。在預測階段,計算各行為決策的概率 自動駕駛中的障礙物行為預測 ,取最大概率對應的決策行為並計算該行為下未來軌跡的高斯分佈引數theta,最終通過取樣就可以得到預測軌跡。

相似思想的演算法還有2018年中科大的論文[7],如下圖4,通過建立一個場景模型庫,將實時道路拓撲資訊與基礎設施量化。然後對每個障礙物可能的決策行為(左轉、跟車、超車等)使用隱馬爾科夫模型進行單獨建模,配合專家先驗知識得到障礙物不同決策的概率。

自動駕駛中的障礙物行為預測圖4 模型整體框架,引自[7]

如上圖,以豎直虛線分割,模型分為離線部分(右)與線上部分(左)。離線階段主要任務是準備地圖、交通規則以及訓練決策模型 自動駕駛中的障礙物行為預測(i對應障礙物的id,s對應障礙物所處的場景)。線上階段工作為根據離線階段制定完畢的規則,量化編碼道路拓撲結構、交通流,與感知模組實時監測結果一併抽取特徵 自動駕駛中的障礙物行為預測 後,輸入到訓練完畢的測試模型 自動駕駛中的障礙物行為預測 中進行概率計算P,最終配合人工設定的先驗知 自動駕駛中的障礙物行為預測 ,選擇合理的決策行為。該方法將完整的道路結構與交通規則進行量化並加入到模型中,同時引入了專家先驗知識,提升了預測的準確性。此類相似的工作還有[8, 9, 10]。

最後,總結此類基於策略/車道選擇的預測演算法,核心思想是將障礙物與環境互動產生的決策行為退化成一個分類問題。首先,根據地圖與人類的先驗知識挑選出一些可行的決策;利用學習模型計算每種決策的概率;最終根據最優的決策生成其對應的軌跡。該類方法的優勢是強依賴地圖資訊,產生合理的決策與運動模式,實用性強;但在開放環境下預測能力比較受限。由於該類演算法主要以概率分佈描述障礙物的行為決策,所以常見的評價指標以熵、似然、散度的形式為主。下式是常見的交叉熵函式,C表示決策類別數目,自動駕駛中的障礙物行為預測 表示訓練的真實值, 自動駕駛中的障礙物行為預測 表示模型的預測概率。

自動駕駛中的障礙物行為預測

3.2 基於佔有網格的預測演算法

基於佔有網格(OccupancyGrids)的預測演算法將障礙物周圍區域劃分成等大小的網格(例如50x50),每個網格的長和寬一致。在這種條件下,對於障礙物行為的預測就轉化成了對每個網格啟用狀態(例如0、1二值)或者佔有概率(例如 0.0-1.0區間)的判斷。一條運動軌跡會覆蓋一系列的網格,有軌跡點落入的網格會被啟用或者佔有概率變大。

方法[2]同樣使用了神經網路的方法,如下圖5,分別計算每個障礙物下時刻的佔有網格 自動駕駛中的障礙物行為預測 (i對應障礙物ID, 自動駕駛中的障礙物行為預測自動駕駛中的障礙物行為預測 對應該佔有網格的座標)。模型輸入包括主車與所有障礙物的歷史資訊,論文中僅僅用到障礙物位置與速度資訊,通過長短期記憶神經網路計算便得到下一時刻每個障礙物在佔有網格中每個位置的概率(對於左圖虛線框中小的灰色佔有網格圖)。最終結合所有障礙物的佔有網格 自動駕駛中的障礙物行為預測 , i=1,2,3..,N,就得到了下一時刻整體的佔有網格 自動駕駛中的障礙物行為預測 ,計算方法比較簡單:

自動駕駛中的障礙物行為預測

該方法給出了未來時刻所有障礙物的在環境中每個位置的概率,但演算法忽略了實際的道路資訊與交通規則資訊,實用性有待提升。

自動駕駛中的障礙物行為預測圖5 演算法整體結構框架,引自[2] 

如下圖6,華為[3]也做了相似的工作,將障礙物的歷史軌跡編碼成影象的形式(障礙物出現的位置影象畫素值高),通過基於長短期記憶神經網路的編碼-解碼器結構即可得到未來每個時刻障礙物在地圖中的位置。為了提升時刻間預測位置的連續性,引入Motion Flow(類似於光流Optic Flow),相比[2],進一步提升預測的穩定性與準確性。

自動駕駛中的障礙物行為預測圖6 基於佔有網格的預測演算法框架,引自[3]此外也有基於卡爾曼濾波等形式的佔有網格預測演算法。總結基於佔有網格的預測演算法,通過將周圍區域劃分成網路並計算概率,該類方法主要以主車為第一視角,能夠應對無地圖場景(或者感知相對地圖)場景,但是穩定性和準確性上有所欠缺。該類方法的評價指標以交叉熵、似然形式為主,上述提及的兩種方法都是以交叉熵評估生成軌跡分佈與真實軌跡分佈的相似性。

3.3 基於能量圖的預測演算法

基於能量的預測演算法與佔有網格比較相似,區別在於佔有網格中元素的計算方式不同。前者通過定義一些人為的能量函式,來計算每個網格中的能量大小,能量越大代表可通行的概率就越大。

論文[4]給出了基於能量圖的人群行為分析演算法,在對於能量圖的建模過程中,主要包含三個內容:對於靜態場景的建模 自動駕駛中的障礙物行為預測 ,對於運動物體的建模 自動駕駛中的障礙物行為預測 ,對於環境中群體的建模 自動駕駛中的障礙物行為預測 。注意這裡需要對能量圖中每個網格點都計算以上三種屬性。三種屬性對應的計算方式如下:

自動駕駛中的障礙物行為預測

自動駕駛中的障礙物行為預測

自動駕駛中的障礙物行為預測

在上述公式中 自動駕駛中的障礙物行為預測自動駕駛中的障礙物行為預測自動駕駛中的障礙物行為預測自動駕駛中的障礙物行為預測 是人為設定的四個係數,可以手動調節;x是能量圖的網格點二維座標。d1函式表示網格點x到最近的場景障礙物SL(牆、柱子等)的最小距離;d2函式表示網格點x到行人障礙物MP的距離;d3表示網格點x到群體SG的最小距離(群體計算有獨立的演算法);d4表示群體SG的大小。最終可以得到整體能量圖自動駕駛中的障礙物行為預測 :

自動駕駛中的障礙物行為預測

自動駕駛中的障礙物行為預測

三種屬性的子能量圖視覺化效果如下圖7所示:

自動駕駛中的障礙物行為預測圖7 能量圖效果展示,引自[4]。 A靜態場景子能量圖自動駕駛中的障礙物行為預測 [自動駕駛中的障礙物行為預測 :0.01/(c), 0.05/(d)];B移動行人子能量圖 自動駕駛中的障礙物行為預測自動駕駛中的障礙物行為預測 :0.01/(c), 0.05/(d)];C 人群子能量圖 自動駕駛中的障礙物行為預測 [ 自動駕駛中的障礙物行為預測 / 自動駕駛中的障礙物行為預測:0.08/0.005/(top subfigure), 0.08/0/(center subfigure), 0.15/0/(bottomsubfigure)]; D: 綜合能量圖 自動駕駛中的障礙物行為預測 [P: 0.5/(top subfigure),1.0/(center subfigure), 1.5/(bottom subfigure)]。

3.4 其餘預測演算法

除了以上幾類方法,還有很多其他的演算法,例如基於原始鐳射點雲的預測演算法[11,12],基於視訊的預測演算法[13, 14],基於概率圖模型的預測演算法[15],基於神經網路的直接軌跡預測演算法[1]等。此外對於原始資料與直接軌跡預測演算法,評價指標常見有均方誤差(Mean Square Error, MSE)、終點位移誤差(Final Displacement Error, FDE),這些指標都是計算預測值與真實值之間的歐氏距離差。

自動駕駛中的障礙物行為預測

自動駕駛中的障礙物行為預測

實際上訓練資料的真實值準確地來說應該是偽真實值,預測不存在實際意義上的真實值,也就是上述提到的多模態問題。儘管如此,但通過資料驅動的模仿學習方法,在一定程度上能預測出一些人類認可的決策集合。這也為自動駕駛行為預測提供了一定的可行性支撐。

從整體的巨集觀層面理解,預測和規劃兩個方向是比較相似的:預測是推理障礙物的運動行為,規劃規劃主車的運動行為;預測和規劃都沒有實際意義上的“最優解”(真實值)。因此兩個問題在評價指標上也是比較相似,規劃常用的評價指標有里程數、規劃故障接管率,舒適性等,同樣這也適用於預測演算法。我們認為對於這類巨集觀意義上的指標有一個階段性的特點:對於一個團隊,在每個階段其預測評價指標是不相同的。在初期,為了追求技術的穩定性,可能例如預測車道的準確率、預測脫離車道的概率等模型效能指標會被重點考慮;隨著技術的成熟以及場景的增加,各場景模擬以及物理ADS通過率等指標會被關注;最終在運營階段,支援行駛里程、預測故障接管率、禮讓/激進預測模式等指標成為重點。

4. 總結

本文介紹了預測在自動駕駛中的位置與作用,並給出了預測問題的一些難點,最後簡單地展示了幾類在學術與工程中常見的預測演算法及其評價指標。目前在預測過程中輸入往往是基於感知後處理的資料,較少使用原始感測器資料直接做預測。對於預測模型的使用,基於規則式以及策略選擇的演算法可靠性更高,實用性更強。最後迴歸到本質的問題,如何更好地對駕駛員行為與決策互動問題建模以提升行為預測的效果。在我們看來加入更多的先驗(例如人體姿態,車輛尾燈等資訊),同時利用機器學習、統計學等方式起對障礙物進行長時序行為分析,有助於提升預測的準確性。此外,V2X技術也是提升預測準確性的一個方式。

最後隨著技術的成熟,希望行業內能在行為預測上取得突破,推動自動駕駛向著更安全、更可靠的方向發展。、

參考文獻

[1] Gupta A, Johnson J, Feifei L, et al.“Social GAN: Socially Acceptable Trajectories with Generative AdversarialNetworks.” CVPR, 2018.

[2] KimB D, Kang C M, Lee S H, et al. “Probabilistic Vehicle Trajectory Predictionover Occupancy Grid Map via Recurrent Neural Network.” arXiv preprint, 2017.

[3] Mohajerin N, Rohani M. “Multi-StepPrediction of Occupancy Grid Maps with Recurrent Neural Networks.” CVPR, 2019.

[4] YiS, Li H, Wang X. “Understanding pedestrian behaviors from stationary crowdgroups.” CVPR, 2015.

[5] Ferguson D, Darms M, Urmson C, et al.“Detection, prediction, and avoidance of dynamic obstacles in urbanenvironments.” IVS, 2008.

[6] Deo N, Trivedi M M. “Multi-ModalTrajectory Prediction of Surrounding Vehicles with Maneuver based LSTMs.” IVS,2018.

[7] Xinli G, Huawei L, Biao Y, et al. “AScenario-Adaptive Driving Behavior Prediction Approach to Urban AutonomousDriving.” Applied Sciences, 2017.

[8] Hao W, Ziyang C, Weiwei S, et al.“Modeling Trajectories with Recurrent Neural Networks.” IJCAI, 2017.

[9] Khosroshahi A, OhnBar E, Trivedi M M.“Surround vehicles trajectory analysis with recurrent neural networks.” ITSC,2016.

[10] Yeping H, Wei Z, Tomizuka, Masayoshi. “Probabilistic Prediction of VehicleSemantic Intention and Motion.” IVS, 2018.

[11] Wenjie L, Bin Y, Raquel U. “Fast andFurious: Real Time End-to-End 3D Detection, Tracking and Motion Forecastingwith a Single Convolutional Net.” CVPR, 2018.

[12] Shashank S, Junaid A A, et. al. “INFER:INtermediate representations for FuturE pRediction.” arXiv 2019.

[13] Junting P, Chengyu W, Xu J, et al.“Video Generation from Single Semantic Label Map.” CVPR, 2019.

[14] Tingchun W, Mingyu L, Junyan Z, et al.“Video-to-Video Synthesis.” NeurIPS, 2018.

[15] Jiachen L, Wei Z, and Tomizuka M.“Generic Vehicle Tracking Framework Capable of Handling Occlusions Based onModified Mixture Particle Filter.” IVS, 2018.

相關文章