本文介紹作者在IV2018上的獲獎論文“Probabilistic Prediction of Vehicle Semantic Intention and Motion”。
1. 什麼是預測及預測的重要性
“預測”這個詞對我們來說並不陌生,而且我們經常會做各種各樣的預測。比如我們會預測明天或是未來會發生什麼;預測哪支球隊能奪得世界盃冠軍;當然在開車的時候我們也會下意識地預測其它車輛的行為,避免可能發生的危險。但是人類所能捕獲到的外部資訊是有限的,當遇到一些不那麼遵紀守法的司機,或者某輛車在我們的盲區時,預測他們的行為便變得不那麼容易了。同時,司機的注意力也很難做到長時間的集中,有時甚至會被一些外部因素所分散(比如手機等)。而交通事故往往就發生在這些時刻。
對於未來的無人車,能準確地預測出路面車輛將會發生的行為是尤為重要的。目前的許多研究僅透過考慮特定場景來確定駕駛意圖的數量。但是不在同場景下,車輛會有不同可能的駕駛意圖。比如在高速場景下,可行的駕駛意圖通常分為三種:直行,左變道,和右變道;而在十字路口,可行的駕駛意圖除了以上列舉的三種,還包括左轉彎,右轉彎,和直行透過路口。所以,我們需要設計一種方法,使其能夠適用於不同場景的意圖預測。
自動駕駛汽車配有各類感測器,比如微波雷達,鐳射雷達等。這使得它們具備遠超人類的檢測感知能力,並且可以做到不間斷,全方位地檢測周圍環境。所以,我們希望利用這一點,讓自動駕駛汽車擁有比人類更好的預測的能力,使其擁有安全、舒適、且具有合作性的駕駛能力。
2. 我們想預測什麼?
當然,想要讓自動駕駛汽車預測路面汽車的駕駛行為,我們首要明白人類開車時候會做出什麼樣的行為。事實上,我們開車時通常在做的一件事就是在不停尋找合適的“插入區域”。可以透過下面這個動圖來更好地理解:
在這個圖中,假設我們在駕駛著這輛紅色轎車,想要到達星號的位置。隨著車輛的位置變化,我們的目標區域(紅色陰影)也在發生著變化。在這個過程中,我們做了三件事/完成三個小目標:左變道,跟車,左轉彎。我們經歷著不同的場景,不同的道路結構和不同的駕駛行為,但是有一件事情是不變的:我們一直在尋找一個可以插入的空隙。以上,我們總結出以下兩點:
人類在駕駛的時候為了完成一個個小的目標,會不斷尋找並插入到不同的行駛區域中;
預測人類駕駛行為可被簡化為預測車輛會插入到哪個區域。
當然,除了預測可能插入的區域,我們希望自動駕駛汽車能夠做到更多:
預測多久能夠完成這個過程(時間資訊);
預測具體會插入到這個區域的哪個位置(位置資訊)。
所以我們把需要解決的預測問題用語義的方式描述成:“預測車輛最有可能插入到哪個區域裡?何時?何處?”
3. 用什麼方法實現預測?
我們提出一個Semantic based Intention and Motion Prediction(SIMP) 的方法。翻譯過來就是基於語義意圖和運動的預測方法。這是一個基於混合密度網路(Mixture Density Network)和深度神經網路(Deep Neural Network)的方法。每一個“插入區域”都被指定了一個二維的高斯混合模型(Gaussian Mixture Model),具體公式如下:
下角標a代表其中一個插入區域a;x是輸入,包括當前從環境中提取的一些狀態特徵,y是輸出,包括以上提到的時間和位置資訊。整體框架的輸出包括每一個二維高斯混合模型需要的引數(P),以及每一個可以插入的區域的權重(w)。
SIMP框架圖如下:
我們把損失函式定義為:
如此定義的損失函式不僅可以使真正插入的區域擁有最大的權重,同時也使得該區域內的正確的時間和位置資訊擁有最高的預測機率。
4. 真實場景預測
簡單介紹完了方法,我們來看看它在真實的道路場景中的效果如何吧!我們選用了NGSIM的資料集,這是一個開源的資料集,裡面包括真實高速路段中的車輛資訊。我們選取了其中17179個frame作為訓練和測試的資料。
在高速場景中我們定義瞭如下資訊以便於特徵提取和結果評估。黃色的車是想要預測的車輛,幾輛藍色的車是在這三條道路上距離預測車輛最近的三輛車。青色的圓圈便是所有可能插入的區域,在這裡我們稱其為動態的插入區域因為這些區域的位置和大小一直在隨著時間而變化,並不固定。透過以上的定義方法,當預測車輛旁邊的某條車道不存在或者車道上沒有車時,一樣可以使用我們提出的方法。
5. 實驗結果及分析
我們選取了以下三種不同的測試情況來看看預測的結果:
場景1:參考車輛的突然改變
場景2:典型的車道線變換
場景3:改變主意
我們對於第二種場景提取了幾個典型的frame,並畫出了預測的時間資訊曲線如下。可以看到,我們的時間預測結果與真實值的差距在變道前3秒都在0.3s以內。
我們分別把我們的方法與經典的分類方法(支援向量機SVM)和迴歸方法(分位數迴歸樹QRF)分別進行了對比,結果如下:
這裡,“True Positive”代表正確預測出向左或是向右變道,“False Positive”代表錯誤地預測了變道的方向。透過ROC對比圖,可看出我們的方法的準確率超過了傳統的SVM方法。除此之外,我們還對比了其他的數值,F1-Score表示分類能力的好壞,Avg. Predict Time表示可以在變道前多久能夠做出準確預測(數值越大越好)。
以上兩張圖分別從時間和位置兩方面將我們的方法和QRF方法的預測結果進行了比較。可以看出,對於兩種車輛運動的預測,使用我們方法得出的RMSE誤差都小於使用QRF方法得到的結果。由於使用我們方法得到的誤差以及一個和兩個標準差之間的差距在不斷減小,說明我們預測的高斯分佈的最高峰也越來越接近真正的值。
具體方法細節可參見論文:
[1] Yeping Hu, Wei Zhan, and Masayoshi Tomizuka, “Probabilistic prediction of vehicle semantic intention and motion,” in 2018 IEEE Intelligent Vehicles Symposium (IV), Jun. 2017.