頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

AIBigbull2050發表於2019-11-25
2019-11-21 20:51:26

本文詳細闡述了美團在基於神經網路StarNet的行人軌跡互動預測演算法的研究。有關軌跡預測演算法的研究還在繼續,希望能與同行一起交流學習。

1. 背景

民以食為天,如何提升超大規模配送網路的整體配送效率,改善數億消費者在”吃“方面的體驗,是一項極具挑戰的技術難題。面向未來,美團正在積極研發無人配送機器人,建立無人配送開放平臺,與產學研各方共建無人配送創新生態,希望能在一個場景相對簡單、操作高度重複的物流配送中,提高物流配送效率。在此過程中,美團無人配送團隊也取得了一些技術層面的突破,比如基於神經網路StarNet的行人軌跡互動預測演算法,論文已發表在IROS 2019。IROS 的全稱是IEEE/RSJ International Conference on Intelligent Robots and Systems,IEEE智慧機器人與系統國際會議,它和ICRA、RSS並稱為機器人領域三大國際頂會。

1.1 行人軌跡預測的意義

在無人車行駛過程中,它需要對周圍的行人進行軌跡預測,這能幫助無人車更加安全平穩地行駛。我們可以用圖1來說明預測周圍行人的運動軌跡對於無人車行駛的重要性。

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

圖1 主車規劃軌跡跳變問題

圖1中藍色方塊代表無人車,白色代表行人。上半部分描述的是在不帶行人軌跡預測功能情況下無人車的行為。這種情況下,無人車會把行人當做靜態物體,但由於每個時刻行人都會運動,導致無人車規劃出來的行駛軌跡會隨著時間不停地變化,加大了控制的難度,同時還可能產生碰撞的風險,這樣違背了安全平穩行駛的目標。下半部分是有了行人軌跡預測功能情況下的無人車行為。這種情況下,無人車會預測周圍行人的行駛軌跡,因此在規劃自身行駛時會考慮到未來時刻是否會與行人碰撞,最終規劃出來的軌跡更具有“預見性”,所以避免了不必要的軌跡變化和碰撞風險。

1.2 行人軌跡預測的難點

總體而言,行人軌跡預測的難點主要有兩個:

第一,行人運動靈活,預測難度大。本身精確預測未來的運動軌跡是一個幾乎不可能完成的任務,但是透過觀察某個障礙物歷史時刻的運動軌跡,可以根據一些演算法來大致估計出未來的運動軌跡(最簡單的是勻速直線運動)。在實際中,相比於腳踏車、汽車等模型,行人運動更加靈活,很難對行人建立合理的動力學模型(因為行人可以隨時轉彎、停止、運動等),這加劇了行人預測的難度。

第二,行人之間的互動,複雜又抽象。在實際場景中,某一行人未來的運動不僅受自己意圖支配,同樣也受周圍行人的影響(例如避障)。這種互動非常抽象,在演算法中往往很難精確地建模出來。目前,大部分演算法都是用相對空間關係來進行建模,例如相對位置、相對朝向、相對速度大小等。

1.3 相關工作介紹

傳統演算法在做預測工作時會使用一些跟蹤的演算法,最常見的是各類時序模型,例如卡爾曼濾波(Kalman Filter, KF)、隱馬爾可夫(Hidden Markov Model, HMM)、高斯過程(Gaussian Process, GP)等。這類方法都有一個很明顯的特點,就是根據歷史時序資料,建立時序遞推數學公式:

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

或者

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

。因為這類方法具有嚴格的數學證明和假設,也能處理一些常規的問題,但是對於一些複雜的問題就變得“束手無策”了。這是因為這些演算法中都會引入一些先驗假設,例如隱變數服從高斯分佈,線性的狀態轉換方程以及觀測方程等,而最終這些假設也限制了演算法的整體效能。神經網路一般不需要假設固定的數學模型,憑藉大規模的資料集促使網路學習更加合理的對映關係。本文我們主要介紹一些基於神經網路的行人預測演算法。

基於神經網路的預測演算法(主要以長短期記憶神經網路Long Short Term Memory,LSTM為主)在最近5年都比較流行,預測效果確實比傳統演算法好很多。在CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 2019上,僅行人預測演算法的論文就有10篇左右。這裡我們簡單介紹2篇經典的行人預測演算法思路,如果對這方面感興趣的同學,可以透過文末的參考文獻深入瞭解一下。第一篇是CVPR 2016史丹佛大學的工作Social-LSTM,也是最經典的工作之一。Social-LSTM為每個行人都配備一個LSTM網路預測其運動軌跡,同時提出了一個Social Pooling Layer的模組來計算周圍其他行人對其的影響。具體的計算思路是將該行人周圍的區域劃分成NxN個網格,每個網路都是相同的大小,落入這些網格中的行人將會參與互動的計算。

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

圖2 左:Social LSTM原理 右:Social Pooling計算過程

第二篇是CVPR 2019卡耐基梅隆大學&谷歌&史丹佛大學的工作,他們的工作同樣使用LSTM來接收歷史資訊並預測行人的未來軌跡。不同於其他演算法的地方在於,這個模型不僅接收待預測行人的歷史位置資訊,同時也提取行人外觀、人體骨架、周圍場景佈局以及周圍行人位置關係,透過增加輸入資訊提升預測效能。除了預測具體的軌跡,演算法還會做粗粒度預測(決策預測),輸出行人未來時刻可能所在的區域。

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

圖3 演算法整體結構

其他的相關工作,還包括基於語義影像/佔有網格(Occupancy Grid Map, OGM)的預測演算法,基於資訊傳遞(Message Passing, MP)的預測演算法,基於圖網路(Graph Neural Network, GNN)的預測演算法(GCN/GAT等)等等。

2. StarNet介紹

目前,現有的軌跡預測演算法主要還是聚焦在對行人之間互動的建模,軌跡預測通常只使用LSTM預測即可。如下圖4左,現有關於軌跡預測的相關工作基本都是考慮行人之間兩兩互動,很少有考慮所有行人之間的全域性互動(即使是GCN,也需要設計對應的相似矩陣來構造拉普拉斯矩陣,這也是一個難點)。我們可以舉一個例子來說明現有其他演算法預測的流程:

假設感知模組檢測到當前N個行人的位置,如何計算第一個行人下一時刻的位置?

Step 1計算其他人對於第一個行人的互動影響。將第i個行人在第t時刻的位置記為(一般是座標x和y)。可以透過以下公式計算第一個行人的互動向量:

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

從上述公式可以大致看到,相對位置關係是最重要的計算指標,計算的函式f一般是一個神經網路。

Step 2 計算第一個行人下個時刻的位置。通常需要根據上一時刻的位置與互動向量:

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

上述公式中,計算的函式g同樣是神經網路,即上面提到的長短期記憶神經網路LSTM。

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

圖4 演算法思路對比圖 左:傳統演算法 右:StarNet

兩兩互動的方式存在兩個問題:

(1) 障礙物2和3確實會影響障礙物1的運動,但是障礙物2和3之間同樣也存在相互影響,因此不能直接將其他障礙物對待預測障礙物的影響單獨剝離出來考慮,這與實際情況不相符。

(2) 兩兩計算消耗的資源大,如果有N個障礙物,那麼兩兩互動就需要N的平方次計算,隨著N的變大,計算量呈平方倍增長。我們希望障礙物之間的互動能否只計算1次而非N次,所有障礙物的軌跡預測都共享這個全域性互動那就更好了。

基於上述兩個問題,我們提出了一種新的模型,該模型旨在高效解決計算全域性互動的問題。因為傳統演算法普遍存在計算兩兩互動的問題(即使是基於Attention注意力機制的Message Passing也很難考慮到全域性的互動),本文想嘗試透過一些更加簡單直觀的方式來考慮所有障礙物之間的全域性互動,我們的演算法大致思路如下:

每個時刻所有障礙物的位置可以構成一張靜態的“地圖”,隨著時間的變化,這些靜態地圖就變成了一張帶有時序資訊的動態圖。這張動態圖中記錄了每個區域內的障礙物運動資訊,其中運動資訊是由所有障礙物一起影響得到的,而非單獨地兩兩互動形成。對於每個障礙物的預測階段,只要根據該障礙物的位置,就可以在這張時序地圖中查詢該區域在歷史時刻的障礙物運動資訊(例如這個區域在歷史時刻中,障礙物1、2、4、5都有其運動的軌跡)。透過“共享全域性互動地圖+個體查詢”的方式,就可以做到計算全域性互動以及壓縮計算開銷。

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

圖5 StarNet網路結構圖

我們的演算法結構如上圖5所示,Host Network是基於LSTM的軌跡預測網路;Hub Network是基於LSTM的全域性時序互動計算網路。在論文具體的實現中,首先Hub Network的靜態地圖模組是透過接受所有障礙物同一時刻的位置資訊、全連線網路和最大池化操作得到一個定長的特徵向量;然後動態地圖模組使用LSTM網路對上述的特徵向量進行時序編碼,最終得到一個全域性互動向量。Host Network首先根據行人(假設要預測第一個行人下時刻的位置)的位置

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

去動態地圖中查詢自己當前位置區域內的互動

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

,具體我們採用簡單的點乘操作(類似於Attention機制)。最終自己的位置

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

和互動

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

一起輸入LSTM網路預測下時刻的的位置

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

實驗階段,我們與4種經典的演算法作比較,使用的資料集為UCYÐ資料集,這兩個資料集包含4個子場景,分別為ZARA-1/ZARA-2、UNIV、ETH、HOTEL。在預測過程中,所有演算法根據每個行人過去3.2秒的運動軌跡,預測出它在未來3.2秒的軌跡。每0.4秒取樣一個離散點,因此3.2秒的軌跡可以用8個軌跡離散點表示。對比的指標有:

(a)平均距離差ADE(Average Displacement Error):用演算法預測出的軌跡到真實軌跡所有8個點之間的平均距離差。

(b)終點距離差FDE(Final Displacement Error):用演算法預測出的軌跡與真實軌跡最後一個終點之間的距離差。

(c)前向預測時間以及引數量。

最終的實驗結果如下表:

頂會論文:基於神經網路StarNet的行人軌跡互動預測演算法

從實驗結果可以看到,我們的演算法在80%的場景下都優於其他演算法,且實時性高(表中LSTM的推理時間為0.029秒,最快速是由於該演算法不計算互動,因此速度最快引數也最少,但是效能較差)。

總結一下,我們提出演算法StarNet的優勢主要包括以下兩點:

  • 使用全域性動態地圖的形式來描述行人之間在時間和空間上的相互影響,更加合理,也更加準確。
  • Hub Network全域性共享的特徵提升了整個演算法的計算效率。

3. 未來工作

首先,我們會進一步探索新的模型結構。雖然我們的演算法在資料集上取得了不錯的效果,但這是我們的第一次嘗試,模型設計也比較簡單,如果提升模型結構,相信可以取得更好的結果。

其次,我們會提升預測的可解釋性。同現有演算法一樣,目前的模型對計算到的互動缺乏可解釋性,仍然依賴於資料驅動。在今後的工作中,我們將透過對互動的可解釋建模來提升預測的準確性。

最後,在構建時序的動態地圖過程中,引入對於每個障礙物的跟蹤資訊。換句話說,我們知道每塊區域在各個時間點障礙物的位置,但目前演算法沒有對障礙物在時序上做跟蹤(例如時刻1有三個障礙物,時刻2三個障礙物運動了得到新的位置,網路輸入為三個障礙物的位置資訊,但是網路無法理解兩個時刻中障礙物的對應關係,這降低了互動的效能),這點在以後的工作中還需要繼續改進。

參考文獻

[1] A. Alahi, K. Goel, V. Ramanathan, A. Robicquet, F. Li and S. Savarese, “Social lstm: Human trajectory prediction in crowded spaces,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE 2016, pp. 961-971.

[2] H. Wu, Z. Chen, W. Sun, B. Zheng and W. Wang, “Modeling trajectories with recurrent neural networks,” in 28th International Joint Conference on Artificial Intelligence (IJCAI). 2017, pp. 3083-3090.

[3] A. Gupta, J. Johnson, F. Li, S. Savarese and A. Alahi, “Social GAN: Socially acceptable trajectories with generative adversarial networks,” in 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018, pp. 2255-2264.

[4] A. Vemula, K. Muelling and J. Oh, “Social attention: Modeling attention in human crowds,” in 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018, pp. 1-7.

[5] Y. Xu, Z. Piao and S. Gao S, “Encoding crowd interaction with deep neural network for pPedestrian trajectory prediction,” in 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018, pp. 5275-5284.

[6] D. Varshneya, G. Srinivasaraghavan, “Human trajectory prediction using spatially aware deep attention models,” arXiv preprint arXiv:1705.09436, 2017.

[7] T. Fernando, S. Denma, S. Sridharan and C. Fookes, “Soft+hardwired attention: An lstm framework for human trajectory prediction and abnormal event detection,” arXiv preprint arXiv:1702.05552, 2017.

[8] J. Liang, L. Jiang, J. C. Niebles, A. Hauptmann and F. Li, “Peeking into the future: Predicting future person activities and locations in videos,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 5725-5734.

[9] A. Sadeghian, V. Kosaraju, Ali. Sadeghian, N. Hirose, S. H. Rezatofighi and S. Savarese, “SoPhie: An attentive GAN for predicting paths compliant to social and physical constraints,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 5725-5734.

[10] R. Chandra, U. Bhattacharya and A. Bera, “TraPHic: Trajectory prediction in dense and heterogeneous traffic using weighted interactions,” in 2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019, pp. 8483-8492.

[11] J. Amirian, J. Hayet and J. Pettre, “Social Ways: Learning multi-modal distributions of pedestrian trajectories with GANs,” arXiv preprint arXiv:1808.06601, 2018.

作者簡介

炎亮德恆,冬淳,華夏,均來自美團無人配送部。






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2665623/,如需轉載,請註明出處,否則將追究法律責任。

相關文章