使用平行的屬性網路模組化自動駕駛中的控制策略網路

ControlPlusAI發表於2019-07-04

作者簡介:許倬,UC Berkeley博士在讀,研究方向包括機器學習、增強學習、控制理論及其在機器人和自動駕駛等領域的應用。

目前神經網路控制策略在機器人和自動駕駛的領域中都被廣泛探索和應用,因為這些使用模仿學習和增強學習等方法所訓練的策略網路相比於傳統的控制方法具有相當多的優勢。首先,神經網路可以表示非常複雜的模型;其次,多種駕駛場景和模式可以同時、全面地影響策略網路的訓練;此外,相比於線上最佳化的方法,策略網路的執行往往更快。但是,策略網路的實際應用收到一系列限制,其中一個非常重要的問題則是訓練和知識遷移的困難性。

以以下的一個駕駛案例為例(見下圖),假設我們對於第一個駛向既定目標地的任務訓練了一個輸入維度為10維的策略網路。假設我們新增添了一個躲避障礙物的屬性,而這個屬性新增添了5維的資訊輸入,那麼我們需要新訓練一個15維輸入的神經網路。而由於我們對於神經網路的內部運轉的無知性,儘管這兩個任務非常相似,我們也無法複用任何已有知識而只能完全重新訓練新的策略網路。同理,假設我們新增添一個限速的屬性,而它又帶來了新的5維輸入,我們又不得不重新訓練一個新策略網路

使用平行的屬性網路模組化自動駕駛中的控制策略網路圖1. 三個典型的類似的駕駛任務,但是對於他們的策略網路(非層級結構神經網路),沒有知識可以被複用,因此每個新任務需要重新訓練一個新的策略網路

因此我們的工作目標是建立起一套依據任務屬性的策略網路模組化系統,從而達到對於不同的駕駛屬性,如車道保持,障礙物躲避和交通規則,每一個屬性模組分別給出相關指示,而這些指示共同給出一個整體的駕駛指令。如下圖所示車道保持模組首先吸取車道相關資訊,並且給出相應的駕駛建議;障礙躲避模組吸收障礙物資訊,交通規則模組吸收交通規則相關的資訊,它們都給出和相應屬性相關的駕駛要求。最後,整個屬性網路整合所有屬性模組的要求,給出最終的駕駛指令,亦即策略網路的輸出。

使用平行的屬性網路模組化自動駕駛中的控制策略網路圖2. 平行的屬性網路的各模組的結構示意圖我們提出的平行屬性網路目標即為實現這一功能。這種層級結構的策略網路用一個獨立的神經網路來充當此前描述的屬性模組,該神經網路的輸入為該屬性相關的資訊,而輸出特定的駕駛要求。為了解釋不同屬性網路的輸出,我們首先把各個屬性分為兩類,一類是基礎的車道保持屬性,另一類是附加的屬性,如避障、遵守交通規則等。對於基礎的車道保持屬性,相應的屬性模組充當一個純車道保持策略網路,輸出一個當前時刻的駕駛命令,如下圖紅色向量所示。而對於其他的附加屬性,相應的屬性模組則輸出一個在駕駛命令空間裡的屬性集,這個屬性集被定義為,如果駕駛命令屬於該屬性集,則這一駕駛屬性可以被滿足,對於某兩個屬性,下圖中的藍色和黃色橢圓內的空間表示了這兩個屬性集。最後,平行屬性網路執行一個投影,將紅色向量指代的最初的指令向量投影到所有屬性集的交集中得到最終的指令,亦即圖中的綠色向量,即求得距離原指令最近的滿足所有屬性的命令。

使用平行的屬性網路模組化自動駕駛中的控制策略網路圖3. 平行屬性網路的內部執行方式我們進行了詳盡的模擬與實車實驗驗證了所提出的方法的有效性和優越性。在第一組實驗的訓練中,我們使用了線性屬性集假設,並且使用了增強學習和模仿學習的方法訓練了各個屬性網路,並且將各個屬性網路組合起來作為策略網路去控制無人車執行了很多未經訓練的駕駛任務。我們主要考察了查車道保持、避障、遵守紅綠燈和限速等常見駕駛屬性,下圖展示了若干未經直接訓練,而是直接透過屬性模組組合而成的策略網路執行相關任務時的駕駛行為示意圖。我們的實驗證明了:(1)使用模組化方法,高維的駕駛任務可以被降級成很多低維的屬性,從而更容易訓練;(2)平行屬性網路可以動態處理不同任務造成的不同維度的網路輸入;(3)對於一些未被訓練的任務,透過組合以訓練的屬性模組,我們可以得令人滿意的策略網路

使用平行的屬性網路模組化自動駕駛中的控制策略網路圖4. 平行屬性網路作為策略網路控制無人車車道保持同時服從紅綠燈

使用平行的屬性網路模組化自動駕駛中的控制策略網路圖5. 平行屬性網路作為策略網路控制無人車車道保持同時服從限z

使用平行的屬性網路模組化自動駕駛中的控制策略網路圖6. 平行屬性網路作為策略網路控制無人車躲避障礙物同時服從紅綠燈和限速理論上,各個屬性模組的訓練可以使用增強學習和模仿學習,並且對於模仿學習,訓練集可以來自於人類標註或者理論計算結果。我們在實驗中比較了增強學習、模仿學習、以及用於生成模仿學習訓練集的專家執行者的表現,如下圖所示。這一實驗說明,增強學習可以得到比模仿學習更好的效果,這也是本方法的突出優勢之一。

使用平行的屬性網路模組化自動駕駛中的控制策略網路圖7. 增強學習、模仿學習training log以及生成模仿學習資料集的專家執行者的表現對比最後,我們還進行了實車實驗,驗證了我們的方法可以實時地控制無人車執行駕駛任務。實車實驗中我們使用平行屬性網路作為控制策略在模擬空間中生成一系列參考軌跡,再使用控制器控制無人車沿著軌跡形勢,這一部分工作主要整理發表在[2]文中。實驗表明,使用我們的平行屬性網路作為路徑規劃單元的控制系統可以控制無人車實時執行變道避障任務,下圖主要定性展示展示無人車在執行變道避障時的行為以及車載監控視角的表現。

使用平行的屬性網路模組化自動駕駛中的控制策略網路  圖8. 變道避障實車實驗的現場照片以及車內監控視角示意圖

具體方法及更詳盡的分析請參考論文

[1] Zhuo Xu, Haonan Chang, Chen Tang, Changliu Liu, and Masayoshi Tomizuka, “Toward Modularization of Neural Network Autonomous Driving Policy Using Parallel Attribute Networks”in IEEE Intelligent Vehicles Symposium (IV), June. 2019

[2] Chen Tang*, Zhuo Xu*, and M. Tomizuka, “Disturbance Observer based Tracking Controller for Neural Network Driving Policy Transfer”, to appear in IEEE Transactions on Intelligent Transportation Systems in 2019.

相關文章