自動駕駛無疑是當下最熱門的話題之一,無論是工業界還是學術界都在不斷探索實現自動駕駛的方法。從運動規劃和控制的角度來看,儘管傳統的基於模型的演算法已經可以幫助我們完成在相對簡單可控的環境下的駕駛任務,如何在複雜場景(例如涉及多車進行復雜互動的場景)下安全高效的通行仍然是亟待解決的問題。我們認為利用深度強化學習(Deep Reinforcement Learning),尤其是無模型(model-free)的強化學習演算法,來學習複雜場景下的駕駛策略是一個值得探索的方向。通過在訓練階段的大量探索,強化學習演算法可以在訓練環境中採集不同情況下的資料,從而針對各種情況對策略進行優化,最終獲得在訓練環境中相對理想的策略。利用這樣的方式,我們可以避免對複雜場景的建模,得到可以線上上快速運算的規劃及控制策略。
然而,強化學習存在許多現實問題,其中最重要的問題之一就是強化學習缺乏足夠的魯棒性(Robustness)。一旦環境發生變化,出現訓練環境沒有出現的情況,原本在訓練環境中表現優異的策略模型往往無法正確應對。而自動駕駛車輛需要在各種複雜交通狀況下行駛,我們無法保證在訓練中囊括所有的場景。另一方面,出於安全以及訓練效率方面的考慮,駕駛策略往往需要在模擬環境中訓練,這更加劇了訓練環境和實際工作場景間的差距,使得強化學習生成的駕駛策略無法在實際的自動駕駛車輛上部署。為了解決魯棒性問題,許多研究者開始使用遷移學習的方法(Transfer Learning),使得在訓練好的策略模型可以在新的環境中直接使用(zero-shot),或是經過快速的微調後可以在新的場景下達到理想效果(one-shot/few shot)。
在本文中,我們所關注的問題是駕駛策略對車輛動力學模型變化的魯棒性,比如模型引數(如質量,轉動慣性,輪胎模型引數等等)的變化以及外界的擾動如道路傾角和側向風導致載入在車輛上的側向力。我們希望可以將訓練好的駕駛策略直接應用在相對於訓練環境的車輛有一定變化的車輛上面,比如模擬環境中的不同車輛或是真實車輛,並達到和在訓練環境中時相同的效果。為了達到這個目標,我們提出了基於魯棒控制的駕駛策略遷移框架(RL-RC)。我們在模擬的訓練環境(source domain)中訓練初始的強化學習策略,隨後將訓練的強化學習策略應用在目標環境(target domain)中。我們假設二者的區別僅在於控制車輛的動力學模型有一定程度的差異,並且我們可以獲取訓練環境中車輛的動力學模型。在遷移的過程中,我們假設相同的行駛軌跡在訓練環境和目標環境中有著相同的可行性(Feasibility)和最優性(Optimality),這在二者中控制車輛雖然不同但類似的情況下是合理的假設。因此,我們可以直接利用在目標環境中檢測的資訊,在訓練環境中建立相同的場景,並利用駕駛策略向前模擬一段時間,從而得到在訓練環境中未來一段時間內車輛行駛的軌跡。在目標環境中的車輛上,我們利用已知的車輛動力學模型資訊,設計魯棒控制器來控制車輛追蹤生成的參考軌跡。
RL-RC 策略遷移框架示意圖
在這一框架中,我們將軌跡作為可直接遷移的中間變數,增加了遷移過程的可解釋性,並且避免了在目標環境中對策略的調整,提高了安全性。利用魯棒控制理論,我們可以保障底層追蹤控制器在存在擾動情況下的效果,更加有效地提高遷移框架的魯棒性。在實際的實驗中,我們用策略梯度(Policy Gradient)演算法PPO訓練駕駛策略完成車道保持、換道以及避障任務,在目標環境中,我們設計了基於Disturbance Observer (DOB)的控制器實現軌跡追蹤。我們在不同的模擬環境之間,取得了良好的策略遷移效果。在車輛模型引數有一定程度的隨機變化或是存在外加側向力的情況下,RL-RC方法可以在目標環境中保持訓練環境中的表現,順利完成指定任務。而原本的駕駛策略在目標環境中的表現有著顯著的下降。在之後的研究中,我們將嘗試把RL-RC方法應用在從模擬環境到真實車輛的策略遷移,用實車實驗進一步驗證遷移方法的可行性。同時,改進RL策略以及魯棒控制器,使得遷移過程更加安全可靠,實現更加複雜場景下的策略遷移。
RL-RC方法可以控制車輛在目標環境中實現與訓練時幾乎相同的行駛軌跡,而原本的RL策略在模型引數有變化或是存在擾動的情況下會失去穩定性,無法完成任務
(具體方法及更詳盡的分析請參考論文)
Zhuo Xu*, Chen Tang*, and M. Tomizuka, “Zero-shot Deep Reinforcement Learning Driving Policy Transfer for Autonomous Vehicles based on Robust Control”, in IEEE Intelligent Transportation System Conference (ITSC), Nov. 2018. Best paper finalist.
https://arxiv.org/abs/1812.03216