隨著無車人技術的不斷進步,我們越來越能在路上見到各種進行路測的無車人。大量的人機互動在發生著。那麼怎樣才能實現更安全高效的人機互動呢?我們既不希望無車人太過魯莽,也不希望它過於保守,我們希望它能夠產生與人相似的行為,從而使得人機互動的過程更為順利。如何才能做到這一點呢?在本文中,我們將設計一種方法使得無車人可以像人一樣懂禮貌。
首先,容我先來介紹一下無人車的基本工作原理。通常,無人車透過Lidar、Radar、camera等感知系統來實時測量外部環境的狀態,並基於當前或者歷史狀態對其他道路參與者(行人及由人駕駛的車輛)的行為進行預測,然後按照我們(工程師們)設定的獎勵或者最佳化機制來規劃一條安全、高效且舒服的路徑。因此,無人車的行為決策取決於設定的獎勵/最佳化機制。過去,我們更多的關注無人車自身的安全、高效和舒適性(我們稱之為“自私型規劃”),而忽視了另外一個重要的因素:人類社會的規範和人類決策的非理性。自私型規劃忽視了無人車的行為對其他道路參與者的影響,從而容易產生不符合人類常識的行為決策,使得與其互動的其他道路參與者感到莫名其妙或者不舒服,進而作出一些不理性的行為。這一系列的結果都大大降低了自私型規劃的安全性。
因此,針對“自私型規劃”的各種問題,我們提出“禮貌型規劃”方案:無人車的獎勵/最佳化機制中不僅包含了自身的安全、高效和舒適性,而且考慮到無人車的行為決策對其他人造成的不便利。最終產生的路徑是兩者之間一個平衡的結果。這樣的方案使得無車人可以:
與激進的駕駛員互動過程中變得保守;
與保守的駕駛員互動過程中變得高效;
下面,本文將以三個問題的方式展開解釋“禮貌型規劃”。
1. 如何定義“不便利”?
2. “禮貌型”規劃有效果嗎?
3. “禮貌型”規劃真的符合真實的人類駕駛員的行為嗎?
1. 如何定義“不便利”?
為了定義“不便利”,我們引入了非理性經濟人的Prospect Theory模型。該模型指出,人類在做決策的時候並不是計算所有效能(utility)的絕對值,而是計算其相對於參考點(reference point )的相對值(framing effect):收益(gain)-損失(loss)。並且,損失的權重會比收益的權重更大。基於此,我們引入與無人車互動的人類駕駛員的兩種效能:
參考效能:考慮以下三種情況
o I -- 如果沒有無人車在場,人類駕駛員的最優效能
o II -- 如果無人車幫助人類駕駛員,人類駕駛員的最優效能
o III --如果無人車維持現有行為,人類駕駛員的最優效能
實際效能:無人車當前行為下,人類駕駛員的最優效能
因此,無車人當前的行為對人類駕駛員造成的“不便利”可以定義為其效能的降低:
不便利= max { 參考效能- 實際效能,0 }
無人車的“禮貌型規劃”的最佳化機制也因此變為:
C(禮貌) = C(自私)*W(自私) + 不便利*W(禮貌)
其中:C 代表無車人的成本最佳化函式。C(禮貌) 和 C(自私) 分別是“禮貌型”規劃和“自私型”規劃的成本函式,W(禮貌) 和 W(自私) 是調節“自私”和“禮貌”程度的係數。無人車將產生(區域性)最優的行為使得 C(禮貌) 達到(區域性)最小。
2. “禮貌型”規劃有效果嗎?
以下所有圖中,灰色代表“自私型”無人車,橘色代表“禮貌型”無人車,藍色代表人類駕駛員。
a. 場景一:並道
圖1
圖2
可見,隨著無人車越來越禮貌( W(禮貌) 從左向右變大),它並道時留給人類駕駛員的空間越來越大,甚至主動從後面完成並道(圖2b)。
b. 場景二:左轉
圖3
對比“自私型”無人車(圖3a),“禮貌型”無人車在左轉時主動禮讓直行車。
c. 場景三:T型路口右轉
圖4
在圖4中,我們評價不同的參考效能對“禮貌型無人車行為的影響。(a) 使用參考效能III,無人車儘快穿過路口使得人類駕駛員可以完成右轉 (b) 使用參考效能I/II,無人車減速讓人類駕駛員先行透過。
3. “禮貌型”規劃真的符合真實的人類駕駛員的行為嗎?
為了證明“禮貌型“規劃真的符合人類駕駛員的行為,我們引入Inverse Reinforcement Learning (IRL),並基於NGSIM的資料集設計了兩組實驗:
a. 使用IRL學習“自私型“規劃的成本函式引數;
b. 使用IRL學習“禮貌型“規劃的成本函式引數;
結果如下:
結果分析:
從學習結果看,我們發現“禮貌型”規劃能夠更好的解釋資料集中人類駕駛員的行為。這說明,人類駕駛員也在遵守“禮貌型”規劃的基本策略。
參考文獻:Liting Sun, Wei Zhan, Masayoshi Tomizuka, Anca D. Dragan, “Courteous Autonomous Cars”, to appear IROS 2018, https://arxiv.org/abs/1808.02633.