「它經常會在不合適的時機進行變道,但如果你想撥一把方向盤救個急,它還會和你較勁,非常危險」,「整個過程就像看著自己孩子開車一樣,乾著急還提心吊膽,搞得壓力很大」……
這裡的「它」正是特斯拉 Autopilot 。之前美國《消費者報告》(Consumer Reports)曾報導稱,更新後的 Autopilot 具備了自動變道的功能,車主可以選擇在變道時不進行任何提醒,完全交由機器來抉擇。但試駕編輯們在體驗後卻紛紛吐槽了它。
特斯拉 Autopilot 一直以來都爭議不斷。一邊說它是新手們的福音,杜絕事故的好幫手,另一邊卻有人抨擊它是事故的罪魁禍首。這套系統帶來使用者體驗升級的同時也因為頻發的安全事故而備受關注。
不可否認的是,特斯拉 Autopilot 讓大家有機會一窺自動駕駛的未來,儘管它離真正意義上的「自動駕駛」還很遠。畢竟軟硬體的侷限導致它最多隻能實現 L2 級自動駕駛的能力,而這個階段中「人」依然是主體,需要機器和人相互配合完成,所以這些關於 Autopilot 的爭議全部都可以歸屬於典型的「人機共駕」問題。
開啟了「Navigate on Autopilot」功能的特斯拉車型能夠實現自主變道 | Teslarati
在「完全自動駕駛」這個純技術的難題還未普及實現之前,「人機共駕」問題是所有汽車企業、自動駕駛企業都需要突破解決的另一道難題。
這道難題的核心是「人」這個不確定因素。按照控制權的劃分,「人機共駕」又可分為「雙駕單控」和「雙駕雙控」兩種模式。前者關注的是駕駛權的交接和人車在主駕、副駕時的問題;而後者關乎駕駛自信,在人車都有控制權的情況下,該相信哪方多一點。
所以要建立一套高效、體驗舒適、安全的自動駕駛系統是及其複雜的。原因很簡單,機器是必須要和人進行互動的。而且這個互動的過程不光牽扯到機器人學科,還囊括了機器學習、心理學、經濟學及政策等領域的問題。同時它也對我們已有的認知和假設形成了挑戰:到底人類的表現能有多糟?人工智慧又會是多麼強大的存在?
MIT 進行的「人機共駕」研究,右上角為試驗車輛「Black Betty」| MIT
MIT 之前曾進行過一項關於「人機共駕」的課題研究,從設計和開發「以人為中心」自動駕駛系統的角度出發,提出了七大原則。這些指導原則中並沒有把人類本質的複雜性剔除掉,而是將其融合到了整套系統中。這也恰恰是這套課題研究的精髓所在。
實驗成果的展示我們可以在一輛叫做「Black Betty」的無人車上看到。它只搭載了攝像頭,主要通過機器學習的方式進行外部環境感知,規劃決策,駕駛員監控,語音識別、聚合以及管理人機雙向操控的無縫切換(語音控制),方向盤上安裝了扭矩感測器。通過下面的視訊,大家可以看到這輛無人車的具體表現:https://www.youtube.com/watch?v=OoC8oH0CLGc
在過去的十幾年裡,汽車自動駕駛的能力在逐步提升,迫使政策制定者以及行業安全研究人員開始思考如何為「自動駕駛」定級的問題,目的是藉此為相關法律、標準、工程設計甚至是業界交流提供可參考的框架。目前行業內普遍採納的是美國汽車工程學會 SAE 制定的分級標準,它將自動駕駛分為 L0 到 L5 共六個等級。不過 SAE 對每個級別的定義其實是很模糊的,並不能給出清晰、明確的區別,所以它似乎已經不太適合作為引發行業思考的「磚」了,更像是汽車系統設計開發的一套指導原則。
目前業界對自動駕駛汽車有如下三種普遍的觀點:1. 駕駛任務很簡單;2. 人類不擅長開車;3. 人類和機器無法做到良好的配合。相較這些觀點而言,MIT 的研究則完全朝著相反的方向進行:1. 開車這件事實際上很難;2. 人類是非常棒的駕駛員;3. 讓人和智慧機器實現高效協作是能夠實現的,而且是很有價值的目標。
基於這樣的前提和假設,MIT 提出了「以人為中心」的框架並將其應用至人機共駕系統的開發過程中,在執行具體的駕駛任務時將人類與機器的邊界完全去掉。與此同時,MIT 還提出了針對人機共駕的「七原則」,討論了在設計、開發、測試「Black Betty」的過程中如何應用這些原則。
一、人機共駕(Shared Autonomy)
MIT 認為自動駕駛應該分為兩個等級:一、人機共駕(Shared Autonomy);二、全自動駕駛(Full Autonomy)。這樣的分類方式不僅能夠提供有建設性的指導方針,新增必要的限制條件同時還可以對要實現的目標進行量化設定。甚至,對每個類別下要實現的功能、對應的技術需求以及可能遇到的問題都可以劃分出來。
這個原則的核心在於對「人類駕駛員在環」的討論。為了實現對車輛的有效控制,人和機器組成的團隊必須共同保持對外部環境有充分的感知。目標是促使整個行業對「人機共駕」和「全自動駕駛」進行清晰地劃分。
表 I 「人機共駕」和「全自動駕駛」這兩種路徑中涉及的技術,包括用於大規模量產時對每項技術表現的等級要求 | MIT
需要指出的是,表 I 中的術語「Good」和「Exceptional」用來表示解決 1% 極端案例的優先順序順序。遠端操控、V2X 和 V2I 等並非必須的技術,如果要使用的話需要達到特殊的能力要求。
在實現高等級自動駕駛的方法上,傳統思路全程都跳過了對「人」這個因素的考慮,精力主要集中在對地圖、感知、規劃以及表 I 中「全自動駕駛」一欄標註為「exceptional」的技術上。實際來看,考慮到目前的硬體和演算法能力,這種解決方案對高精度地圖、感測器套件的魯棒性要求很高,提供的是較為保守的駕駛策略。
而正如表 I 所述,「以人為中心」的自動駕駛汽車著眼點主要在司機身上。負責控制車輛的依然是人,但前提是要對人的狀態、駕駛方式及之前的人機合作經驗做充分的考量,同時把車輛的轉向、加減速等交由人工智慧系統負責。以特斯拉的 Autopilot 為例,之前 MIT 的研究顯示,測試中有超過 30% 的行程都是由這套 L2 級駕駛輔助系統控制完成的。而如果人機共駕應用成功的話,應該能實現超過 50% 的機器控制率。在這次實驗中,MIT 表示無人車系統在接管過程中呈現出了不同程度的能力,而人類駕駛員始終在密切關注著機器的動態,根據感知系統獲得的資訊及時預測可能發生的危險。
二、從資料中學習(Learn from Data)
從表 I 不難發現,這其中涉及的任何一項車輛技術都是資料驅動的,需要蒐集大量的邊緣案例資料,利用這些資料持續不斷地優化演算法。這個學習過程的目的應該是,通過大量資料實現從傳統的模組化監督學習向端到端半監督式和無監督學習過渡。
要實現車輛的自動駕駛,傳統的方法,不管是哪個級別,幾乎都不會大量的應用機器學習技術。除了在一些特殊的線下場景,比如 Mobileye 的視覺感知系統要進行車道線識別,或者是通用 Super Cruise 搭載的紅外攝像頭要對駕駛員頭部動作進行預測等。
特斯拉的 Autopilot 可能要比其他方案更進一步,在開發針對第二代硬體平臺 HW 2.0 的軟體演算法時,在視覺感知上應用了越來越多監督機器學習的原理。但即便如此,對車輛的絕大部分控制以及對駕駛員狀態監測的實現中,並沒有利用大資料驅動的方式,也幾乎不涉及線上學習的過程。
而在目前業界進行的一些全自動駕駛技術的路測中,機器學習主要應用於環境感知這一環節。更甚的是,這些車輛採集到的資料,無論是從量還是多樣性來看,和具備 L2 級自動駕駛能力的車型相比,遜色不少。
特斯拉 Autopilot 對目標物、車道線的檢測主要依賴機器學習演算法進行 | Electrek
MIT 認為,「L2 級自動駕駛系統中機器學習框架使用的資料,從規模和豐富性的角度來看都具有足夠的擴充套件能力,可以覆蓋多變的、具有代表性、挑戰性的邊緣案例。」人機共駕(Shared Autonomy)要求同時蒐集人和車輛的感知資料,挖掘分析後用於監督學習的標註。在 MIT 的實驗過程中,駕駛場景感知、路徑規劃、駕駛員監控、語音識別以及語音聚合都應用了深度神經網路模型,可以通過蒐集到的大量駕駛體驗資料進行持續性的調校和優化。
在進行資料採集時,MIT 表示並不會只侷限於單一的感測器來源,而是對整個駕駛體驗通盤考慮,並將所有的感測器資料流通過實時時鐘(real-time clock)彙總、聚合,用於多個神經網路模型的標註。這種方式能夠讓駕駛場景與駕駛員狀態能夠很好地匹配起來,而在聚合的感測器資料流進行標註工作,使模組化的監督學習可以在資料規模允許時輕鬆地向端到端學習過渡。
三、監督人類(Human Sensing)
這個其實就是我們俗稱的「駕駛員監控」。它指的是對駕駛員的整體心理以及功能特徵,包括分心、疲憊、注意力分配和容量、認知負荷、情緒狀態等的不同程度進行多維度的衡量和評估。
目前除了通用 Super Cruise 在方向盤上裝有一枚紅外攝像頭外,不管是搭載了 ADAS 駕駛輔助系統的量產車型,還是在路測的全自動駕駛汽車,絕大部分都沒有提供任何有關駕駛員監控的軟體和硬體。特斯拉 Model 3 其實也裝了一枚車內攝像頭,但目前尚未啟用,具體功用官方表示要等軟體更新後才知道。而基於視覺的解決方案以外,市面上還包括一些準確率不高的方式。比如特斯拉在方向盤上安裝了扭矩感測器,也有的公司利用監測方向盤是否發生倒轉的方式推斷駕駛員是否出現疲勞情況。
全新一代凱迪拉克 CT6 搭載的駕駛員監控系統由 Seeing Machines 提供 | 官方供圖
MIT 認為「對駕駛員狀態的感知和監控是實現高效人機共駕的的第一步,同時也是最關鍵的一步。」在過去的二十多年裡,來自機器視覺、訊號處理、機器人等領域的專家都進行過相關課題的研究,目的都是在探討如何儘可能保證駕乘人員的安全。此外,對駕駛員狀態的監測對如何改善和提升人機互動介面、高階駕駛輔助系統 ADAS 的設計都有很大幫助。隨著汽車智慧程度的不斷提高,如何準確、實時地探測到駕駛員的各種行為對打造安全的個性化出行體驗尤為重要。
比較有意思的一點是,從完全的手動駕駛到全自動駕駛,這其中涉及到不同模式切換的問題。一般來說雙手脫離方向盤(handoff)就是一種訊號,可能表示系統要做好接管的準備了,但還有什麼其他更準確的資訊可以用來判斷,可能這也是「駕駛員監控」的研究人員需要持續思考的地方。
四、共享的感知控制(Shared Preception-Control)
通俗點來說,這相當於為整個自動駕駛系統增加了「一雙眼睛和手」。目的是建立額外的感知、控制和路線規劃機制。即便在高度自動駕駛系統執行狀態下,也要及時地為駕駛員推送資訊,將其納入到整個駕駛過程中。
研究全自動駕駛的目的就是為了完美地解決「感知-控制」的問題,考慮到人類的不靠譜和行為的不可測性。所以傳統觀點認為最簡單的辦法就是把人從開車這件事上排除掉,像十幾年前在 DARPA 挑戰賽中獲勝的隊伍一樣。
但和傳統解決思路相反的是,MIT 提出的「以人為中心」的理論將人置於感知和決策規劃閉環中的關鍵位置。因此,整車感知系統就變成了支援性的角色,為人類駕駛員提供外部環境資訊,這其實也是為了解決機器視覺本身存在的侷限性而考慮的。
表 II MIT「以人為中心」自動駕駛系統執行的感知任務,包括對駕駛員面部表情、動作以及可駕駛區域、車道線以及場景內物體的檢測 | MIT
在 MIT 的研究中,工作人員圍繞這個原則設計了幾條關鍵的演算法。表 II 是其中幾個典型的案例。首先,從視覺上可以看到神經網路做出的判斷、道路分割的區域以及對駕駛場景狀態的預估的可信程度;其次,將所有的感知資料整合並輸出融合式的決策建議,這樣在表 IV 的場景下就能夠對整體風險進行預估;再次,MIT 一直使用的是模仿學習:將人類駕駛員操控車輛時方向盤的動作作為訓練資料,進一步優化端到端的深度神經網路;最後,MIT 使用的端到端的神經網路屬於一個叫做「arguing machines(爭論機器)」框架的一部分,它為主要的感知-控制系統(表 III)提供了來自人類的監督。
這裡的「爭論機器框架」是 MIT 2018年提出的一個概念,詳細技術細節可點選(http://1t.click/DAK)檢視。它將主要 AI 系統與經過獨立訓練以執行相同任務的次要 AI 系統配對。 該框架表明,在沒有任何基礎系統設計或操作知識的情況下,兩個系統之間的分歧足以在人工監督分歧的情況下提高整體決策管道的準確性。
表 III 對「爭論機器」框架在「Black Betty」自動駕駛測試車上的應用和評估 | MIT
表 IV 通過結合車內外感知系統資料得出的融合型決策能夠充分預估可能發生的風險 | MIT
五、深度定製化(Deep Personalization)
這裡涉及到一個「將人類融入到機器中」的概念。通過調整 AI 系統的引數,使其能夠更適合人類操作並呈現出一定程度的定製化。最終的系統應該帶有該駕駛員的行為特徵,而不是像剛出廠時的普通配置一樣。
六、不迴避設計缺陷(Imperfect by Design)
對整個汽車工業而言,處於很多原因的考慮,進行工程設計時通常考慮最多的是「安全」,所以要儘可能地講系統錯誤出現的頻率和程度降至最低。換句話說,對自動駕駛而言,完美是目標,這也導致了在進行某些功能設計時,可能會因其「不完美」和「不確定」的性質而放棄這些可能是「必要」的設計。
但是在 MIT 的研究看來,豐富、高效的溝通機制在設計用於實現「人機共駕」的人工智慧系統時,是非常必要的因素。就「溝通」而言,系統存在的不完美對人和機器而言,在進行感知模型的交換和融合過程中,能夠提供密集、多樣的資訊內容。如果將 AI 系統的不確定性、侷限性和錯誤都隱藏起來,這也就錯失了與人建立信任、深度理解關係的機會。MIT 認為,此前業界在設計半自動駕駛系統時所採取的「完美」思路,可能是迄今為止所犯的嚴重錯誤之一。
而在開發「Black Betty」這輛無人車時,MIT 把人工智慧系統的侷限性通過文字和視覺的形式與人類進行充分溝通。例如將人類和機器對外部世界的感知視覺化,讓駕駛員知曉 AI 系統的侷限所在。研究人員表示這種方式相比只是提供「報警」或者「模糊的訊號」,是最簡潔有效的人機溝通方式。儘管這種溝通機制要實現還面臨一些技術上的難題,比如視覺化的過程通常對晶片的算力和實時呼叫的能力要求很高。但值得機器人、自動化以及人機互動等領域共同關注並思考解決的辦法。
七、系統級的駕駛體驗(System-Level Experience)
目前,汽車工業的工程設計過程中,一個最主要的目標就是「安全」。另一個則是「降低成本」。第二個目標導向的是模組化、基於零部件的設計思考。但同樣的模式在面向機器人、計算機視覺、機器學習等領域的人工智慧系統設計中卻有著迥異的理由。
譬如在設計中重視單一功能(目標物檢測等)的實現,能夠有效測試該演算法的合理性並逐步使之得到改善和優化。但是這個過程也難免會把注意力過渡集中在單一功能而忽略了系統的整體體驗。
在過去的幾十年裡,「系統工程」、「系統思考」這樣的原則一直在指導著汽車工業產品的輸出。然後,類似的思考卻幾乎沒有應用在自動駕駛汽車的設計、測試和評估過程中。正如 MIT 上面提到的這六大原則,人和機器都不可避免會有缺陷,只有當「人機共駕」這個框架在系統層面上得到考慮時,這些缺陷才可能有機會成為優勢。
對「人機共駕」的永恆討論
不管短期還是長期來看,其實很難預測自動駕駛的哪條實現路徑最終會成功,而且退一萬步說,你甚至都不知道什麼樣的結果算得上是「成功」。在談到研究目的時,MIT 希望一套自動駕駛系統能夠同時滿足「安全」、「愉悅的駕駛體驗」和「提升的出行體驗」這三個要求,而不是彼此妥善折中。而儘管「人機共駕」這個話題在過去的十年裡,是包括汽車工業、機器人在內很多領域研究的焦點,但它仍值得更深入的探討。
在今年四月份的上海國際車展上,Tier 1 供應商採埃孚聯合英偉達推出了coPILOT 智慧高階駕駛輔助系統。這是一套定位「L2+級」 的自動駕駛輔助系統,目的是提高乘用車的安全性和駕駛舒適性。從產品名稱不難看出,這套系統同樣強調了「人機共駕」的概念。它配備了相應的感測器和功能,能夠監控駕駛員並在發生潛在危險情況時觸發警告。例如,當發生駕駛員注意力不集中、幾乎完全未將注意力放在路面交通上或顯示出瞌睡跡象等。所以人工智慧扮演了「私人駕駛助手」的角色,這個產品理念與 MIT 的研究不謀而合。
到底完美解決駕駛任務比完美管理人類的信任和注意力哪個更難?這是值得深思熟慮的問題。MIT 認為關於這個問題的討論仍不會停止,不管是這篇論文還是「Black Betty」這臺無人測試車,都是基於「人機共駕」研究的成果,MIT 認為它是開發「以人為中心」自動駕駛系統的必由之路。
來自:TopMove