張院士從技術演變的大趨勢引入,提出了 Real2Sim2Real 現實-模擬-現實 (RSR)的概念,並介紹了其在智慧機器人和自動駕駛這兩個領域的應用前景做了深入探討。
他首先介紹了清華大學智慧產業研究院(AIR),其使命是用人工智慧技術賦能產業推動社會進步,定位面向第四次工業革命的國際化、智慧化、產業化研究機構,AIR有三個戰略目標:一是培養技術領軍人才,具有國際視野的CTO和系統化思維的架構師,二是推動關鍵核心技術突破,三是打造產業影響力。
目前AIR已經有近200位教授,研究者和學生,1/3在從事自動駕駛和機器人相關的研究和產業化。科研人員中不僅僅有很深學術造詣的企業創新人才,也有很多產業背景的學術人才,並且和很多產業有了深度的合作。
基於未來的重大產業機遇和發展需要,AIR選擇了智慧交通(AI+Transportation)、智慧物聯(AI+IoT)、智慧醫療(AI+Life Science)三個重點研發方向。同時AIR還構建了兩個基礎研究平臺,分別是DISCOVER(協同視覺與機器人實驗室)和DAIR(大資料智慧實驗室),來整體支撐三大方向的研究。
IT技術的發展有三個大的趨勢,數字內容從1.0時代逐步邁入3.0時代;人工智慧從符號推理、深度學習,走向知識+資料驅動的3.0;產業從資訊化、網際網路+、走向智慧+3.0時代。
數字3.0時代是資訊智慧+物理智慧+生物智慧的時代。物理世界的數字化,我們也將其稱之為“網際網路的物理化”,即汽車、公路、交通、工廠、電網、機器,乃至所有移動裝置、家庭、城市都在數字化。資料指數增長,比如一輛無人車每天產生的資料量大約為5T,相比於資料主要提供給人員輔助決策的1.0和2.0時代,數字化3.0時期99%以上資料是M2M和機器決策。
生物世界的數字化,即我們的大腦、器官、DNA、蛋白質、細胞、分子…都在數字化。生物晶片、組學技術、和高通量實驗產生了天文級的資料。從虛擬、宏觀到微觀,整個數字資訊世界、物理世界和生物世界正在走向融合。
在智慧機器人和自動駕駛兩個領域,最大的特點就是研發成本特別高,而產業化產品速度又很低。比如在測試階段花費的錢就高達幾百億,無人駕駛又需要做大量的路測,所以產品化速度又非常慢。如何實現虛實對映,不管是模擬還是模擬,來降低研發成本,來實現快速迭代,這就是接下來要談的主要內容。
當下,全球市值超過萬億美金的企業如Alphabet、Tesla、Google、Amazon、Apple都在關注智慧機器人和無人駕駛這兩個產業。在過去5年左右甚至更長的時間裡,這兩個產業也是最活躍的VC投資方向,投資資金將近1000億美金。國內的科技巨頭企業如華為、小米、大疆等都在關注這兩個產業。
研發成本高在於迭代成本高。以周谷越教授提供的例子來講,對比左邊單網路模型的機器學習演算法,與右面展示的機器人從原型到量產的過程。以四旋翼的視覺導航機器人為例,在第一個原型機階段就有十倍的成本差距。後續的迭代階段,問題的複雜度與成本差距的數量級逐步上升。
強化學習是一種以目標為導向,在環境中採取行動,透過與環境互動累積經驗的學習方式,這也是人類最常用的學習、研發的方式。
學習過程包括首先建立一個智慧體,然後建立一個測試環境,定義一個獎勵函式,設計一個初始策略,不斷迭代然後提升策略。那麼問題就在於能否建立一個虛擬的環境,並在裡面快速迭代,將這些成果運用到現實世界,而Sim2Real技術的出現,將有機會實現降低迭代開發成本的效果。
近年來,深度學習讓Robot Learning帶來了跨越式發展,使得Sim2Real技術有了應用於真實世界的機會。因為一些領域的真實資料通常來說很難獲取,比如無人駕駛,而模擬技術就可以產生很多資料,這些虛擬資料就能助力模型的迭代。
第二個趨勢是將任務變得更復雜和通用。從某個指定機器人到某品類機器人再到跨品類機器人。在這其中有兩種不同的路徑,第一種是泛化,另外一種則是更深度,要解決具體問題。
因此,AIR提出了Real2Sim2Real (RSR)的新正規化 — 打造元空間和物理世界的閉環。
接著,張院士介紹了一些AIR的協同視覺與機器人實驗室(DISCOVER Lab)做的工作。
AI演算法是經過了一個組合的策略訓練,比如定位導航部分是有系統引數辨識來完成;控制部分是透過搜尋控制器的引數來完成的;抓取部分是透過強化學習完成的。可以說我們實現了全球首個機器人移動操作任務的RSR。
RSR首先要有場景的理解(Scene Understanding),然後需要理解系統,將目標放入虛擬空間之後再進行各種各樣的模擬和最佳化,經過資料驅動的部署之後再回到機器系統。
最重要第一步是Scene Understanding,不僅僅是瞭解幾何,還要了解語意。這個論文結果重點在於它可以產生更真實的資料去模擬物理現象。
相關的一個工作還有Scene Graph,將真實世界分解成許多不同的情況,例如開車時周圍移動的車,路邊停放的車或者物體,紅綠燈,不同的路面標識等。
機器首先要做的事就是理解場景。接下來這一篇AIR剛投稿的論文就解釋瞭如何把不同場景提取出來。其中的亮點在於定義了一個四元組匹配策略,基於佈局四元組定製的一個度量的一致性損失。另外也周谷越副教授團隊還提出了一個創新演算法,可以用到完全監督的設定中去。
其次,機器人還需要去理解操作物件。以下的這篇也是AIR剛投到CVPR的論文,主要在將如何僅僅使用重建目標的自監督時間關鍵點檢測器。
模型和真實世界需要完美匹配離不開部署。這裡提供了兩種方法去結合模擬資料和真實資料。一個是目前混合的離線-線上的強化學習,另外一個是透過Koopman Operator部署MPC策略。論文已分別在NeurIPS與Robotics and Automation Letters上發表。
接下來,是兩個在機器人上應用的案例。在人機互動方面,探索了四足仿生犬與輪式機器人在導盲領域的應用,透過量化的行為與心理指標,驗證了四足機器犬並非理想的導盲犬的替代品,這類研究在產品落地的過程中起到重要的作用,相關論文已投稿至ICRA。
在城市無人機的定位導航專案中,系統演算法被成功執行到真實機器人上,相關論文已投稿至CVPR。
此外,DISCOVER實驗室還建立了一個輪足機器人科研平臺,從ROS到Apllo的一個開源平臺。
在技術層面,作為自動駕駛安全的基礎,感知是首要關注的問題。計算機和人類一樣,需要在駕駛過程中動態地對周邊的三維場景進行時空建模。在不同的場景下,藉助不同模態的資料,演算法不僅要完成對於車輛、行人等目標的檢測,還需實現對於路標、交通訊號等語義的理解。
這是最近做的一個工作,自動駕駛的模擬中可以支援各種各樣的物件,包括人、機動車與非機動車、訊號燈以及各種道路狀況。
在Ost,Julian的這篇論文中,用演算法提取了場景和運動的車輛進行了模擬模擬,在模擬器中可以做各種各樣的測試,即使撞車也沒有關係,這是在真實世界中難以做到的,可以產生更多資料。
駕駛車輛需要一系列的感測器來共同完成感知任務,不同感測器各司其職:鐳射雷達可以直接採集距離資訊,實現三維環境匹配及盲點探測;視覺相機可以採集的色彩和外形等細節資訊,實現物體的快速辨認和車道識別;毫米波雷達則可以進行速度和距離的測量,發出碰撞預警並進行緊急制動。
理論上,多感測器的融合可以獲取到比人眼更多、更高維度的資料,可以感知到肉眼不可見的物體,這是現階段自動駕駛中唯一確定的機器可以超越人的環節,也是影響自動駕駛安全提升的決定性因素。使用單一的視覺感測器容易受到光照和天氣等因素影響,因此導致自動駕駛系統產生誤判的例子屢見不鮮。在自動駕駛夜間感知上,如果用純視覺如何將灰度的資訊和深度資訊結合起來。
用RSR來模擬車路協同評價體系,很重要的一點是我們不僅模擬了車、路燈,還模擬了人。無人駕駛最大的事故就是車撞倒人,在這個模擬中行人的行為也被放了進去。