微軟研究團隊使用遷移學習,訓練現實世界中的無人機

AIBigbull2050發表於2020-03-29
2020-03-26 16:59:11

感知 - 行動迴圈是我們日常生活活動的核心。潛意識裡,我們的大腦使用感官輸入來實時觸發特定的運動動作,這變成了一種持續的活動,從體育運動到看電視的各種活動都是如此。在人工智慧中,感知 - 動作迴圈是自動駕駛車輛等自動系統的基石。雖然模仿學習或強化學習等學科在這一領域確實取得了進展,但目前的自主系統在直接根據視覺資料做出決定方面仍遠遠不能與人類技能相提並論。最近,微軟的人工智慧研究人員發表了一篇論文,提出了一種遷移學習方法,從模擬環境中學習感知 - 行動策略,並將這些知識應用到自主無人機的飛行中。

微軟研究團隊使用遷移學習,訓練現實世界中的無人機

學習根據感官輸入來判斷採取哪種行動的主要挑戰來自實踐操作,而非理論。近年來,強化學習和模仿學習等方法在這一領域顯示出了巨大的潛力,但它們面對著真實世界中大量難以收集的資料時仍然無計可施。另一方面,模擬資料很容易生成,但通常無法在多樣化的真實場景中提供安全行為。能夠在模擬環境中學習策略並將知識外推到真實世界環境中,仍然是自主系統的主要挑戰之一。為了推進這一領域的研究,人工智慧社群為現實世界的自主系統建立了許多基準。其中最具挑戰性的是第一人稱視角的無人機比賽。

微軟研究團隊使用遷移學習,訓練現實世界中的無人機

FPV 挑戰

在第一人稱視角(FPV)完成的比賽中,專業的飛行員能夠在不影響安全的情況下,使用可能有噪聲的單目攝像機輸入,以高度敏捷的方式規劃和控制四旋翼。微軟的研究團隊試圖建立一個自主代理,可以控制 FPV 比賽中的無人機。

從深度學習的角度來看,導航任務最大的挑戰之一是輸入影像資料的高維性和劇烈變化。要成功地解決這一任務需要一種不受視覺表象影響、對模擬和現實之間的差異具有魯棒性的表現形式。從這個角度來看,可以在 FPV 比賽等環境中執行的自主代理,需要在模擬資料中進行訓練,這些模擬資料能夠學習可以在現實環境中使用的策略。

很多研究試圖解決類似 FPV 比賽這樣的挑戰,都主要是在無人機上增加各種感測器,幫助模擬周圍環境。相反,受人類大腦功能的啟發,微軟研究團隊的目標是創造一種計算結構,將視覺資訊直接對映到正確的控制動作。為了證明這一點,微軟研究團隊使用了一個非常基礎的四旋翼,帶有一個前置攝像頭。所有的處理都完全是藉助 Nvidia TX2 計算機在板上完成的,該計算機有 6 個 CPU 核心和一個整合 GPU。一個現成的 Intel T265 跟蹤攝像機提供里程測量,影像處理使用 Tensorflow 框架。影像感測器是一個具有 830 水平 FOV 的 USB 相機,我們將原始影像縮小到 128 x 72 的尺寸。

微軟研究團隊使用遷移學習,訓練現實世界中的無人機

代理

微軟研究團隊的目標是在模擬環境中訓練一個自主代理,並將學習到的策略應用到現實世界的 FPV 比賽中。對於模擬資料,微軟研究團隊依賴於 AirSim,這是一款針對無人機、汽車和其他交通工具的高保真模擬器。在訓練階段使用 AirSim 生成的資料,然後在真實世界中不做任何修改地部署所學習的策略。

為了彌補模擬與現實之間的差距,微軟研究團隊採用了跨模式學習,既使用帶標籤的和不帶標籤的模擬資料,同時還使用真實世界的資料集。其思想是在高維模擬資料中進行訓練,並學習在真實場景中可以有效使用的低維策略表示。為了實現這一目標,微軟研究團隊利用了跨模態變分自動編碼器(CM-VAE)框架,該框架為每個資料模態使用一個編碼 - 解碼器對,同時將所有輸入和輸出限制在一個隱空間內。該方法能將標記的和未標記的資料模態合併到潛變數的訓練過程中。

將此技術應用於 FPV 環境需要不同的資料模態。第一種資料模態考慮了原始未標記的感測器輸入(FPV 影像),而第二種資料模態描述了與當前任務直接相關的狀態資訊。在無人機競賽中,第二模態與無人機座標系中的下一個門的相對位姿相對應,每個資料模態由一個編碼器 - 解碼器對通過使用能夠學習低維策略的 CM-VAE 框架進行處理。

自主 FPV 比賽代理的架構由兩個主要步驟組成。第一步的目標是學習一個潛在態表示,而第二步的目標是學習一個控制策略操作這個潛在表示。第一個元件或控制系統體系結構接收單眼攝像機影像作為輸入,並將下一可見門的相對位姿連同背景特徵編碼為低維潛在表示。然後,這個潛在表示被送入一個控制網路,後者會輸出一個速度命令,稍後被無人機的飛行控制器轉換成 Actuator 命令。

微軟研究團隊使用遷移學習,訓練現實世界中的無人機

降維是微軟研究方法的一個重要組成部分。在 FPV 比賽中,有效的降維技術應該是平滑的、連續的、一致的,並且對模擬影像和真實影像中視覺資訊的差異具有魯棒性。為了實現這一目標,該架構採用了 CM-VAE 方法,將每個資料樣本編碼到單個隱空間中,這些隱空間可以被解碼成影像,或者轉換成另一種資料形式,例如門相對於無人機的位姿。

結果架構能夠將基於 27468 個變數的高維表示簡化為最基本的 10 個變數。儘管只使用了 10 個變數來編碼影像,解碼後的影像仍然提供了豐富的描述,無人機可以看到前方,包括所有可能的門的大小和位置,以及不同的背景資訊。

微軟研究團隊使用遷移學習,訓練現實世界中的無人機

微軟研究團隊在各種 FPV 比賽環境中測試了這款自動駕駛無人機,包括一些具有極端視覺挑戰條件的環境:室內(藍色地板上的紅色條紋與門上的相同)以及大雪天。

結語

儘管微軟研究團隊的工作是專門針對 FPV 比賽場景的,但這些原則也可以應用於許多其他感知 - 動作場景。這種型別的技術可以幫助加速自主代理的開發,這些代理可以在模擬環境中進行訓練。為了激勵這項研究,微軟在 GitHub 上開源了 FPV 代理的程式碼。

https://www.toutiao.com/i6808438644345405964/







來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2683184/,如需轉載,請註明出處,否則將追究法律責任。

相關文章