AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文標題:What Matters in Learning A Zero-Shot Sim-to-Real RL Policy for Quadrotor Control? A Comprehensive Study
論文連結:https://arxiv.org/abs/2412.11764
開原始碼及模型專案網站:https://sites.google.com/view/simpleflight
平滑軌跡:包括八字形和隨機多項式軌跡。八字形軌跡具有周期性,研究人員測試了三種速度:慢速 (15.0s 完成)、正常速度 (5.5s 完成) 和快速 (3.5s 完成)。隨機多項式軌跡由多個隨機生成的五次多項式段組成,每個段的持續時間在 1.00s 和 4.00s 之間隨機選擇。
不可行軌跡:包括五角星和隨機之字形軌跡。五角星軌跡要求無人機以恆定速度依次訪問五角星的五個頂點。研究人員測試了兩種速度:慢速 (0.5m/s) 和快速 (1.0m/s)。隨機之字形軌跡由多個隨機選擇的航點組成,航點的 x 和 y 座標在 -1m 和 1m 之間分佈,連續航點之間由直線連線,時間間隔在 1s 和 1.5s 之間隨機選擇。
採用與未來一段參考軌跡的相對位姿誤差、速度和旋轉矩陣作為策略網路的輸入,這使得策略可以進行長距離規劃,並更好地處理具有急轉彎的不可行軌跡。研究人員指出,在強化學習策略的學習中,採用旋轉矩陣而不是四元數作為輸入,更有利於神經網路的學習。
將時間向量新增到價值網路的輸入。無人機的控制任務通常是隨時間動態變化的,時間向量作為價值網路的額外輸入,增強了價值網路對時間資訊的感知,從而更準確地估計狀態值。
採用 CTBR 指令作為策略輸出動作,使用連續動作之間的差異的正則化作為平滑度獎勵。在無人機控制中,不平滑的動作輸出可能導致飛行過程中的不穩定,甚至出現震盪和意外偏離軌跡的情況。而現實中的無人機由於硬體特性和動態響應的限制,比模擬環境更容易受到這些不穩定動作的影響。研究人員比較了多種平滑度獎勵方案,結果表明使用連續動作之間的差異的正則化作為平滑度獎勵,可以獲得最佳的跟蹤效能,同時鼓勵策略輸出平滑的動作,避免在現實世界中產生不穩定的飛行行為。
使用系統辨識對關鍵動力學引數進行校準,並選擇性地應用域隨機化手段。研究人員透過系統辨識對關鍵動力學引數進行了精確校準,確保模擬模型能夠儘可能接近真實無人機的動力學特性。然而,研究也發現,域隨機化的應用需要極為謹慎。對於那些能夠透過系統辨識達到合理精度的引數,過度引入域隨機化可能會適得其反。這是因為不必要的隨機化會顯著增加強化學習的學習複雜度,導致效能下降。換句話說,域隨機化並非 「越多越好」,需要透過合理選擇哪些引數應用隨機化。
在訓練過程中使用較大的 batch size。在 SimpleFlight 的訓練過程中,研究人員特別關注了 batch size 對策略效能的影響。他們透過實驗發現,增大 batch size 儘管對模擬環境中的效能提升並不顯著,但在真實無人機上的表現卻得到了顯著改善。這表明,大 batch size 在縮小模擬與現實之間的 Sim2Real Gap 方面,扮演了關鍵角色。這種現象背後的原因可能與強化學習的泛化能力有關。在大 batch size 的訓練中,策略能夠在更廣泛的狀態分佈上進行學習,從而提升其應對真實環境中複雜情況的魯棒性。這種改進不僅幫助策略更好地適應現實世界中的不確定性,還減少了從模擬到現實部署時可能出現的效能退化問題。