率先解決多類資料同時受損,中科大MIRA團隊TRACER入選NeurIPS 2024:強魯棒性的離線變分貝葉斯強化學習

机器之心發表於2024-11-16

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

本論文作者楊睿是中國科學技術大學 2019 級碩博連讀生,師從王傑教授、李斌教授,主要研究方向為強化學習、自動駕駛等。他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發表論文兩篇,曾獲滴滴精英實習生(16/1000+)。

近日,中科大王傑教授團隊 (MIRA Lab) 針對離線強化學習資料集存在多類資料損壞這一複雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法,有效地提升了智慧決策模型的魯棒性,為機器人控制、自動駕駛等領域的魯棒學習奠定了重要基礎。論文發表在 CCF-A 類人工智慧頂級會議 Neural Information Processing Systems(NeurIPS 2024)。

圖片

  • 論文地址:https://arxiv.org/abs/2411.00465
  • 程式碼地址:https://github.com/MIRALab-USTC/RL-TRACER

引言

在機器人控制領域,離線強化學習正逐漸成為提升智慧體決策和控制能力的關鍵技術。然而,在實際應用中,離線資料集常常由於感測器故障、惡意攻擊等原因而遭受不同程度的損壞。這些損壞可能表現為隨機噪聲、對抗攻擊或其他形式的資料擾動,影響資料集中的狀態、動作、獎勵和轉移動態等關鍵元素。經典離線強化學習演算法往往假設資料集是乾淨、完好無損的,因此在面對資料損壞時,機器學習到的策略通常趨向於損壞資料中的策略,進而導致機器在乾淨環境下的部署時效能顯著下降。

儘管研究者在魯棒離線強化學習領域已經取得了一些進展,如一些方法嘗試透過增強測試期間的魯棒性來緩解噪聲或對抗攻擊的影響,但它們大多在乾淨資料集上訓練智慧體模型,以防禦測試環境中可能出現的噪聲和攻擊,缺乏對訓練用離線資料集存在損壞的應對方案。而針對離線資料損壞的魯棒強化學習方法則只關注某一特定類別的資料存在損壞,如狀態資料、或轉移動態資料存在部分損壞,他們無法有效應對資料集中多個元素同時受損的複雜情況。

為了針對性地解決這些現有演算法的侷限性,我們提出了一種魯棒的變分貝葉斯推斷方法(TRACER),有效地增強了離線強化學習演算法在面臨各類資料損壞時的魯棒性。TRACER 的優勢如下所示:

1. 據我們所知,TRACER 首次將貝葉斯推斷引入到抗損壞的離線強化學習中。透過將所有離線資料作為觀測值,TRACER 捕捉了由各類損壞資料所導致的動作價值函式中的不確定性。

2. 透過引入基於熵的不確定性度量,TRACER 能夠區分損壞資料和乾淨資料,從而調控並減弱損壞資料對智慧體模型訓練的影響,以增強魯棒性。

3. 我們在機器人控制(MuJoCo)和自動駕駛(CARLA)模擬環境中進行了系統性地測試,驗證了 TRACER 在各類離線資料損壞、單類離線資料損壞的場景中均顯著提升了智慧體的魯棒性,超出了多個現有的 SOTA 方法。

1. 方法介紹

1.1 動機

考慮到(1)多種型別的損毀會向資料集的所有元素引入較高的不確定性,(2)每個元素與累積獎勵(即動作值、Q 值)之間存在明確的相關性關係(見圖 1 中的虛線),因此使用多種受損資料估計累積獎勵函式(即動作值函式)會引入很高的不確定性。

圖片

圖 1. 決策過程的機率圖模型。實線連線的節點表示資料集中的資料,而虛線連線的 Q 值(即動作值、累積回報)不屬於資料集。

為了處理這類由多種資料損毀(即狀態、動作、獎勵、狀態轉移資料受損)導致的高不確定性問題,基於圖 2 所示的機率圖模型,我們提出利用資料集中的所有元素作為觀測資料。我們旨在利用這些觀測資料與累積獎勵之間的高度相關性,來準確地識別動作值函式的不確定性。

1.2 基於受損資料的貝葉斯推斷

我們提出使用離線資料集的所有元素作為觀測值,利用資料之間的相關性同時解決不確定性問題。具體地,基於離線資料集中動作價值與四個元素(即狀態、動作、獎勵、下一狀態)之間的關係,我們分別使用各個元素作為觀測資料,透過引入變分貝葉斯推理框架,我們最大化動作值函式的後驗分佈,從而推匯出各個元素對應的基於最大化證據下界 (ELBO) 的損失函式。基於對動作價值函式的後驗分佈的擬合,我們能有效地將資料損壞建模為動作值函式中的不確定性。

1.3 基於熵的不確定性度量

為了進一步應對各類資料損壞帶來的挑戰,我們思考如何利用不確定性進一步增強魯棒性。鑑於我們的目標是提高在乾淨環境中的智慧體效能,我們提出減少損壞資料的影響,重點是使用乾淨資料來訓練智慧體。因此,我們提供了一個兩步計劃:(1)區分損壞資料和乾淨資料;(2)調控與損壞資料相關的損失,減少其影響,從而提升在乾淨環境中的表現。

對於(1),由於損壞資料通常會造成比干淨資料更高的不確定性和動作價值分佈熵,因此我們提出透過估計動作值分佈的熵,來量化損壞資料和乾淨資料引入的不確定性。

對於 (2),我們使用分佈熵指數的倒數來加權我們提出的 ELBO 損失函式。因此,在學習過程中,TRACER 能夠透過調控與損壞資料相關的損失來減弱其影響,並同時專注於最小化與乾淨資料相關的損失,以增強在乾淨環境中的魯棒性和效能。

1.4 演算法架構

圖片

圖 2. TRACER 演算法框架圖。

2. 實驗介紹

為了模擬資料受損的情形,我們對資料集的部分資料加入隨機噪聲或對抗攻擊來構建損壞資料。在我們的實驗中,我們對 30% 的單類資料進行損壞。因此,在所有型別的資料都有損壞時,整個離線資料集中,損壞資料佔約圖片的規模。

各類資料均受損

所有型別資料元素均存在損壞的部分實驗結果見表 1,TRACER 在所有控制環境中均獲得了較為明顯的效能提升,提升幅度達 + 21.1%,這一結果展現了 TRACER 對大規模、各類資料損壞的強魯棒性。

圖片

表 1. 離線資料集的所有型別元素均存在隨機損壞(random)或對抗損壞(advers)時,我們的方法 TRACER 在所有環境中都獲得了最高的平均得分。

單類資料受損

單種型別資料元素存在損壞的部分實驗結果見表 2 和表 3。在單類資料損壞中,TRACER 於 24 個實驗設定裡實現 16 組最優效能,可見 TRACER 面向小規模、單類資料損壞的問題也能有效地增強魯棒性。

圖片

表 2. 單類元素存在隨機損壞時,我們的方法 TRACER 在 8 個實驗設定中獲得了最高的平均得分。

圖片

表 3. 單類元素存在對抗損壞時,我們的方法 TRACER 在 8 個實驗設定中獲得了最高的平均得分。

相關文章