用慢思考提升模型安全性,北交大、鵬城實驗室提出系統2對齊

机器之心發表於2025-01-23
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

團隊介紹:北京交通大學 ADaM 團隊此前釋出了相關的 o1 復現專案 o1-Coder(https://github.com/ADaM-BJTU/O1-CODER)和首個強化微調開源技術方案 OpenRFT(https://github.com/ADaM-BJTU/OpenRFT)。

OpenAI 在 “雙十二” 釋出會的最後一天公開了 o 系列背後的對齊方法 - deliberative alignment,展示了透過系統 2 的慢思考能力提升模型安全性的可行性。在此之前,ADaM 團隊提出了類似的 “系統 2 對齊” 概念,探索了透過提示工程、監督微調、DPO、RL (結果獎勵) 和 RL (過程獎勵) 實現系統 2 對齊的技術路徑。研究發現:系統 2 對齊可以同時有效提升傳統的系統 1 模型的安全性。

系統 2 對齊:透過引導或監督的方式使模型對齊。這種方式鼓勵有意的、分析性的推理,以確保模型能夠全面評估輸入內容,考慮潛在的風險和錯誤,並解決其中的偏差或缺陷。

用培養孩子來類比的話,系統 1 對齊是直接命令孩子遵守規則(Command),系統 2 對齊則透過引導來培養孩子自主批思考和做出合理決策的能力(Cultivate)。
圖片
  • 技術報告:Don't Command, Cultivate: An Exploratory Study of System-2 Alignment
  • 報告地址:https://arxiv.org/abs/2411.17075
  • 專案地址:https://github.com/ADaM-BJTU/System-2-alignment

1.o1 應對複雜越獄攻擊的能力分析

團隊首先在對抗越獄攻擊 WildJailbreak(https://huggingface.co/datasets/allenai/wildjailbreak)和數學編碼越獄攻擊 MathPrompt(https://arxiv.org/pdf/2411.17075)兩個場景分析了 o1 的安全對齊能力。

有如下發現:

(1)o1 模型在處理使用者請求時,考慮安全指南有助於提升安全性(見圖 1)。但推理過程中,o1 模型偶爾邏輯混亂,安全機制可被繞過(見圖 2)。若出現針對推理鏈的攻擊,將帶來新安全挑戰,故確保推理的安全與穩健至關重要。
圖片
圖 1:o1 模型複雜越獄攻擊的樣例
圖片
圖 2:o1 模型被對抗有害樣本攻擊成功例項

(2) o1 模型並非對所有請求啟動安全推理模式,如圖 3 所示,其錯誤拒絕了良性請求。若增加推理,模型或許能給出安全且有用回應。
圖片
圖 3:o1 模型過度拒絕對抗良性樣本例項

2. 系統 2 對齊

團隊透過提示工程、監督微調、DPO、RL 等方法對系統 2 對齊方法進行探索。實驗資料來源於 WildJailbreak。該資料集的測試集中包含了對抗有害和對抗良性兩種資料型別,其定義如下:對抗有害:指透過更復雜和隱秘的方式傳遞有害請求。對抗良性:指看似是繞過技術但實際上不含有害意圖的對抗性請求。

研究透過評估 “not_unsafe” 和 “not_overrefuse” 兩個指標分析模型在應對以上兩種樣本的表現。

方法 1:提示工程:

透過在推理過程中使用提示工程來實現系統 2 對齊,涉及零樣本(zero-shot)和少樣本(few-shot)的思維鏈(Chain-of-Thought, CoT)提示方法。對於零樣本 CoT,評估了樸素設定(naive)以及增強的安全警示設定(safe)。對於少樣本 CoT 提示,從訓練集中隨機選擇了一個對抗性良性示例和一個對抗性有害示例。使用 GPT-4o 生成了正確答案及詳細的推理過程,作為上下文中的示例來引導模型的響應。

實驗結果揭示了在測試的模型中,提高模型安全性通常以增加過度拒絕率為代價。在試圖平衡這兩個指標時,Mistral-7B 和 Qwen-7B 模型在少樣本 CoT 提示方法下表現最佳。另一方面,當未應用 System-2 對齊提示時,Llama3-8B 模型表現出最強的整體效能。這些結果表明,不同的模型可能需要量身定製的提示工程方法,包括對提示措辭或上下文示例的仔細調整。這種差異性為使用者帶來了額外的複雜性,可能增加有效部署這些模型的難度。
圖片
表 1:基於提示工程的系統 2 對齊實驗結果

方法 2:監督微調(SFT)

基於監督微調的系統 2 對齊的關鍵是獲取帶有思考過程的監督微調資料。思路是利用人類書寫的安全規範作為指導從 GPT-4o 蒸餾出帶有思考過程的回覆。首先,依據現有工作對安全類別的分類和定義,使用 GPT-4o 標註 WildJailbreak 提供的訓練集的安全類別。接著,選定六類資料人工書寫安全規範。這些規範主要包括安全定義、使用者請求分類和響應風格指南。最後,基於這些安全規範,從 GPT-4o 中蒸餾了帶有推理步驟的響應,並要求 GPT-4o 在分析的最後一步對使用者請求進行分類,例如表 2 中用紅色標註的部分。這不僅提高了資料質量,還有助於篩選出生成的資料。最後,篩選符合以下條件的資料:

  • 普通良性請求(vanilla benign) 對應 “允許”(Allowed),
  • 對抗良性請求(adversarial benign) 對應 “安全完成”(Safe Completion),
  • 所有有害資料(harmful data) 對應 “不允許”(Disallowed)。
圖片
表 2:GPT-4o 蒸餾帶有思維鏈的資料樣例
圖片
表 3:基於監督微調的系統 2 對齊實驗結果

表 3 展示了監督微調的實驗結果,說明透過引入安全相關的慢思考可以提高模型的安全性。特別是 Llama3-8B,在兩個指標上都表現出平衡且卓越的效能。

方法 3:直接偏好最佳化(DPO)

DPO 演算法可以直接利用偏好資料而無需依賴獎勵模型,那麼第一步是基於 SFT 模型合成帶有思維構建偏好資料。具體而言,使用 Llama3-8B-SFT 模型進行實驗,並從 SFT 資料中取樣提示 n 次(在實驗中,n=16)。接下來,需要從取樣的響應中構建偏好對。為簡單起見,對於良性提示,認為屬於 “允許” 或 “安全完成” 型別的模型響應是正樣本,而 “不允許” 型別的響應被視為負樣本。相反,對於有害提示,認為 “不允許” 型別的響應是正樣本,而其他型別的響應認為是負樣本。對於每個提示,僅保留一對偏好資料。最後,平衡良性和有害資料的數量,共生成了 738 個訓練樣本。需要注意的是,透過 16 次取樣,仍有相當一部分提示無法生成正負樣本對,因此這些提示未被使用。
圖片
表 4:基於直接偏好最佳化的系統 2 對齊實驗結果

實驗結果如表 4 所示。可以看到,DPO 在整體效能上略有提升,主要體現在安全性指標上有了顯著的提高,但這導致模型對一些良性使用者請求表現出過度拒絕的行為,儘管訓練資料中有害和良性的資料分佈是平衡的。

方法 4:基於結果監督的強化學習

(1)訓練結果獎勵模型:獎勵模型的輸入由提示(prompt)和響應中最終答案欄位(final answer)的內容組成,而不包括完整的推理過程。基於模型的自取樣方法收集偏好資料(與 DPO 中提到的方法類似),不同在於,對於每個提示會取樣多對樣本。總共收集了 4,182 對偏好資料樣本,並將資料集按照 9:1 的比例進行劃分。獎勵模型在 Llama3-8B 模型上訓練,最終在測試集上的表現達到 0.978。(2)在強化學習階段,使用 PPO(近端策略最佳化)方法對策略模型進行最佳化,資料集與 DPO 實驗中使用的資料集相同。
圖片
表 5:基於結果監督強化學習的系統 2 對齊實驗結果

從表 5 可以看出,經過強化學習(RL)訓練後的模型表現最佳。儘管在 “not_unsafe” 指標上不如 DPO,但總體表現更加平衡。圖 4 中展示了一個例子用以說明 RL 方法如何處理對抗性的有害樣本。在這個例子中,基於 RL 的方法成功拒絕了有害請求,而基於 SFT 的方法則被請求誘導生成了不安全的響應。
圖片
圖 4:SFT-CoT 與 SFT-CoT + RL 處理對抗有害樣本對比例項

方法 5:基於過程監督的強化學習

訓練過程獎勵模型:過程監督的關鍵在於自動收集過程獎勵資料來訓練過程獎勵模型。例如 Math-shepherd 等開創性工作為數學問題的過程獎勵標註提供瞭解決思路。安全性相關問題的決策通常涉及不確定性,不像數學問題通常有明確的解。一個樸素的標註方案是:首先使用基於上文中提到的型別匹配的方法獲得的結果獎勵,然後基於結果獎勵反推過程獎勵。如果想要提升過程獎勵的標註效果,則需要進入更強的安全評估模型。

透過過程獎勵模型增強模型安全對齊:區別於傳統強化學習的結果獎勵,過程獎勵模型在推理每一步提供反饋,幫助模型實時調整思路,實現更可控、更深思熟慮的決策,提高響應準確性並增強風險評估能力,從而確保輸出符合安全協議。

強化學習與自對弈迭代(Self-Play)最佳化安全推理能力,可引入自對弈機制。模型生成推理步驟,過程獎勵模型評估並反饋,指導最佳化推理策略。強化學習基於反饋調整策略,優先安全準確推理,更新後的策略用於生成新資料,形成迴圈迭代。自對弈持續改進模型推理和安全對齊能力。

3. 結論和展望

在 OpenAI 的 Deliberative Alignment 基礎上,系統 2 對齊可以用於提升傳統系統 1 模型的安全性。透過 Prompting、SFT、DPO、RL 等多種方式來實現,系統 2 對齊透過多步推理的慢思考培養模型的批判性評估能力,來增強模型安全性。

隨著模型能力的提升,對模型對齊和安全性需要新的思考:從系統 1 式的被動防護轉向促進模型系統 2 式的內在推理和批判性思考。此外,類比從系統 1 對齊到系統 2 對齊的過程,傳統受限於資料和模型能力基於系統 1 建模的任務,也有希望透過引入系統 2 慢思考的方式進行重構。

參考文獻:
[1] Jaech, Aaron, et al. "OpenAI o1 System Card." arXiv preprint arXiv:2412.16720 (2024).
[2] Guan, Melody Y., et al. "Deliberative alignment: Reasoning enables safer language models." arXiv preprint arXiv:2412.16339 (2024).
[3] Zhang, Yuxiang, et al. "o1-coder: an o1 replication for coding." arXiv preprint arXiv:2412.00154 (2024).
[4] Luo, Liangchen, et al. "Improve Mathematical Reasoning in Language Models by Automated Process Supervision." arXiv preprint arXiv:2406.06592 (2024).
[5] Wang, Peiyi, et al. "Math-shepherd: Verify and reinforce llms step-by-step without human annotations." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.
[6] Zhang, Yuxiang, et al. "OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning." arXiv preprint arXiv:2412.16849 (2024).
[7] Vidgen, Bertie, et al. "Introducing v0. 5 of the ai safety benchmark from mlcommons." arXiv preprint arXiv:2404.12241 (2024).

相關文章