AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
新問題:對當前流行的思維鏈提示技術,我們提出了尚未充分探究的噪聲思維鏈問題(Noisy Rationales),並給出了詳細的問題定義和統一的問題建模;
新資料集:我們構建了 NoRa 資料集,用於評測 LLM 在噪聲思維鏈提示下的推理魯棒性。我們使用 NoRa 資料集對 LLM 展開系統評估,揭露了 LLM 推理的魯棒性不足,資料去噪能力非常有限的問題;
新方法:我們設計了一種簡單有效的方法(CD-CoT),基於單個正確的思維鏈示例,去糾正噪聲思維鏈並完成推理,並透過大量實驗驗證了方法的有效性。
論文標題:Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?
論文連結:https://arxiv.org/pdf/2410.23856
程式碼連結:https://github.com/tmlr-group/NoisyRationales
slides 連結:https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf
不相關噪聲(Irrelevant Thoughts)是指對解決問題無用的資訊,如在推斷親屬關係時討論探討兄弟姐妹之間的基因重疊情況;
不準確噪聲(Inaccurate Thoughts)則是推理中的事實性錯誤,如在特定進位制計算中使用錯誤的計算規則。
自我糾正方法(Self-correction):包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5];
自我一致性方法(Self-consistency):包括 SmoothLLM (SM) [6],Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。
無論採取哪種現有方法,LLM 都會受到噪聲思維鏈的嚴重影響。具體來說,存在不相關噪聲時,各方法的效能下降了 0.2% - 25.3%;存在不準確噪聲時,各方法的效能下降了 0.1% - 54.0%;
在 NoRa 的大多數任務中,自我糾正方法的表現不佳;
自一致性方法可以在一定程度上緩解噪聲的影響,但無法做到真正的資料去噪。
調整溫度係數可以改善模型在噪聲思維鏈下的推理效能;
使用更多的噪聲示例可以提高大多數任務的推理效能;
不同的大語言模型普遍容易受到噪聲思維鏈的影響。
改寫思維鏈:藉助一個乾淨的思維鏈示例,引導 LLM 透過對比改寫和糾正噪聲思維鏈,並生成多個改寫的思維鏈(見圖 7 step1);
選擇思維鏈:透過答案匹配,篩選出改寫後答案不變的思維鏈,形成精煉的候選集;再從中隨機選取一定數量的思維鏈,用於後續的推理(見圖 7 step2);
探索推理鏈:將選取的思維鏈排列成不同的上下文,與目標問題一同輸入給 LLM,並採用較高的溫度引數進行多次重複推理,以探索多樣的推理路徑(見圖 8 step3);
答案投票:將所有得到的答案進行投票,得到最終答案(見圖 8 step4)。
當面對噪聲思維鏈時,與 base model 相比,CD-CoT 在所有資料集上的效能均有顯著提升,準確率平均提升幅度達到 17.8%;
CD-CoT 對高噪聲表現出顯著的抵抗力,尤其在更具挑戰的數學推理任務中。
關於 CD-CoT 超引數的消融實驗結果顯示,乾淨的思維鏈示例在 CD-CoT 中扮演著關鍵的角色;當變化 N,M,C 等超引數的取值時,準確性僅呈現出細微的變化(見圖 11)。在論文中,我們預設採用 M 設為 2 的 CD-CoT 示例,以在效率和效果之間取得平衡;
CD-CoT 在不同的 LLM 上具有良好的泛化能力,與 base model(GPT-3.5-Turbo 和 Gemini-Pro)相比,其準確率分別提高了 23.4% 和 21.6%,並超越了所有基線方法(見圖 12)。