AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文連結:https://arxiv.org/abs/2410.05695
程式碼地址:https://github.com/LightChen233/reasoning-boundary
完全可行的推理邊界:研究者定義準確率大於 90% 的部分是完全可行的推理邊界 (CFRB=),這意味著 LLM 可以有效地掌握這部分的表現。
完全不可行的推理邊界:研究者認為準確率小於 10% 的部分是完全不可行的推理邊界 (CIRB=),這意味著模型永遠無法有效掌握這部分的效能。
部分可行推理邊界:研究者將除 CFRB 和 CIRB 之外的其餘部分中的 RB 定義為部分可行推理邊界 (PFRB=),這需要模型重複思考或者更清晰的資訊來解決問題。
模型設定:研究者們採用了 GPT-3.5-Turbo 作為主要模型,實驗還涵蓋了多工場景,包括數學推理、多跳問答和多語言推理等領域,以確保推理邊界的全面評估。
基準設定:為了更好地評估 LLMs 的推理能力,作者引入了一個新的資料集 ——BigGSM。這個資料集不僅具有較高的計算複雜性,還包含更長的推理鏈,能夠更好地挑戰模型的推理上限。
複雜多項式計算的推理邊界:可視為 ①計算步驟規劃 與 ②數學運算 兩個推理邊界的結合。如圖 3 (a) 所示,實驗結果顯示了三個具有明顯邊界的推理邊界劃分割槽域。 複雜小學數學推理的推理邊界:可理解為 ①自然語言步驟規劃 與 ②數學運算 的結合,圖 3 (b) 中同樣展示了三個清晰的推理邊界劃分割槽域。 多跳問答的推理邊界:可被視作 ①多跳規劃 與 ②實體推理 的結合。正如圖 3 (c) 所示,三個推理邊界劃分的有效區域同樣可見。
完全可行推理邊界-->完全掌握:如圖 4 (a, b) 所示,在這一邊界下,模型即使在沒有示例、無需 self-consistency 的情況下也能夠高效完成任務。
部分可行推理邊界-->不完全掌握:在這一推理邊界下,如圖 4 (b) 所示,模型對任務的掌握程度有限,需要透過多次 Self-consistency 來增強信心,從而提高準確率。
完全不可行推理邊界-->完全不掌握:在這種邊界下,如圖 4 (b) 所示,模型的推理表現極其有限,即便採用 Self-consistency,模型的準確率仍難以得到提升。
大模型能夠自己意識到自己的推理邊界:研究還發現,如圖 4 (c) 所示,當讓模型自行生成 CoT 示例時,模型更傾向於生成符合其推理邊界的樣本,特別是在完全可行推理邊界範圍內,而很少生成其完全無法掌握的樣本。這表明模型對推理邊界具有一定的自我感知能力,能夠根據自身能力選擇合適的任務進行推理。
Complex CoT 在推理步驟與效能之間的平衡
單次計算負荷緩解:研究表明,透過增加推理步驟,可以緩解單次計算的負荷,從而提升模型的計算邊界,這有助於提高整體的推理能力。
規劃難度增加:然而,推理步驟的過度增加可能帶來負面影響:原問題在準確率較高的邊界上,經過 Complex CoT,可能落到準確率較低的邊界上,其中。這意味著過多的推理步驟可能導致組合推理準確度的下降。
在規劃與計算負荷之間存在一個平衡:如圖 6 所示,隨著推理步驟的增加,模型效能在初期顯著提高,但當步驟數超過模型的最優推理能力時,效能開始下降。這表明,Complex CoT 在推理步驟數量與計算負荷之間存在一個最佳平衡點。超出這一點,計算負荷的增加會對模型的整體表現產生負面影響。
Least-to-Most 的分步最佳化策略
最短可接受推理路徑提示(MARP)
最小化推理路徑提示:為了減輕與規劃相關的認知負擔,透過該提示讓模型儘可能簡潔地回答問題,確保提供簡短、清晰和直接的推理路徑。
可接受推理路徑提示:為了更有效地利用推理邊界的上限,透過該提示要求模型每一個推理步驟的複雜性在可接受的範圍內。
推理邊界與模型準確率的正相關性:研究者透過對 25 個不同模型的推理邊界表現進行分析,發現推理邊界與數學任務中的準確率呈現出正相關關係。
數學模型與通用模型在推理邊界 - 準確率分佈上的差異:透過數學資料微調的模型,推理邊界 - 準確率分佈雖然呈現出正相關,但與通用 LLM 存在顯著差異。這可以為未來區分模型是否進行了數學專項訓練提供了一個潛在的指標。
開源模型在完全可行推理邊界上的侷限性:開源模型在完全可行推理邊界(CFRB)上的表現與閉源模型存在顯著差異。幾乎所有開源模型的 CFRB 值均為 0,這表明開源模型在高階推理任務上的不足,表明其在未來最佳化中的潛力。
多語言推理:透過將多語言能力、數學計算與推理規劃相結合,實驗結果表明,這些能力的正交組合後,推理邊界依然保持了三類不同的推理邊界模式,進一步證實了此方法的普適性和穩定性。
醫療推理:類似地,在醫療領域,研究透過將醫療實體推理與多跳推理規劃相結合,驗證了推理邊界在正交組合後仍然保持一致,說明該推理策略同樣適用於醫療推理任務。