大模型缺乏基本推理能力?

banq發表於2024-06-10


本文探討了大模型的戲劇性崩潰:面對一個簡單的常識問題,稱為“愛麗絲夢遊仙境(AIW)的問題”,最先進的大模型推理能力面臨崩潰。

儘管這些大模型在標準化推理基準上表現出色。關鍵是,目前這些LLM缺乏基本的推理能力,而現有的基準無法正確檢測這些缺陷。

問題:愛麗絲夢遊仙境AIW:

  • 這個簡單的任務在最先進的大型語言模型中顯示完全的推理故障

 AIW問題是一個簡潔的自然語言任務,它問:
“愛麗絲有N個兄弟,她也有M個姐妹篇。愛麗絲的哥哥有幾個姐妹篇?“

  • 雖然人類使用常識推理很容易解決(正確答案是M+1),
  • 但大多數經過測試的LLM,包括GPT-3.5/4、Claude、Gemini、LLaMA、Mistral等,表現出嚴重的效能崩潰,經常提供荒謬的答案和推理。


值得注意的是,即使LLM偶爾提供正確的答案,他們也經常對錯誤的解決方案表現出強烈的過度自信,併產生虛構(有說服力但毫無意義的解釋)來證明他們的錯誤回答。標準的干預措施,如加強提示或要求模型重新評估他們的答案,無法提高效能。

本論文作者引入了一個更難的變體AIW+,它在所有測試模型中導致了更強的效能崩潰,包括GPT-4和Claude 3 Opus,它們在原始AIW問題上表現得相對更好。

 這項研究強調了LLM在標準化推理基準(例如,MMLU,ARC,Hellaswag)以及它們在AIW問題上的糟糕表現,表明當前的基準並不能充分反映模型的真實推理能力和弱點。

 作者強調,ML社群需要開發新的推理基準,以正確檢測此類缺陷並指導LLM推理技能的改進。他們還強調了完全開放和可複製的訓練管道的重要性,包括資料集組成,以實現該領域的適當分析和進展。

網友:
1、有趣的是,當我把M和N換成特定的數字時,它就很正確。

2、問題不在於推理,而在於缺少或缺乏這樣措辭的問題的訓練資料。人類通常不會這樣說話。

3、用gpt-4 o試了3次。全都正確

4、提示將AIW邏輯問題定義為知識庫,然後制定查詢。從直接prolog查詢的答案是2。
在新一輪的Prolog查詢之後,GPT-4能夠推斷出Alice的一個兄弟有多少個姐妹篇

5、推理能力和常識不應該與儲存和近似檢索許多事實的能力混淆。

6、如果更多的人理解大型語言模型(LLM)不能推理,那麼許多關於AGI和機器人接管世界的擔憂就會減少,從而對AI的角色有一個更冷靜的看法。

7、智慧需要學習,而學習就是統計(某種意義上)。

8、LLM是Web內容的隨機語義資料庫,而不是推理引擎本身。

9、區分了解事實和真正理解事實是很重要的

10、如果我提示它先推理然後回答,它似乎就正確了。

相關文章