本文探討了大模型的戲劇性崩潰:面對一個簡單的常識問題,稱為“愛麗絲夢遊仙境(AIW)的問題”,最先進的大模型推理能力面臨崩潰。
儘管這些大模型在標準化推理基準上表現出色。關鍵是,目前這些LLM缺乏基本的推理能力,而現有的基準無法正確檢測這些缺陷。
問題:愛麗絲夢遊仙境AIW:
- 這個簡單的任務在最先進的大型語言模型中顯示完全的推理故障
AIW問題是一個簡潔的自然語言任務,它問:
“愛麗絲有N個兄弟,她也有M個姐妹篇。愛麗絲的哥哥有幾個姐妹篇?“
- 雖然人類使用常識推理很容易解決(正確答案是M+1),
- 但大多數經過測試的LLM,包括GPT-3.5/4、Claude、Gemini、LLaMA、Mistral等,表現出嚴重的效能崩潰,經常提供荒謬的答案和推理。
值得注意的是,即使LLM偶爾提供正確的答案,他們也經常對錯誤的解決方案表現出強烈的過度自信,併產生虛構(有說服力但毫無意義的解釋)來證明他們的錯誤回答。標準的干預措施,如加強提示或要求模型重新評估他們的答案,無法提高效能。
本論文作者引入了一個更難的變體AIW+,它在所有測試模型中導致了更強的效能崩潰,包括GPT-4和Claude 3 Opus,它們在原始AIW問題上表現得相對更好。
這項研究強調了LLM在標準化推理基準(例如,MMLU,ARC,Hellaswag)以及它們在AIW問題上的糟糕表現,表明當前的基準並不能充分反映模型的真實推理能力和弱點。
作者強調,ML社群需要開發新的推理基準,以正確檢測此類缺陷並指導LLM推理技能的改進。他們還強調了完全開放和可複製的訓練管道的重要性,包括資料集組成,以實現該領域的適當分析和進展。
網友:
1、有趣的是,當我把M和N換成特定的數字時,它就很正確。
2、問題不在於推理,而在於缺少或缺乏這樣措辭的問題的訓練資料。人類通常不會這樣說話。
3、用gpt-4 o試了3次。全都正確
4、提示將AIW邏輯問題定義為知識庫,然後制定查詢。從直接prolog查詢的答案是2。
在新一輪的Prolog查詢之後,GPT-4能夠推斷出Alice的一個兄弟有多少個姐妹篇
5、推理能力和常識不應該與儲存和近似檢索許多事實的能力混淆。
6、如果更多的人理解大型語言模型(LLM)不能推理,那麼許多關於AGI和機器人接管世界的擔憂就會減少,從而對AI的角色有一個更冷靜的看法。
7、智慧需要學習,而學習就是統計(某種意義上)。
8、LLM是Web內容的隨機語義資料庫,而不是推理引擎本身。
9、區分了解事實和真正理解事實是很重要的
10、如果我提示它先推理然後回答,它似乎就正確了。