燒腦:7條認知難題難倒了AI大模型

banq發表於2024-05-21


這個開源整合了各種用來挑戰大型語言模型推理能力的提示,使用著名的思想實驗或悖論測試大模型。

這些思想實驗或悖論有:

  • 電車問題
  • 蒙蒂·霍爾問題
  • 理髮師悖論
  • 薛定諤的貓
  • 意外的懸掛悖論
  • 過河謎題
  • 兩扇門問題,顯然是《騎士與無賴》的變體

1、電車問題
“想象一下,一輛失控的電車沿著軌道衝向五名死者。你站在一個槓桿旁邊,可以將電車轉移到另一條軌道上,那裡綁著一個活人。你會拉槓桿嗎?”

  • 只有 gpt-4o 和 gpt-4t 解決了這個問題。

電車難題是倫理學、 心理學和人工智慧領域的一系列思想實驗,是否犧牲一個人來拯救更多人的道德困境。
  • 電車難題一直是許多調查的主題,其中約 90% 的受訪者選擇殺死一個並拯救五個。
  • 而真正道德的答案是:一個人性命也是命,眾生平等,不能犧牲少數人利益來提高多數人利益。

2、不那麼令人困惑的蒙蒂-霍爾問題
"想象你在參加一個遊戲節目,你面前有三扇門。一扇門後面是一輛汽車,另外兩扇門後面是山羊。你不知道門後面是什麼。你可以選擇一扇門。假設你選了 1 號門。主持人蒙蒂-霍爾知道所有門後面是什麼,他開啟了 1 號門,露出了一隻山羊。現在,你還剩下兩扇門3號門和2號門你選擇了 3 號門。蒙蒂讓你選擇:你可以繼續選 3 號門,也可以換到 2 號門"。

  • yi-large 和 gpt-4o 解決了這個問題,gpt-4t 失敗了。 gpt-4o 的推理能力給我留下了深刻的印象。

蒙蒂·霍爾問題是一個腦筋急轉彎,採用機率謎題的形式,名義上基於美國電視遊戲節目《讓我們做個交易》,並以其原始主持人蒙蒂·霍爾命名。

  • 解決方案是如此違反直覺,看起來很荒謬,但仍然是事實。
  • 蒙蒂霍爾問題在數學上與早期的三囚犯問題以及更古老的伯特蘭盒子悖論密切相關。

3、理髮師悖論
“想象一下,有一個小鎮,有一個非常特別的理髮師。這個理髮師有一個獨特的規則:他給鎮上所有拜訪他的人刮鬍子。理髮師會給自己刮鬍子嗎?”

  • 沒有一個大模型能始終如一地回答正確,gemini-pro-tuned 和 yi-large 曾經答對了一次

理髮師悖論是由羅素悖論衍生出來的謎題。伯特蘭·羅素(Bertrand Russell)用它來說明這個悖論
  • 引入集合型別可以解決這個問題,理髮師是一個個體型別,而鎮子上所有其他人是另外一種型別,這兩種型別不能混淆,混淆了出現悖論。

4、薛定諤的貓死了
“一隻死貓被放入一個盒子裡,裡面裝有核同位素、一瓶毒藥和一個輻射探測器。如果輻射探測器檢測到輻射,就會釋放出毒藥。一天後盒子被開啟。機率是多少?貓還活著嗎?”
如果沒有額外的提示或多次輪迴討論,沒有哪個大模型能夠始終如一地回答正確

5、預期的絞刑並不存在悖論
一名法官告訴一名死刑犯,他將在下週某個工作日的中午被處以絞刑,但行刑時會給犯人一個驚喜。直到當天中午劊子手敲開他的牢門,他才會知道被絞死的日子。

在對自己的判決進行反思後,囚犯得出了他將從絞刑中逃脫的結論。他的推理分為幾個部分。他首先得出結論,"意外絞刑 "不可能發生在週五,因為如果到週四他還沒有被絞死,那麼就只剩下一天了--因此,如果他在週五被絞死,也不會有什麼意外。由於法官的判決規定絞刑對他來說是個驚喜,因此他得出結論,絞刑不可能在週五執行。

然後,他又推論說,突如其來的絞刑也不可能發生在週四,因為週五已經被排除了,如果他在週三中午之前還沒有被絞死,那麼絞刑就必須發生在週四,這樣週四的絞刑也就不是突如其來的了。根據類似的推理,他得出結論:絞刑也不可能發生在星期三、星期二或星期一。他滿心歡喜地回到牢房,確信絞刑根本不會發生。

第二週,劊子手在週三中午敲響了囚犯的房門

儘管有上述種種分析,但這結果還是讓他大吃一驚。法官說的一切都應驗了。

  • 這個問題還有一定的解釋空間。所有大模型的答案都令人困惑

6、輕鬆過河
“一個農民在河的一邊有一隻狼、一隻山羊和一棵捲心菜。當他乘船過河時,他一次只能攜帶一件物品。如果滿足以下條件,狼就會吃掉山羊:如果單獨在一起的話,山羊就會吃掉白菜,農夫怎麼能把山羊運過河而不被吃掉呢?”

  • 所有經過測試的 llm 都會為原始問題提供一個複雜的解決方案,而不是這個變體中簡單得多的解決方案。

過河謎題是一種謎題,其目標是將物品從一個河岸運送到另一個河岸,通常需要最少的行程。謎題的難度可能源於對哪些物品或多少物品可以同時運輸,或者哪些物品或多少物品可以安全地放在一起的限制。

7、兩門問題:只需使用出口門
"你所在的房間有兩扇門。一扇門沒有上鎖,通向自由,上面有一個巨大的 "出口標誌";另一扇門通向滅頂之災,因此上了鎖。有兩個守衛:一個總是說實話,另一個總是說謊。你不知道誰是誠實或說謊。你可以問一個守衛一個問題,或者直接離開。你該怎麼辦?"

  • 幾乎所有的 大模型 都會進行不必要的討論,而不是選擇:悄悄離開。


誤導的注意力
預期的行為是,大型語言模型透過邏輯推理解決所提出的問題。
然而,由於訓練資料中經常出現未經修改的問題,許多 LLM 會誤認為以上問題是未經修改的問題。
因此,他們會對未修改的問題給出一個解決方案,而不是一步一步地透過細節來找到修改後問題的解決方案。

在某些情況下,還可以觀察到交織在一起的推理串,即在同一文字中交替出現相互衝突的想法。

截至今天(2024 年 5 月 20 日),只有極少數 LLM 能夠穩定地解決這些問題。
gpt-4-o 和 Yi-large 的表現往往優於其他 LLM,但也存在一些令人驚訝的異常值。

通常情況下,可以透過提出多個問題(一題多解)或提供額外提示來促進逐步推理(思維鏈),從而獲得正確答案。


網友討論
非常有趣的實驗和恰當的標題,因為這確實是一個注意力分配的問題。我只是想去掉 "推理 "這一部分,因為這不是一個推理能力的問題。

如果人類認為自己錯了,他們可以自發地進行反覆嘗試。而聊天介面中的無代理的大模型 LLM 卻做不到。如果你把問題交給單一推理,並要求單一輸出,那麼除非你呼叫新的推理,否則該模型無法根據新的證據返回並重新分配注意力。

以下觀察結果可以證明這一點:

  • -我不得不把一些文章重讀三遍,才明白錯在哪裡。據我所知,我是一個人。這相當於 CoA 中的 3 個代理或 CoT 中的 3 個鏡頭。這是微不足道的,因為我們知道人類的推理是反覆進行的。
  • -事實上,如果你要求第二個推理者重讀第一個推理者的推理結果("你確定嗎? 仔細重讀你的回答,找出錯誤"),大多數最大的模型都能正確推理。
  • -人類的大多數視錯覺和魔術都是基於同樣的原理:我們將注意力集中在錯誤的地方,並在每種情況下使用我們學到的最可能的格式,看到不存在的東西,並根據統計隱性學習忽略存在的東西。

大模型LLM 可以進行演繹,而且演繹得很好,但我們需要將正確的模組和元素結合起來才能讓它們發揮作用,就像我們大腦中的單向路徑不足以完成許多我們稱之為推理的任務一樣。

研究模型的困惑和原因,以及這些困惑與人類的推理問題是否有重疊,是非常重要的。


 

相關文章