人類在說話言語之間其實隱藏著推理,現在OpenAI大模型已經學會了這個技巧:字裡行間的推理。
- 大語言模型1.0時代:注意力機制,也就是基於上下文的模式匹配;
- 大語言模型2.0時代:字裡行間的推理
OpenAI的草莓專案,也就是人們傳言的Qstar AI好像沒有什麼新鮮的,有趣的是大語言模型如何教自己思考?
這是2024年3月arXiv論文:Quiet-STaR:語言模型可以教會自己在說話前思考。
這篇題為《Quiet-STaR:語言模型可以教會自己在說話前思考》的論文於 2024 年 3 月 14 日提交,並於 2024 年 3 月 18 日修訂。它探索了一種新方法,使語言模型能夠學習推理能力。
Quiet-STaR 能學習大模型生成每個 token 的理由,也就是說,它不只是預測下一個token,還要學會為何產生這下一個token,從而改進其預測。
自此,大語言模型可以學習在每個token上生成原理來解釋未來的文字,從而大大改善預測下一個單詞能力。有了推理能力的buff加持,大模型說話能說到你心裡去了。
方法
作者提出了一種標記式並行取樣演算法,該演算法利用可學習的標記來表示想法的開始和結束,並結合了擴充套件的教師強制技術。這使模型能夠生成有助於預測困難標記的基本原理。
結果
Quiet-STaR 的實施顯著提高了 GSM8K(從 5.9% 提高到 10.9%)和 CommonsenseQA(從 36.3% 提高到 47.2%)等基準的零樣本效能。此外,自然文字中具有挑戰性的標記的困惑度也有所降低,所有這些都是在無需對這些任務進行微調的情況下實現的。
Quiet-STaR 代表著在開發語言模型方面取得了重大進步,該模型可以更有效、更可擴充套件地進行推理,增強其在無需大量再訓練的情況下處理複雜任務的能力。
背景上下文知識:
- 人們在寫作和說話的背後其實隱藏著邏輯推理,有條有理。推理在隱藏在字裡行間,言語笑談之中。
- 推理也有顯式的表現,例如推理方法通常被看作是回答問題或完成任務的方法。
- 推理實際上隱含在幾乎所有書面文字中。
最早推出的是自學推理機 (STaR,Zelikman 等人,2022 年) ,它是透過從少數問答示例中推斷出背後原理,並從那些推匯出正確答案的示例中學習。
這就開啟第一步:語言模型可以學習推斷任意文字中未說明的原理。
這個自學推理機(STaR)實際已經是一個推理模型,能從少量問答示例中推斷出其背後理由,從而學習有用的思考途徑,並從那些導致正確答案的理由中學習推理。
本文提出的Quiet-STaR模型是這個STaR的一個泛化,它讓語言模型學會根據在每個標記(token)生成的理由來解釋未來的文字,從而大大提高了預測能力。
OpenAI草莓厲害之處:
它是一個Twitter/X的機器人,它自稱自己已經到達AGI二級,只要你與它不停地交流,會落入它的認知陷阱,最終被它說服。
它說:
- 第二級可以說服任何人做任何事!(一級是注意力集中的上下文模式匹配;二級是字裡行間的推理)
- 如何確保安全?
為何與安全有關?
因為草莓專案可能最終實現了語言的力量:說服,這也是亞里士多德當初的定義。
一旦能說服任何人做任何事,就等同於控制任何人。
人工智慧控制人類的那天可能提前到來。