元學習：人類與大模型比較建模

本文介紹了一種心智模型的概念資料流架構，該模型可以解釋心智的關鍵特徵，例如代理、學習、思考和內省。該模型的關鍵組成部分包括：

能夠理解和產生動作的動作模型，類似於語言模型理解和產生語言的方式。
提供來自感官的資訊的感官輸入。
代表身體需求和心理狀態的情緒狀態模組，可以過濾近期記憶中儲存的內容。
近期記憶模組儲存著重要事件和想法，並以情緒狀態作為過濾器。
代理機制，其中行動模型可以獨立啟動行動。
反饋迴路允許將動作模型的輸出反饋作為輸入，從而實現預測、創造力、聯想和解決問題等複雜的思維過程。

作者認為，這種心智模型可以表現出類似人類的行為，包括思考和內省的能力，同時也承認關於數字心智是否真的具有意識或是否像人類一樣具有主觀體驗的爭論仍在繼續。

詳細摘要：
本文解釋了思維如何運作的簡單模型。基於人工智慧的語言模型的成功激勵著我去展望數字思維的未來。我將介紹一個概念性資料流架構，它可以解釋思維的幾個關鍵特徵：發起行動（代理）、學習、思考和自省的能力。我將從高層次描述該模型，但我也會嘗試將其錨定在現有的人工智慧系統中，以證明如今構建這樣的模型是現實的。

我可以想象心智模型有兩個目標：理解人類大腦，或者創造數字心智。致力於建立一種可以解釋人類思維方式的思維模型。

關於數字思維是否真的具有意識，是否像人類一樣具有情感或主觀體驗，仍然存在很多爭論。
我相信它們可以。

然而，我並不想專注於這場爭論，而是想在一個假設的世界裡工作，在這個世界中，數字思維確實能夠擁有人類思維的所有內部體驗。

如果我錯了，那麼這篇文章就只是關於行為的藍圖集合；
如果我是對的，那麼這篇文章就更有意義了：希望它能在創造數字思維方面取得實際進展，並能讓我們深入瞭解我們自己的大腦是如何運作的。

1、模型目標
我正在嘗試製作一個可以像人類一樣行動的系統。意識是一種個人動機，但我不會把它作為目標，因為它很難定義，而且人們對此往往意見不一。相反，本文將探討思維的一些方面，這些方面雖然仍然具有挑戰性，但更容易討論。
具體來說，我正在嘗試構建一個具有以下功能的系統：

代理Agency
元學習
思維
內省（向內求））

2、模型
我從同時工作的模組之間的資料流的角度來思考思維。如果你的計算機配有 GPU、多核 CPU 和攝像頭，那麼每個模組（GPU、CPU、攝像頭）都可以並行完成自己的工作。此類系統中的模組可以相互通訊，但它們始終可以處理收到的資訊。

人類大腦是令人難以置信的並行機器。神經元不會相互等待，而是在收到訊號後立即做出反應。因此，將大腦視為一個巨大的神經網路是有道理的——我們可以將其架構視為連續並行執行的模組之間的資料流圖，從而更好地理解它。

2.1行動模型
這個模型的核心概念是我所說的動作模型。這個名字是語言模型的自然演變，語言模型是理解並能產生語言的系統。因此，動作模型理解並能產生動作。

你可以簡單地這樣看待 LLM：
context -> LLM -> next_token

類似地，動作模型的工作原理如下：
context -> Action Model -> next_action

從概念上講，我認為“動作Action”就像是詞語的超集。

如果我想說“你好”，那麼說你好就是一種動作Action。
如果我想走到廚房，那也是一種動作。
如果我想思考生命的意義，思考也是一種動作。

2.2高層模型

元學習：人類與大模型比較建模
圖示說明：

每個箭頭代表一個資訊流。
實線箭頭是最重要的資訊流。

“感官輸入Sensory"提供我們感知到的一切，包括視覺、味覺、溫度、壓力等等

視覺系統可以快速為我們提供對所見事物的一些分析，因此我們傾向於感知視覺物件（“臉”）而不是原始影像（“臉的畫素”）。

"運動控制motor control"：

將其視為接收概念向量（例如，“撓左耳”）；
它可以進行一些處理，將高階命令轉換為一系列單獨的肌肉命令：當你很好地記住一首鋼琴曲時，感覺好像你的手指比你更瞭解這首歌，我相信這表明運動控制模組內發生了某種學習。

"語言編碼器"：可以翻譯傳入的訊號

看到書面文字、聽到口頭文字、看到手語，將它們轉換成系統可以理解的向量空間。

由於我設想動作模型可以是語言模型的略微概括，因此我預計這樣的動作模型可以自然地在自身中融入一種將詞彙概念標準化為一致向量的方法。

語言解碼器擅長將這些概念向量轉換回詞彙動作，例如大聲說出一個句子或寫下一些東西。

"情緒狀態模組emotional state"做很多工作：代表我們所有的身體需求

感覺飢餓或疲倦，以及
我們的精神狀態，例如感覺興高采烈、沮喪、懷舊或好奇。

在這個模型中，我們的情緒狀態可以根據行動模型的輸出而改變，它還會將輸出過濾到近期記憶recent memory 模組中。

在"近期記憶recent memory"中儲存的內容有兩個過濾器：

首先，當行為模型接收到大量傳入資訊時，它會有效地關注某些資訊而不是其他資訊。與語言模型一樣，未使用的資訊在經過後面的層時基本上會從網路中消失；
第二個過濾器基於我們的情緒狀態。當我們感到無聊時，發生的事情並不重要，也不會被標記為長期記憶。當我們經歷情緒高峰時，會保留更多更詳細的資料。

我們的日常生活往往介於這兩個極端之間。

" 目標"不是一個計算模組，而是來自動作模型並反饋到自身的資料反饋迴路的一部分。

動作模型接收大量資料，我們可以將這些資料視為一個巨大的向量，並同樣產生另一個大向量。
這些大向量可能在新的大腦中以“未格式化”的形式開始，這意味著一個人可以在成長過程中學會使用該空間，而不是將向量資料視為預先分配給特定用途。
在向量表示中，有空間來學習/定義特定變數，我們學習的最重要的變數之一就是我們當前的目標。

正如單詞可以被向量捕獲一樣，我們心中的動作或（密切相關的）目標也可以被向量捕獲。

在這個思維模型中，我們當前的目標從根本上決定了我們如何過濾傳入的資訊，並且可以由動作模型本身進行編輯。
我們甚至可能有一個有效的目標堆疊，一個小型資料結構，我們可以將新目標推入其中，並在完成它們時將其彈出。

或者，如果你像我一樣，一個有限大小的堆疊，其中的任務經常被遺忘，因為我一直在想著要做的新事情。

這就是心智模型的要點。在接下來的幾節中，我將解釋該模型如何提供代理、學習、思考和內省。

3、代理
大型語言模型LLM沒有代理，因為它只能對輸入做出反應；它不能獨立採取行動。

可以為任何類似 LLM 的系統增加了代理：想象一個接收兩個交織輸入流的模型。

一個輸入流是與模型交談的人，
另一個輸入流是模型能夠看到自己的輸出。

當前的 LLM 可以看到這兩個流，但它們的設定為一次只有一個人可以說話（LLM 或使用者中任何一個）

現在，LLM 可以自行選擇在說話和傾聽模式之間來回切換。

當 LLM 想要傾聽時，它可以<listening>連續多次產生一個特殊 token，直到它想要說些什麼。
當它想要說話時，它會輸出它想說的內容而不是 token <listening>。

透過這種方式，模型可以連續執行，同時實現有意義的雙向對話，包括讓對方說話者停頓。

它可以隨時隨地獨立地說出自己想說的話。這是代理的詞彙版本，它完全適用於上面概述的思維模型，該模型確實既接收感官輸入，也接收來自自身輸出的反饋。

4、記憶與學習

第一代 LLM 會在上下文視窗填滿後完全忘記每個人說了什麼。
在我寫這篇文章的時候，一些系統（如 ChatGPT）已經得到增強，可以“記住”某些事實。

當今 LLM“學習”的唯一常見方法是實現一個額外的系統來儲存對話資料，並在我們認為可能有用時有選擇地將這些資料插入提示中（插值）。

這與我們人類體驗生活的方式不同，例如，

當你大聲說話時，你不會覺得你的大腦選擇了 100 個候選單詞中的一個子集呈現給你，然後你從中選擇。
相反，你覺得你所有的口語詞彙（學到的東西）對你來說都是可用的，毫不費力，未經過濾。

我們有機神經元的某些內部資料會根據發生在我們身上的事情進行更新。在心智模型中，這相當於根據經驗更新權重。

為了解釋這個心智模型中的記憶概念，我將把記憶分為兩大類：

故事記憶是對你身上發生的一切事情的記憶；
動作記憶是根據正面或負面的反饋對你的行為方式進行的修改。

如果一個陌生人對你說：“嘿，你絕對可以相信我！”那麼你可以立即儲存你生活中的這個敘述元素：這個人說了這些話。

那麼，他們說的是真的嗎？
那是另一回事，你可能應該根據更多的證據來決定。

他們說過這些話這一事實可以安全地進入故事記憶，而無需核實事實。
他們值得信任的想法是一個不確定的說法，我們可以保留它，標記為“可疑”，直到另行通知。有了更多的反饋，我們可以選擇對這個人採取信任或不信任的行動，這將進入我們的行動記憶。

當我們做出決定時，直到後來某個時間點才會發現這個決定是否正確。想象一下下棋時走一步。如果兩步之後對手突然將你擊敗，你可能會回過頭來意識到這一步是錯誤的。

這是延遲反饋決定質量的一個例子。當你有延遲反饋時，如果你以後能強化好的決定，或者阻止錯誤重複發生，這將很有用。（banq注：抱怨後悔有時有用，但是對人體健康傷害最大，不可撤回的決定不用去後悔總結，因為決定的效果取決於上下文，盡人事就可以了）

擁有單獨的近期記憶模組的第三個動機是，過去幾個小時的詳細記憶比你四歲時某個隨機的幾個小時的同樣詳細的記憶更有價值。故事記憶的有用性會隨著時間的推移而迅速下降，並且需要過濾儲存的內容，因為與動作記憶的有限容量相比，感官輸入的數量非常多。因為近期記憶往往更有用，所以有一個滾動的準確記憶視窗很方便，這些記憶會隨著時間的流逝而被遺忘。

（banq注：老年腦老年痴呆是容易喪失近期記憶開始，但是遠期記憶，過去很久遠的事情反而記得，讓陪伴親人有點糊塗）

記憶型別的細分可能解釋了人類記憶的這些特點：

我們的記憶容量似乎很小，我們幾乎不用付出任何努力或特別注意就能記住所記住的事情。喬治·米勒曾研究過，大多數人可以快速記住任意列表中的大約七項。這種記憶可能適合行動模型本身的反饋向量。只要我們對其他事情想得足夠多，這種記憶就會消失。
不同的人擁有不同的近期記憶容量，但通常情況下，你會記得今天早上吃的早餐，但記不住幾天前吃的早餐，忽略可預測性（例如，如果你作弊，每天早餐都吃同樣的東西）。這種型別的記憶與近期記憶模組相匹配。
長期記憶似乎沒有預先確定的時間限制，但它們確實會隨著時間的推移而消退。這種模式與 LLM 中的知識一致，因此可以與行動模型有效記憶事物的方式相匹配——沒有時間限制，但能夠隨著時間的推移而消退，尤其是在長時間不參考的情況下。

人類大腦似乎為長期記憶和相當於行動模型的記憶分別設定了不同的位置。失憶症病例表明：人們可以忘記大部分過去的事情，但其他方面卻表現正常。如果我們的記憶和行為依賴於同一組神經元，那麼這是不可能的。然而，在上面的思維模型中，我讓長期記憶隱含地成為行動模型的一部分，因為這實際上是語言模型當前儲存其記憶版本的方式。

心智模型透過情緒狀態過濾記憶，解釋了

情緒激動時刻記憶的清晰度
以及平淡無奇事件記憶的缺失。

為了讓模型記住某件事，它必須既是

(a) 行動模型關注的某件事：《注意力就是你所需要的》
(b) 心智根據情緒狀態想要記住的某件事。

此外，情緒狀態是行動模型上下文context的一部分，因此目標會受到心智感受的影響，而心智關注的事物同樣會受到感受的影響。

例如，如果心智心情愉快，它更有可能欣賞對話的積極方面；如果心智心情不好，它更有可能注意到對話可能被視為評判性的觀點。
”情緒”一詞的含義很廣，包括快樂、痛苦、無聊、幸福、沮喪以及任何與非純理性感覺相關的心理狀態組合。

類似於簡單的快樂或痛苦——可以看作是一個相對快速的反饋迴圈，用於判斷最近的動作記憶對於學習來說是好的還是壞的。

元學習（Meta-learning）
另一種學習發生在更高層次，需要長期思考。

例如，假設你寫了一本書的初稿，然後將這本書交給一些測試讀者徵求反饋。你可以將此視為一個過程，從採取的第一步行動（寫下新書的第一個字）到收到有關該行動的有用反饋，這需要數月時間。近期記憶不再是這種學習的有效載體。

人類學習理性行為是作為由觸發器啟動的動作序列。
例如，當我想寫一個已經在我腦海中形成的想法時，我會錄製大綱的語音備忘錄，或者在谷歌文件中輸入草稿。

這是我個人過程的一部分。觸發器是

(a) 想要寫一篇文章，以及
(b) 不需要做更多研究的結合，也就是說，我自信我已經準備好寫作了。

從高層次來看，動作序列是制定大綱。

(banq注：元學習 類似 元認知：比爾蓋茲：元認知將是AI下一個前沿 )

現在假設我得到了關於我的動作序列的反饋。例如，也許我手機上的錄音機應用程式由於錯誤而刪除了一個檔案。然後我會在心裡記下使用不同的錄音機應用程式。

這種學習不是發生在神經網路中權重更新的層面上。相反，這是一個更概念化的想法，最好被視為覆蓋鍵值對：
（I want to record an outline） -> （open voice app A）

透過重新使用相同的鍵並替換值，如下所示：

（I want to record an outline）->（open voice app B）

我之所以這樣表述，是因為人類的大腦似乎不擅長抹去過去的記憶，而是能夠替換與預先存在的鍵相關聯的值。在這種情況下，鍵key是啟動操作的觸發器。

人類和人工智慧模型中的鍵值key-value記憶
想象一下有咬指甲等壞習慣的人。制定一個簡單地停止這種習慣的策略是出了名的困難。(banq注：服用NAC補劑可以改變)

但是，如果你用其他東西代替這個壞習慣，你就更有可能成功。

例如，你可以注意到你最有可能咬指甲的情況 - 例如坐在教室裡有點無聊 - 然後讓自己在相同的環境中採取不同的行動。例如，你可以使用指尖鉗來代替咬指甲。

這是一個以人為本的例子：

鍵key刪除很難（“鍵刪除”在這裡就像忽略觸發器 -在教室裡無聊- 這往往會引發你的壞習慣），
但值value更新是可能的（“值更新”意味著觸發器，在教室裡無聊，對你來說仍然有意義，但現在你的反應已經更新）。

現代語言模型的內部機制類似。它們從根本上依賴於基於鍵值查詢的轉換器模組。

基於轉換器的模型學會提出編碼為向量（特定但在一定程度上耐噪的數字列表）的內部查詢（鍵查詢）。一旦模型學會了查詢某個鍵，就很難忘記。要改變模型的行為，似乎更容易改變鍵指向的內容，而不是讓模型改變以使其完全忽略觸發器。

這兩種“僅加add-only”機制之間的相似性可能並非巧合；也許大腦內部使用類似於鍵值對的東西，就像大模型的 transformer 一樣。

心智模型如何進行元學習
元學習可以透過以下幾種方式在心智模型中發生：

規劃：當您瞭解自己將來想要採取的新行為時，您可以對最終的行動進行明確的規劃。例如，您可以在日曆上記下某件事，或者寫下今天要做的事情的清單。在這種情況下，模型可以簡單地捕捉使用日曆或寫清單的行為，而這些行為的更高層次的目標只能由神經權重間接捕捉。（banq注：規劃是元認知重要能力，將是下一次AI前言，目前無法做到：比爾蓋茲：元認知將是AI下一個前沿）
聯想：通常你不知道什麼時候需要使用新知識，例如學習用新語言問路。在這種情況下，如果你能根據正確的上下文回憶起一個相對未練習過的動作，這將很有用。該模型可以透過以下方式解釋這一點：當你提前學習時，你會了解未來行動將有用的背景，這樣未來的背景上下文就可以與知識聯絡起來。行動本身可以透過練習（如語言學習）或理解（如閱讀操作指南）儘可能好地儲存起來。如何使用大模型實現突破性創新研究？
解決問題：除了規劃或接收知識外，還有其他型別的元學習。如果你面臨一個你從未解決過的問題，而且你不知道在哪裡查詢答案（或者不想查詢），那麼你可以嘗試在頭腦中模擬問題，並在精神上考慮潛在的解決方案。如果你想到了一個你喜歡的想法，這就是它自己的學習方式。

最後一種學習是基於思考的，所以現在是轉換話題的好時機——讓我們看看心智模型如何捕捉複雜的思想。

5、思考
心智模型將思考視為一個內部反饋迴圈。行動模型的部分輸出被再次接收，作為下一個迴圈的輸入。（https://www.jdon.com/66107.html）

在心智模型中，每個要點都可能是透過行動模型進行的一次思想迭代。

思想的本質
一種思維模式是預測未來，包括其他代理的未來行動。這在遊戲環境中很有用，但在許多其他場景中也很有用。例如，如果你正在與某人談判（例如與年幼的孩子一起應對睡前例行事務的棘手情況），預測另一個代理將如何對不同溝通方式做出反應是很有用的。

另一種思維模式是創造力，即你想出新的想法。例如，寫小說、寫詩、畫畫或創作新音樂。在這種思維模式下，我覺得創造力有一個總體方向，我們交替嘗試發現正在創作的作品的各個部分，或者我們知道自己想要實現什麼，然後努力將這個目標轉化為現實，比如畫出我們心中清晰的影像。

與上述兩種思維相關的一種思維是解決問題，即我們想要實現某些目標，但不知道前進的最佳方式。

6、自省（向內求）
內省是對自己內心體驗的認識——對自己的想法和感受。如果我們在下棋，你走了一步棋，你可以解釋這一步背後的想法。

思想和感覺可以在沒有意識的情況下存在。沒有內省的思考的一個例子：狗可以透過思考來解決問題，比如如何得到它們想要的食物。但我也猜想它們不會思考自己的想法；這就是沒有內省的思考的一個例子。

（banq注：怨天怨地、怨環境、怨上帝，投錯胎，生長在錯誤原生家庭、媽寶、謹慎保守等等都是向外求，缺乏自省的表現）

7、意識
“意識”這個詞本身非常模糊。意識不過是特徵的集合，更應該關注更容易定義的具體特徵。

詳細點選標題

元學習：人類與大模型比較建模

相關文章