語言模型可以被用作世界模擬器嗎? 在我們的ACL 2024論文中,我們證明了這不是真的。
- GPT-4在模擬基於常識任務(如沸水)的狀態變化時,準確率僅為60%。
該論文題為 "語言模型能否作為基於文字的世界模擬器?
- 該論文討論了大型語言模型(LLM)在模擬基於文字的遊戲中的狀態轉換方面的效能,
- 當前的語言模型是否能夠作為世界模擬器,正確預測動作如何改變不同的世界狀態,從而繞過廣泛的手動編碼需求?
- 並評估了它們作為顯式形式模擬器的能力。
作者提出了一個基準資料集 BYTESIZED32-State-Prediction,由 76,369 個虛擬文字環境狀態轉換組成,並使用 GPT-4 測試了模型的能力。透過這個基準測試,他們首次直接量化了大型語言模型(LLMs)作為文字基礎世界模擬器的效能。
結果表明:
- 儘管 LLM 可以模擬簡單的轉換,但它們在處理需要算術、常識或科學知識的更復雜轉換時卻顯得力不從心。
本文強調了當前 LLM 在這項任務中的侷限性,並建議需要進一步改進,使其成為可靠的文字世界模擬器。
實驗:
如果你只是和一個LLM對話,它有時似乎是一個合理的世界模擬器(例如AI Dungeon)。 但是,當它必須跟蹤物件(如水槽、杯子和爐子)及其狀態的顯式表示時,事情就變得更加困難了。
遊戲模擬器有兩個主要階段:
- 基於直接使用者操作更改物件狀態(例如開啟接收器)
- 根據操作更改隱式環境狀態(例如,水槽中的杯子裝滿水)
LLM在#1時表現良好(~70%+),但在#2時仍然很差(~20-50%)
但是:LLM在這方面正在迅速變得更好。
最大的底線是:錯誤會在模擬器多個步驟中複合。 如果您在模擬單個步驟時的精度為X%,則在模擬N個步驟時的精度為X^n。 因此,準確度需要達到90%以上才能獲得短期模擬準確度。
因此,我們這些為LLM構建詳細虛擬環境模擬器的人仍然會有一段時間的工作。
結論:
研究結果表明,儘管LLM顯示出了希望,但它們作為直接基於文字的世界模擬器仍然不可靠,特別是在捕獲環境驅動的轉換和需要複雜推理的轉換時。
通用LLM這樣的結果並不令人驚訝。在RAG方法中,當被專有和特定領域的應用程式增強時,它們能成為更好的世界模型嗎?人們會這樣想。
當LLM大模型像人有五官,在它的引數中充滿了3D世界的影像和影片時,他們的分數就會上升。60%對於生活在一個單詞宇宙中並不得不進行推斷來說是相當不錯的。