大模型內部有一個平面和直邊構成的幾何物件

banq發表於2024-06-11

論文《大型語言模型中的分類和層次概念的幾何形狀》研究瞭如何在大型語言模型 (LLM) 的嵌入空間中表示分類和層次概念。

  • 並且在 Gemma LLM 上驗證了這些理論結果,估算了 WordNet 中 957 個層次相關概念的表示。
  • 研究結果揭示了大模型 編碼語義中蘊含非常簡單的幾何結構:具有平面直邊的幾何物件

這篇論文由Kiho Park、Yo Joong Choe、Yibo Jiang和Victor Veitch共同撰寫,他們來自芝加哥大學的統計系、資料科學研究所和電腦科學系。

兩個基本問題:

  • 範疇概念:類別概念(如哺乳動物、鳥類、爬行動物、魚類)是如何表示的;
  • 層級關係:概念之間的層級關係是如何編碼的,例如狗是哺乳動物這一事實是如何表示的。

他們展示瞭如何擴充套件線性表示假設來解答這些問題,並發現了一個非常簡單的幾何結構:

  • 簡單的類別概念被表示為單純幾何形,
  • 層級相關的概念在某種意義上是正交的向量,
  • 複雜概念則被表示為由單純形的直邊和麵構成的多面體(具有平面和直邊的幾何物件),反映了層級結構。

論文的主要貢獻包括:

  1. 展示瞭如何從二元概念的方向表示轉移到向量表示,從而使用向量運算來組合表示。
  2. 利用這一結果,展示了概念之間的語義層級如何被幾何編碼為表示之間的正交性。
  3. 構建了類別變數的表示(例如動物),並展示了對於“自然”概念,表示是一個單純形。
  4. 在Gemma大型語言模型上驗證了這些理論結果,透過從WordNet提取概念、估計它們的表示,並展示了表示的幾何結構與WordNet的語義層級一致。

論文還提供了一些初步的背景知識,包括大型語言模型的組成部分、概念的形式化定義、因果內積和線性表示等。接著,作者詳細討論了二元概念和層級結構、複雜概念的表示,以及如何將二元特徵表示為向量,以及如何使用這些向量表示來構建複雜概念的表示。

最後,論文透過實驗驗證了理論結果,並討論了相關工作和未來的研究方向。作者指出,這些結果為理解語言模型中表示空間的結構提供了基礎,併為未來的研究提供了新的方向,例如改進對LLM結構的解釋,以明確考慮層級語義,以及如何理解內部層的幾何結構。

論文的程式碼已在GitHub上公開,地址為github.com/KihoPark/LLM_Categorical_Hierarchical_Representations。

相關文章