論文《大型語言模型中的分類和層次概念的幾何形狀》研究瞭如何在大型語言模型 (LLM) 的嵌入空間中表示分類和層次概念。
- 並且在 Gemma LLM 上驗證了這些理論結果,估算了 WordNet 中 957 個層次相關概念的表示。
- 研究結果揭示了大模型 編碼語義中蘊含非常簡單的幾何結構:具有平面和直邊的幾何物件
這篇論文由Kiho Park、Yo Joong Choe、Yibo Jiang和Victor Veitch共同撰寫,他們來自芝加哥大學的統計系、資料科學研究所和電腦科學系。
兩個基本問題:
- 範疇概念:類別概念(如哺乳動物、鳥類、爬行動物、魚類)是如何表示的;
- 層級關係:概念之間的層級關係是如何編碼的,例如狗是哺乳動物這一事實是如何表示的。
他們展示瞭如何擴充套件線性表示假設來解答這些問題,並發現了一個非常簡單的幾何結構:
- 簡單的類別概念被表示為單純幾何形,
- 層級相關的概念在某種意義上是正交的向量,
- 複雜概念則被表示為由單純形的直邊和麵構成的多面體(具有平面和直邊的幾何物件),反映了層級結構。
論文的主要貢獻包括:
- 展示瞭如何從二元概念的方向表示轉移到向量表示,從而使用向量運算來組合表示。
- 利用這一結果,展示了概念之間的語義層級如何被幾何編碼為表示之間的正交性。
- 構建了類別變數的表示(例如動物),並展示了對於“自然”概念,表示是一個單純形。
- 在Gemma大型語言模型上驗證了這些理論結果,透過從WordNet提取概念、估計它們的表示,並展示了表示的幾何結構與WordNet的語義層級一致。
論文還提供了一些初步的背景知識,包括大型語言模型的組成部分、概念的形式化定義、因果內積和線性表示等。接著,作者詳細討論了二元概念和層級結構、複雜概念的表示,以及如何將二元特徵表示為向量,以及如何使用這些向量表示來構建複雜概念的表示。
最後,論文透過實驗驗證了理論結果,並討論了相關工作和未來的研究方向。作者指出,這些結果為理解語言模型中表示空間的結構提供了基礎,併為未來的研究提供了新的方向,例如改進對LLM結構的解釋,以明確考慮層級語義,以及如何理解內部層的幾何結構。
論文的程式碼已在GitHub上公開,地址為github.com/KihoPark/LLM_Categorical_Hierarchical_Representations。