編輯 | ScienceAI
在追求更強大 AI 系統的道路上,大語言模型處理長上下文的能力始終是制約其發展的關鍵瓶頸。
儘管 DeepSeek、GPT-4、LLaMA-3 等頂尖模型已能處理數萬 token 的文字,但學界對「模型究竟需要何種能力才能有效理解長文字」這一根本問題仍缺乏理論指導。
近日,麻省理工學院 Zhuo Chen、Oriol Mayn ́e i Comas 、Zhuotao Jin 、Di Luo 、Marin Soljači 領銜的研究團隊提出自然語言中隱藏的互資訊縮放定律(Mutual Information Scaling Law),並由此提出長上下文語言建模的 L²M 條件(Long-context Language Modeling condition),為理解大語言模型的長文字處理能力建立了首個系統化理論框架。
這項研究不僅完善了神經縮放定律(neural scaling laws)體系,更揭示了語言模型能力增長的隱藏維度。
圖1
一、長文字建模的本質挑戰:超越傳統認知的依賴關係
傳統觀點認為,自然語言的長程依賴關係可以透過「兩點互資訊」(即相隔 d 個 token 的兩個詞之間的統計關聯)的冪律衰減來描述。這一思路與凝聚態物理中研究自旋鏈兩點關聯函式的傳統方法異曲同工——兩者都試圖透過區域性關聯推測全域性性質。
這種認知直接影響了當前多數長文字模型的架構設計,例如透過最佳化注意力機制來捕捉遠端詞對關係。但 MIT 團隊透過嚴謹的理論推導和實驗證明,這種傳統認知存在根本性侷限。
研究團隊從量子多體系統的糾纏熵分析中獲得關鍵啟示:正如量子系統中糾纏熵的縮放定律(如面積律 vs 體積律)能區分不同物質相,自然語言的長程依賴結構需要更本質的全域性度量。
團隊提出了「二分互資訊」(Bipartite Mutual Information)這一全新度量:將長度為L的文字塊均分為前段X和後段Y,計算兩者之間的整體統計依賴(圖 1a)。
透過使用 LLaMA-3.1 405B 等先進模型作為機率分佈估計器,他們在 PG19 經典文獻資料集和維基百科語料上發現,二分互資訊呈現明確的冪律增長特性(I ~ L^β),與兩點互資訊的冪律衰減形成鮮明對比(圖 1b,c vs e,f)。
「這就像比較兩個人之間的電話聯絡和兩個城市之間的經濟往來。」論文第一作者 Zhuo Chen 解釋道,「兩點互資訊只能捕捉孤立的遠端詞對關聯,而二分互資訊揭示了文字塊之間複雜的整體依賴關係。當我們要處理整本小說或長篇對話時,後者才是真正的關鍵。」
二、L²M 條件:模型能力的分水嶺
基於這一發現,研究團隊建立了長上下文語言建模的 L²M 條件(Long-context Language Modeling condition)。該定理證明:模型儲存歷史資訊的隱狀態維度必須至少以二分互資訊的增速(L^β)增長,才能有效捕捉長程依賴。
這一理論突破揭示了不同架構的本質差異:
Transformer 類模型:透過儲存所有歷史 token 的 key-value 對,隱狀態維度自然隨序列長度線性增長(~L),自動滿足 L²M 條件
SSM 狀態空間模型:固定大小的隱狀態導致其必須隨序列增長而擴大模型規模,才能維持長文字處理能力
稀疏注意力模型:其有效隱狀態維度取決於注意力模式的設計,需具體分析是否滿足 L²M 條件
圖 2
研究團隊透過合成資料集實驗驗證了這一理論(圖 2)。在模擬自然語言互資訊特性的高斯分佈上,Transformer 在不同長度下保持穩定的 KL 散度,而 Mamba 類模型隨著序列延長效能顯著下降,必須增大模型尺寸才能匹配 Transformer 的表現。
三、實驗驗證:模型表現與理論預測高度吻合
圖 3
在 PG19 真實資料集實驗中(圖 3),研究團隊觀察到顯著的位置相關效能差異:當處理 4096 token 文字的後半段時,355M 引數的 GPT-2 Medium 與 790M 引數的 Mamba 模型達到相近效能,而引數更小的 Mamba-130M 在後半段顯著劣於同體量 Transformer。這與 L²M 條件的預測完全一致——Transformer 的隱狀態自然擴容特性使其在長上下文建模中具有架構優勢。
「這解釋了為什麼 Mamba 等線性複雜度模型在實際長文字任務中有時表現不及預期。」Zhuo Chen 指出,「我們的理論不是否定這些架構的價值,而是為改進設計指明方向:要麼接受模型尺寸的擴容需求,要麼重新設計隱狀態的儲存機制。」
四、理論指導實踐:下一代模型的進化方向
這項研究為 AI 系統的進化提供了多重啟示:
架構設計準則:理想的長文字模型應該在隱狀態擴容與計算效率間取得平衡。基於 L²M 條件的理論分析,研究團隊建議探索層次化記憶機制或動態狀態擴容方案
訓練策略最佳化:針對不同長度文字調整模型容量分配,在預訓練階段引入長度漸進式課程學習
評估體系革新:建立基於互資訊保持度的新評估標準,替代現有的簡單長度測試
跨語言泛化:驗證該理論在多語言場景的普適性,可能揭示人類語言的深層統一規律
研究團隊特別指出,滿足 L²M 條件只是長文字建模的必要非充分條件。「就像擁有大容量硬碟不等於會寫小說,模型還需要學會有效利用儲存的資訊。」Zhuo Chen 比喻道,「但我們的工作確保了『硬碟容量』這個基礎條件不會成為瓶頸。」
五、影響與展望:通向更智慧的 AI 系統
這項突破性研究不僅解決了理論層面的基礎問題,更為實際應用帶來直接影響:
效率革命:指導開發既滿足 L²M 條件又保持線性複雜度的新架構,有望大幅降低長文字處理的計算成本
能力突破:為需要超長上下文保持的複雜推理、多文件分析等任務提供理論支撐
評估革新:建立基於互資訊保持度的系統性評估框架,突破傳統長度測試的侷限性
目前,研究團隊正將理論應用於改進現有架構,並探索與統計物理啟發的模型最佳化方法結合的可能性。同時,他們也在探索該理論在程式碼生成、蛋白質序列建模、量子科學等領域的擴充應用。「理解互資訊縮放定律就像獲得了自然語言的『生長密碼』。」Zhuo Chen總結道,「這不僅推動AI理解長文字的能力,更為跨學科方法(如熱力學啟發的模型分析)提供了新視角。」
論文合作者 Di Luo 也指出:「語言模型互資訊縮放定律的提出,也將為 AI+Science 領域提供新的視角,為科學領域的生成模型提供重要的理論指導和創新思路。」
這項研究標誌著 AI 基礎理論的重要進步,為突破當前大語言模型的上下文長度限制提供了關鍵路線圖。隨著理論指導下的新架構不斷湧現,我們正邁向真正理解人類語言複雜性的智慧新時代