揭秘:GPT-4如何思考?

banq發表於2024-06-07


幾周前,Anthropic宣佈他們從 Claude 3 Sonnet 模型中提取了數百萬個可理解的特徵。今天,OpenAI 宣佈了針對 GPT-4 的類似結果:

  • 使用新的可擴充套件方法將 GPT-4 的內部表示分解為 1600 萬個可經常解釋的模式。

這些特徵是“我們希望人類能夠解釋的活動模式”。釋出內容包括 [程式碼] 和論文《稀疏自動編碼器的擴充套件和評估》 (PDF),其中有九位作者,其中兩位 - Ilya Sutskever 和 Jan Leike - 是上個月離開 OpenAI 的知名人物。

解釋神經網路的挑戰
與大多數人類創造物不同,我們並不真正瞭解神經網路的內部運作。例如,工程師可以根據汽車零部件的規格直接設計、評估和修理汽車,確保汽車的安全和效能。然而,神經網路並不是直接設計出來的,而是由我們來設計訓練它們的演算法。由此產生的網路並不為人所熟知,也無法輕易分解為可識別的部分。這意味著我們無法像推理汽車安全那樣推理人工智慧的安全性。

為了理解和解釋神經網路,我們首先需要找到有用的神經計算構件。不幸的是,語言模型內部的神經啟用以不可預測的模式啟用,似乎同時代表了許多概念。它們的啟用也很密集,這意味著每個啟用總是在每個輸入上點燃。但現實世界中的概念非常稀疏--在任何給定的語境中,所有概念中只有一小部分是相關的。這就促使人們使用稀疏自動編碼器,這種方法可以識別神經網路中對產生任何給定輸出都很重要的少數 "特徵",類似於一個人在推理某種情況時可能會想到的一小部分概念。它們的特徵顯示出稀疏的啟用模式,自然地與人類易於理解的概念相一致,即使沒有直接的可解釋性激勵。

然而,稀疏自動編碼器的訓練仍面臨嚴峻挑戰。大型語言模型代表了大量的概念,而我們的自動編碼器可能也需要相應的龐大數量才能接近前沿模型中概念的全面覆蓋。學習大量稀疏特徵具有挑戰性,而且過去的工作還沒有顯示出良好的擴充套件性。

我們的研究進展:大規模自動編碼器訓練
我們開發了最先進的新方法,可以將稀疏自動編碼器擴充套件到前沿人工智慧模型的數千萬個特徵。我們發現,我們的方法展示了平滑且可預測的擴充套件,與之前的技術相比,擴充套件回報率更高。我們還引入了幾個新指標來評估特徵質量。

我們使用我們的方法在 GPT-2 小型啟用和 GPT-4 啟用上訓練了各種自動編碼器,包括在 GPT-4 上訓練了 1600 萬個特徵自動編碼器。為了檢查特徵的可解釋性,我們將給定的特徵視覺化,顯示其啟用的文件。

用於探索功能的互動式工具:是稀疏自動編碼器特徵的檢視器

限制
我們很高興可解釋性最終能夠提高模型的可信度和可操作性。然而,這仍處於早期階段,存在許多侷限性:

  • 與之前的研究一樣,許多發現的特徵仍然難以解釋,許多特徵的啟用沒有明確的模式,或者表現出與它們通常編碼的概念無關的虛假啟用。此外,我們也沒有很好的方法來檢查解釋的有效性。
  • 稀疏自動編碼器無法捕獲原始模型的所有行為。目前,將 GPT-4 的啟用透過稀疏自動編碼器可獲得與使用大約 10 倍計算量訓練的模型相當的效能。為了完全對映前沿 LLM 中的概念,我們可能需要擴充套件到數十億或數萬億個特徵,即使使用改進的擴充套件技術,這也具有挑戰性。
  • 稀疏自動編碼器可以在模型的某一點找到特徵,但這只是解釋模型的一步。還需要做更多的工作來了解模型如何計算這些特徵,以及這些特徵如何在模型的其餘部分中下游使用。

 

相關文章