Anthropic 對對映其大型語言模型 Claude 的內部表示的研究的要點:
Anthropic 開發了一種稱為“詞典學習”的技術,用於識別其語言模型 Claude 中與特定概念、實體和想法相對應的神經元狀“節點”或“特徵”集。這使得他們能夠對映數百萬個概念在模型的神經網路中的內部表示方式。
主要發現
- 他們發現了與大量實體相對應的特徵,例如城市、人物、科學概念、程式設計語法等。例如,金門大橋、羅莎琳德·富蘭克林、鋰、免疫學和功能呼叫等都有不同的特徵。
- 在模型中,相關概念聚集在一起。在“金門大橋”特徵附近,有附近地點的特徵,如惡魔島,以及相關人物/事件的特徵,如 1906 年地震。
- 諸如“內心衝突”之類的抽象概念與關係破裂、忠誠衝突、邏輯矛盾以及小說“第22條軍規”有相似的特徵。
- 這種概念的內部組織與人類的相似性概念相對應,可能解釋了Claude 的類比和隱喻能力。
啟示
- 透過識別和操縱這些特徵,Anthropic 可以直接調整模型的行為,而無需重新訓練、放大或抑制某些概念。
- 這可以監控危險的輸出,引導理想的結果,或者強制從語言模型中刪除有害內容。
- Anthropic 認為,透過這種“機械可解釋性”更深入地理解模型有助於使它們更安全、更可靠。
然而,這項研究的計算成本很高,可能需要對每個新的語言模型重複進行。對人工智慧安全和控制的長期影響還有待觀察。