Claude 3.5 Sonnet為何更擅長做碼農?

banq發表於2024-06-29


Claude 3.5 Sonnet因其機制可解釋性而擅長編碼。

機制可解釋性:
這是指理解機器學習模型內部運作的能力,尤其是不同元件如何對模型的預測或輸出做出貢獻。

就 LLM 而言,這可能意味著理解不同層、神經元甚至單個權重在模型決策過程中的作用。

Anthropic方法:
Anthropic 是一家研究機構,專注於使先進的人工智慧系統與人類價值觀相一致。Anthropic 透過操縱 LLM 的權重或其他內部機制來解釋和影響 LLM 行為的方法。

引導行為:
這裡的 "引導 "一詞意味著,透過了解模型的內部機制,人們可以引導或影響其行為向預期的方向發展。

這可能涉及調整模型的權重或其他引數,以最佳化特定任務(如編碼)的效能。

解釋大模型內部機制的難度:
當你試圖單獨理解一個模型的每個權重時,它們是沒有意義的。

這就是疊加:

  • 每個神經元代表許多特徵,
  • 但它們的組合可能代表我們可以理解的單一 "特徵"。(湧現

SAE訓練
為了理解這些資料,可以對權重進行稀疏自動編碼器(SAE)訓練。

其基本思想是將資料編碼成一堆數字,然後嘗試從中重新建立原始資料,並不斷用數學方法調整數字,以儘可能地還原資料。(還原論)

在權重上訓練 SAE 可能會耗費大量計算資源:

  • Anthropic 在 Sonnet 上使用 100 萬、400 萬和 3400 萬個引數進行了這種訓練。
  • 然後,當你看到文字生成時哪些特徵被啟用,
  • 你就可以推斷出特徵的含義:可以是概念、主題或行為。

一旦你知道了你的特徵,你就可以在推理過程中把它們 "調"低或 "調 "高,從而改變模型的行為方式!

這就是人類干預讓Claude成功的原因(也夾帶了人類私貨:認知偏見

然而,這個無傷大雅的演示並不能充分體現可解釋性的威力。
還有更多抽象的功能,如程式碼錯誤、功能、不誠實、偏見、傷害、欺騙等等!(用人類中個別人的標準去篩選綁架言論)

事實上,每個特徵啟用的不是一個神經元,而是同時啟用多個神經元。 更大的 SAE 可以顯示更細粒度的特徵,而且可以大於 34M。

功能引導就像腦外科手術。你可以引導 LLM 隨心所欲地思考。

  • 想讓模型不說 "不安全 "的話?
  • 想要它不表現出性別偏見?
  • 想要它生成的程式碼不存在安全漏洞?

夾住它!讓它變成夾腦袋,司馬夾!

那麼,這一切意味著什麼呢?
如今,如果你想讓一個模型有不同的表現,就需要進行昂貴的微調:

  • 向它丟擲文字,然後說 "要像這樣表現"。
  • 這很難實現,成本很高,而且經常不起作用。

現在:
  • 你可以用外科手術的方式改變行為,成本非常低廉!

banq注:企業大語言模型應用場景開啟了,企業AI 這詞正中企業資本家的控制與追求確定性心理。

如果你只是想讓一個模型......在某些方面做得更好,也是同樣的道理。
這就是 3.5 Sonnet 的優勢所在。 它的速度與 3 Sonnet 相同,價格便宜,而且效能出眾,尤其是在程式碼方面,在 LMSys 中排名第一。 這就是我認為 3.5 非常好的原因!

banq注:考試駭客由此可以誕生了,只要有排行榜、考試,就有相應駭客,想在LLM排行榜中排列第一,專門針對排行榜測試指標最佳化。

來源:

  • 互動式特徵探索器:https://transformer-circuits.pub/2024/scaling-monosemanticity/umap.html?targetId=34m_31164353
  • 理解權重:appendix-autoencoder>https://transformer-circuits.pub/2023/monosemantic-features/index.htmlappendix-autoencoder<a>
  • 縮放 SAE 和特徵轉向:assessing-tour-influence/>https://transformer-circuits.pub/2024/scaling-monosemanticity/index.htmlassessing-tour-influence/<a>

相關文章