超越單詞計數:上下文位置編碼CoPE

banq發表於2024-05-30


語境上下文很重要! CoPE 是一種新的transformer位置編碼方法,它考慮了 * 上下文 *。

  • - 可根據需要 "計算 "每個詞頭的距離,例如第 i 個句子或段落、單詞、動詞等。而不僅僅是標記。
  • - CoPE 解決了標準transformer無法解決的計數和複製任務。
  • - 在語言建模和編碼任務方面,PPL 更勝一籌。

動機:
即使是功能強大的 LLM:如GPT4 & Llama 2,在按標記token索引時很難注意到句子等概念。

  • 這是架構的根本缺陷。
  • 一個連這都做不到的模型,如何實現 AGI?

CoPE 配方 :

  • - 計算每個查詢、鍵對的門(使用上下文)
  • - 透過門的累積和計算位置

對每個詞頭都這樣做。
這樣就能對一個概念(如一個句子)進行非常敏銳的關注,而標準 PE 無法做到這一點。

CoPE 可以解決人工計數、選擇性複製和 "Flip-Flop "任務等常用位置編碼無法解決的問題。 它在分佈內和分佈外(與訓練相比,在更大或更小的上下文中)都能更好地工作。

最後,CoPE 在標準語言和程式碼建模任務中表現出色,改進了 PPL。

該論文作者是 Meta 的 FAIR 的 Olga Golovneva、Tianlu Wang、Jason Weston 和 Sainbayar Sukhbaatar

以下是該論文的要點摘要:

CoPE 簡介:

  • 作者提出了 CoPE,這是一種新的位置編碼方法,允許模型在確定位置時考慮上下文,從而注意到句子
  • 這與基於 token 計數的傳統位置編碼不同,傳統位置編碼無法推廣到更高的抽象層次,例如關注第 i 個句子

CoPE 的工作原理:

  • CoPE 根據 token 的上下文向量計算門值,
  • 並使用這些門值分配位置。

這允許更細緻的注意力機制,例如關注特定的單詞、名詞或句子。

實驗與結果:
進行了一系列實驗來評估 CoPE 在各種任務上的效能,包括 Flip-Flop 語言建模、選擇性複製、計數任務、Wikitext-103 上的語言建模和程式碼建模。

  • CoPE 的表現優於基於 token 的 PE 方法,尤其是在域外泛化方面。

效率和計算:
討論了 CoPE 的計算效率,並指出它可以以最小的額外計算成本來實現。

CoPE 比傳統的位置編碼方法有了顯著的改進,並且在文字和程式碼之外的各個領域都有潛在的應用。

 

相關文章