語境上下文很重要! CoPE 是一種新的transformer位置編碼方法,它考慮了 * 上下文 *。
- - 可根據需要 "計算 "每個詞頭的距離,例如第 i 個句子或段落、單詞、動詞等。而不僅僅是標記。
- - CoPE 解決了標準transformer無法解決的計數和複製任務。
- - 在語言建模和編碼任務方面,PPL 更勝一籌。
動機:
即使是功能強大的 LLM:如GPT4 & Llama 2,在按標記token索引時很難注意到句子等概念。
- 這是架構的根本缺陷。
- 一個連這都做不到的模型,如何實現 AGI?
CoPE 配方 :
- - 計算每個查詢、鍵對的門(使用上下文)
- - 透過門的累積和計算位置
對每個詞頭都這樣做。
這樣就能對一個概念(如一個句子)進行非常敏銳的關注,而標準 PE 無法做到這一點。
CoPE 可以解決人工計數、選擇性複製和 "Flip-Flop "任務等常用位置編碼無法解決的問題。 它在分佈內和分佈外(與訓練相比,在更大或更小的上下文中)都能更好地工作。
最後,CoPE 在標準語言和程式碼建模任務中表現出色,改進了 PPL。
該論文作者是 Meta 的 FAIR 的 Olga Golovneva、Tianlu Wang、Jason Weston 和 Sainbayar Sukhbaatar
以下是該論文的要點摘要:
CoPE 簡介:
- 作者提出了 CoPE,這是一種新的位置編碼方法,允許模型在確定位置時考慮上下文,從而注意到句子
- 這與基於 token 計數的傳統位置編碼不同,傳統位置編碼無法推廣到更高的抽象層次,例如關注第 i 個句子。
CoPE 的工作原理:
- CoPE 根據 token 的上下文向量計算門值,
- 並使用這些門值分配位置。
這允許更細緻的注意力機制,例如關注特定的單詞、名詞或句子。
實驗與結果:
進行了一系列實驗來評估 CoPE 在各種任務上的效能,包括 Flip-Flop 語言建模、選擇性複製、計數任務、Wikitext-103 上的語言建模和程式碼建模。
- CoPE 的表現優於基於 token 的 PE 方法,尤其是在域外泛化方面。
效率和計算:
討論了 CoPE 的計算效率,並指出它可以以最小的額外計算成本來實現。
CoPE 比傳統的位置編碼方法有了顯著的改進,並且在文字和程式碼之外的各個領域都有潛在的應用。