引入混合深度,DeepMind 新設計可大幅提升 Transformer 效率。
論文標題:Mixture-of-Depths: Dynamically allocating compute in transformer-based language models 論文地址:https://arxiv.org/pdf/2404.02258.pdf
設定一個靜態的計算預算,該預算低於等價的常規 Transformer 所需的計算量;做法是限制序列中可參與模組計算(即自注意力模組和後續的 MLP)的 token 數量。舉個例子,常規 Transformer 可能允許序列中的所有 token 都參與自注意力計算,但 MoD Transformer 可限定僅使用序列中 50% 的 token。 針對每個 token,每個模組中都有一個路由演算法給出一個標量權重;該權重表示路由對各個 token 的偏好 —— 是參與模組的計算還是繞過去。 在每個模組中,找到最大的前 k 個標量權重,它們對應的 token 會參與到該模組的計算中。由於必定只有 k 個 token 參與到該模組的計算中,因此其計算圖和張量大小在訓練過程中是靜態的;這些 token 都是路由演算法認定的動態且與上下文有關的 token。