Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 筆記

EpicMoCN發表於2024-10-14

概述

提出了一個專家混合網路。透過門控系統來確定不同專家系統的加權組合,以在不同的場景中啟用不同的專家模組。

大圖

動機

神經網路吸收資訊的能力受到引數量的限制,在理論上,有人提出了條件計算的方法,即網路的某些部分在每個例項都基礎上處於活躍的狀態。因此可以透過門控網路來顯著地增加模型的容量。

方法

以上為門控網路,其透過 H(x) 來作為 Softmax 的承載的函式,其構造是輸入 x dot 可訓練的網路引數 Wg,在這個基礎上加上平滑噪音以負載均衡,使得每個 Expert 都有被選擇的空間。同時,使用了 Topk 確保了稀疏性。最後,使用 Softmax 計算權重。

相關文章