位元組跳動豆包大模型團隊於近日提出超連線(Hyper-Connections),一種簡單有效的殘差連線替代方案。面向殘差連線的主要變體的侷限問題,超連線可透過動態調整不同層之間的連線權重,解決梯度消失和表示崩潰(Representation Collapse)之間的權衡困境。在 Dense 模型和 MoE 模型預訓練中,超連線方案展示出顯著的效能提升效果,使收斂速度最高可加速 80%。
論文標題:Hyper-Connections 論文連結:https://arxiv.org/pdf/2409.19606
Pre-Norm:在每個殘差塊之前進行歸一化操作,可有效減少梯度消失問題。然而,Pre-Norm 在較深網路中容易導致表示崩潰,即深層隱藏表示過於相似,從而削弱了模型學習能力。 Post-Norm:在殘差塊之後進行歸一化操作,有助於減少表示崩潰問題,但也重新引入梯度消失問題。在 LLM 中,通常不會採用此方法。
深度連線(Depth-Connections):這些連線類似於殘差連線,只為輸入與輸出之間的連線分配權重,允許網路學習不同層之間的連線強度。 寬度連線(Width-Connections):這些連線使得每一層多個隱藏向量之間可進行資訊交換,從而提高模型表示能力。