Google multitask模型SNR

xd_xumaomao發表於2024-03-06

背景

MMoE模型從一定程度上解決了多個目標(任務)在訓練過程中的相互耦合的問題,即使用門控概念(gate network)降低了因為share-layer部分帶來的“特徵耦合”。但其實這是不夠的,因為在每一個expert內部,與其他的expert不存在聯絡,這導致每個expert的表達能力不是“那麼強”。因此google提出了SNR模型,專家層分為多層,底層的專家會互相融合作為高層專家的輸入,並採用了NAS來搜尋各個任務網路結構

SNR模型結構

論文根據 SNR 中專家之間連線方式的不同,提出了 SNR-Trans 和 SNR-Aver 兩種網路結構,具體的連線公式如下。其中 u 表示低層專家,v 表示高層專家,z∈[0,1] 用來控制專家間的連線,也就代表著網路結構的搜尋空間。

SNR-Trans:

SNR-Aver:

參考資料

https://zhuanlan.zhihu.com/p/683017323

https://zhuanlan.zhihu.com/p/150464424

相關文章