1.原理
針對transformer模型的模型並行方法,利用矩陣乘法的特性,將每個層切開,放入不同GPU中。

2.缺點
使用多頭注意力的transformer的頭數、MLP隱藏層大小需要能夠被GPU數整除。每計算一個層就需要進行all reduce,導致不同層之間的計算是同步的,且有較大的通訊開銷。
針對transformer模型的模型並行方法,利用矩陣乘法的特性,將每個層切開,放入不同GPU中。
使用多頭注意力的transformer的頭數、MLP隱藏層大小需要能夠被GPU數整除。每計算一個層就需要進行all reduce,導致不同層之間的計算是同步的,且有較大的通訊開銷。