1.原理
與CPU的流水線的方法相同,Gpipe將模型分成多個塊,每個塊含有原模型的數個層。將每個塊放在不同的GPU上,實現模型的流水線執行。
2.缺點
由於使用了流水線,在流水線中,執行時間最長的塊將成為整個系統的瓶頸。卷積網路訓練過程中,設計到矩陣的維度變換,無法實現良好的切分平衡不同GPU之間的負載,而在transformer中表現較好。只能支援序列結構的神經網路。只能同步進行更新操作。
與CPU的流水線的方法相同,Gpipe將模型分成多個塊,每個塊含有原模型的數個層。將每個塊放在不同的GPU上,實現模型的流水線執行。
由於使用了流水線,在流水線中,執行時間最長的塊將成為整個系統的瓶頸。卷積網路訓練過程中,設計到矩陣的維度變換,無法實現良好的切分平衡不同GPU之間的負載,而在transformer中表現較好。只能支援序列結構的神經網路。只能同步進行更新操作。