分散式訓練用torchrun進行,要注意:
-
所有程序必須固定隨機種子,不然可能會導致訓練時不同程序的樣本不一致,尤其是涉及隨機數時,比如train_test_split。
-
export LOGLEVEL=DEBUG可以修改torchrun的log級別
分散式訓練用torchrun進行,要注意:
所有程序必須固定隨機種子,不然可能會導致訓練時不同程序的樣本不一致,尤其是涉及隨機數時,比如train_test_split。
export LOGLEVEL=DEBUG可以修改torchrun的log級別