pytorch分散式訓練注意事項/踩坑總結 - 持續更新

王冰冰發表於2024-06-18

分散式訓練用torchrun進行,要注意:

  1. 所有程序必須固定隨機種子,不然可能會導致訓練時不同程序的樣本不一致,尤其是涉及隨機數時,比如train_test_split。

  2. export LOGLEVEL=DEBUG可以修改torchrun的log級別

相關文章