deepspeed從入門到放棄

王冰冰發表於2024-09-01

原文網址 : https://www.cnblogs.com/wangbingbing/p/18389409

本文並不講解deepspeed的原理以及用法，只是澄清幾個deepspeed中的技術細節。

啟動deepspeed訓練可以透過執行deepspeed --nproc-per-node 4 xxx.py ...，這樣就會啟動4個程序來執行xxx.py

deepspeed啟動程序後如何知道是幾號程序？
答：deepspeed啟動程序會自動傳入一個引數--local_rank=<rank>，同時也會設定環境變數LOCAL_RANK。

torchrun是透過環境變數LOCAL_RANK來傳遞rank，而torch.distributed.launch則是透過引數--local-rank=<rank>，值得注意的是，在pytorch 1.x版本中，torch.distributed.launch傳遞的引數是--local_rank=<rank>(注意下劃線和連字元的不同)。

dist.broadcast超時
答：分散式操作必須在所有的卡上都進行才可以，不能只有部分程序執行了這條程式碼。假如寫了如下程式碼就會超時：

if local_rank == 0:
    torch.distributed.broadcast(tensor, src=0)

必須在所有卡上呼叫broadcast(tensor, src=0)，只不過其他卡執行的是“recv”操作，0號卡執行的是“send”操作，不然0卡傳送出去後會一直等待其他程序接收，結果其他程序一直不接收，就會超時。
3. zero-3將模型切分後，在一張卡上的model.parameters()返回的是什麼？
寫一段程式碼測試一下哈。實測返回的是一個空引數，並不是模型的實際引數，列印結果如下：

tensor([], device='cuda:3', requires_grad=True)

Git 從入門到放棄
2019-03-03
Git
XXE從入門到放棄
2020-01-17
Vue 從入門到放棄
2019-12-30
Vue
Nginx從入門到放棄
2020-09-30
Nginx
GraphQL從入門到放棄
2019-03-04
NumPy從入門到放棄
2024-08-08
webpack從入門到放棄
2018-03-07
Web
openstack從入門到放棄
2018-04-21
HTTP從入門到放棄
2018-04-18
HTTP
swoole——從入門到放棄（一）
2019-02-16
swoole——從入門到放棄（三）
2019-01-19
快取從入門到放棄
2019-02-28
快取
Spark從入門到放棄---RDD
2020-08-17
Spark
webpack 從入門到放棄(一)
2019-03-03
Web
從入門到放棄 - 事件溯源
2021-08-16
事件
HTTP快取從入門到放棄
2018-11-29
HTTP快取
Flink從入門到放棄-大綱
2019-02-24
Taro 小程式從入門到放棄！
2018-07-30
Python 從入門到放棄——Python科普！
2020-04-04
Python
Scikit-learn從入門到放棄
2024-08-18
t-SNE 從入門到放棄
2021-10-13
webpack -> vue Component 從入門到放棄（四）
2019-02-16
WebVue
Realm資料庫從入門到“放棄”
2019-03-02
資料庫
分散式訓練從入門到放棄
2019-04-11
分散式
AOP埋點從入門到放棄（二）
2018-08-12
AOP埋點從入門到放棄（三）
2018-08-21
從入門到放棄之promise用法(上)
2018-06-14
Promise
Elasticsearch從入門到放棄：瞎說Mapping
2020-08-04
ElasticsearchAPP
Elasticsearch從入門到放棄：再聊搜尋
2020-07-14
Elasticsearch
從入門到放棄，我用了五年
2020-09-24
Redis從入門到放棄系列(十) Cluster
2019-07-02
Redis
從入門到放棄之大資料Hive
2019-05-12
大資料Hive
Spark從入門到放棄——初始Spark（一）
2020-12-09
Spark
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
React從入門到放棄(5)：ReactRouter4
2018-05-24
React
Kafka從入門到放棄(一) —— 初識Kafka
2021-12-02
Kafka
gitlab-ci從入門到差點放棄
2022-05-15
Gitlab
Ubuntu從入門到放棄的一天
2022-04-28
Ubuntu

deepspeed從入門到放棄

相關文章