MXNet: Barrier
1. KVStore裡的Barrier
在mxnet的分散式訓練裡,主要模式就是引數伺服器。每個worker或者agent就是一臺machine,server用於引數的更新。那麼,當我們期望在不同的worker之間進行同步的時候,就會需要到barrier
這個方法。
當程式碼執行在worker的時候,我們可以通過呼叫kv._barrier()
來進行同步。它的作用就是,會阻塞程式碼執行,直到每個worker都執行了kv._barrier()
。然後接著執行。這樣就實現了同步。
那麼它是怎麼做到的呢?
通過原始碼,我們不難發現,python端的介面呼叫了c++端的方法:
void Barrier() override {
ps::Postoffice::Get()->Barrier(ps_worker_->get_customer()->customer_id(), ps::kWorkerGroup);
}
這個全域性的Postoffice
的Barrier
方法的部分原始碼如下:
void Postoffice::Barrier(int customer_id, int node_group) {
// 省略部分程式碼
// 省略部分程式碼
std::unique_lock<std::mutex> ulk(barrier_mu_);
barrier_done_[0][customer_id] = false;
Message req;
req.meta.recver = kScheduler;
req.meta.request = true;
req.meta.control.cmd = Control::BARRIER;
req.meta.app_id = 0;
req.meta.customer_id = customer_id;
req.meta.control.barrier_group = node_group;
req.meta.timestamp = van_->GetTimestamp();
CHECK_GT(van_->Send(req), 0);
barrier_cond_.wait(ulk, [this, customer_id] {
return barrier_done_[0][customer_id];
});
}
可以看到該方法會首先對barrier_mu_
上鎖,之後將對應的barrier_done_
設定為false
。然後將這次的barrier資訊傳送給scheduler。告訴scheduler需要進行一次barrier。然後就阻塞等待barrier_done_
被設定為true
,代表完成了barrier,也就是其他的worker也都進行了barrier。
那麼問題就變成了,每個worker都是怎麼直到其他worker也進行了barrier的?
首先我們要知道,在引數伺服器也就是PS中,每個程式都會建立kvstore。如果是worker,會在建構函式中執行如下程式碼:
if (IsWorkerNode()) {
int new_customer_id = GetNewCustomerId();
ps_worker_ = new ps::KVWorker<char>(0, new_customer_id);
ps::StartAsync(new_customer_id, "mxnet\0");
if (!ps::Postoffice::Get()->is_recovery()) {
ps::Postoffice::Get()->Barrier(
new_customer_id,
ps::kWorkerGroup + ps::kServerGroup + ps::kScheduler);
}
}
其中ps::StartAsync
如下:
inline void StartAsync(int customer_id, const char* argv0 = nullptr) {
Postoffice::Get()->Start(customer_id, argv0, false);
}
也就是說,worker在建立起ps_worker_
後,開始執行postoffice,而postoffice的Start
會進行一系列的操作,並呼叫van_->Start
,接著van
的Start
會進行一系列的初始化後,開啟接受訊息的執行緒,也就是
receiver_thread_ = std::unique_ptr<std::thread>(
new std::thread(&Van::Receiving, this));
而receiving
函式會使用ProcessBarrierCommand
處理barrier訊號,該函式會++barrier_count_[group]
,也就是將對應group的barrier次數進行統計。當barrier_count_[group]
等於這個group的個數的時候。它會傳送類似於ACK的返回資訊。
然後worker會呼叫Manage
方法來處理該message。Manage
發現是barrier的返回資訊,將barrier_done_設定為true
,然後將等待的執行緒喚醒。也就是python端呼叫barrier後被阻塞的地方。
至此,就完成了一次worker之間的barrier。
相關文章
- Barrier
- Caffe轉mxnet模型——mxnet工具模型
- 02-dispatch_barrier
- MXnet轉caffe
- Barrier 的安裝和配置
- PyTorch之分散式操作BarrierPyTorch分散式
- Caffe轉mxnet模型——mmdnn模型DNN
- MXNet: wait_to_read 方法AI
- synergy最佳解決方案——barrier
- insightface之mxnet model轉caffemodel
- [轉載] Python程式——multiprocessing.Event()|Barrier()Python
- 深度框架 MXNet/Gluon 初體驗框架
- MXNET:多層神經網路神經網路
- Android開發 - 掌握ConstraintLayout(八)障礙線(Barrier)AndroidAI
- hybrid write barrier 為什麼能消除 stack rescanning?
- 使用mmdnn將MXNET轉成Tensorflow模型DNN模型
- Mxnet R FCN 訓練自己的資料集
- mxnet資料格式轉換為tensorflow,pytorch資料PyTorch
- Mxnet-R-FCN-訓練自己的資料集
- MxNet預訓練模型到Pytorch模型的轉換模型PyTorch
- 快速入門MXBoard:MXNet資料視覺化工具視覺化
- Mxnet模型檔案轉換為Pb模型檔案模型
- 雲上深度學習實踐分享——雲上MXNet實踐深度學習
- CPU快取一致性協議MESI,memory barrier和java volatile快取協議Java
- 使用Mxnet基於skip-gram模型實現word2vect模型
- 從VGG到ResNet,你想要的MXNet預訓練模型輕鬆學模型
- Mxnet模型轉化為ncnn模型,並驗證轉化正確性模型CNN
- MXNet的資料格式轉化為tensorflow訓練用的資料格式
- 基於MXNET框架的線性迴歸從零實現(房價預測為例)框架
- MXNet 0.11釋出,加入動態圖介面Gluon,還有兩位CMU教授的親筆教程
- 手把手 | Apache MXNet助力數字營銷,檢測社交網路照片中的商標品牌Apache
- Mxnet速查_CPU和GPU的mnist預測訓練_模型匯出_模型匯入再預測_匯出onnx並預測GPU模型