【譯】如何在每次訓練中都得到相同的word2vec/doc2vec/Paragraph Vectors

lfthwjx發表於2018-11-08

原文網址 : https://flycode.co/archives/50476

本文翻譯自作者在medium釋出的一篇推文，這裡是原文連結

本文是 Word Embedding 系列的第一篇。本文適合中級以上的讀者或者訓練過word2vec/doc2vec/Paragraph Vectors的讀者閱讀，但別擔心，我將在接下來的推文中介紹理論以及背景知識，並聯絡論文講解程式碼是如何實現的。

我會盡力不把各位讀者引導到一大堆冗長而又無法讓人真正理解的教程中，最後以放棄告終（相信我，我也是網上諸多教程的受害者）。我想我們可以一起從程式碼層面來了解word2vec,這樣我們可以知道如何設計並實現我們自己的word embedding 和language model.

如果您曾經自己訓練過word vectors，會發現儘管使用相同的資料進行訓練，但每次訓練得到的模型和詞向量表示都不一樣。這是因為在訓練過程中引入了隨機性所致。讓我們一起來從程式碼中找到這些隨機性是如何引入的，以及如何消除這種隨機性。我將用DL4j的Paragraph Vectors的實現來展示程式碼。如果您想看其他包的實現，可以看gensim的doc2vec，它有相同的實現方法。

隨機性從哪裡來

模型權重和詞向量的初始化

我們知道在訓練最初，模型各引數和詞向量表示會隨機初始化，這裡的隨機性是由seed控制實現的。因此，當我們把seed設為0，我們在每次訓練中會得到完全相同的初始化。這裡來看seed是如何影響初始化的，syn0是模型權重。

// Nd4j 設定有關生成隨機數的seedNd4j.getRandom().setSeed(configuration.getSeed());
// Nd4j 為 syn0 初始化一個隨機矩陣syn0 = Nd4j.rand(new int[] {vocab.numWords(), vectorLength
  }, rng).subi(0.5).divi(vectorLength);
複製程式碼

PV-DBOW 演算法

如果我們使用PV-DBOW演算法訓練Paragraph Vectors，在訓練迭代中，單詞會從視窗中隨機取得並計算、更新模型。但是這裡的隨機在程式碼實現中並不是真正的隨機。

// nextRandom 是一個 AtomicLong，並被threadId初始化this.nextRandom = new AtomicLong(this.threadId);
複製程式碼

nextRandom在trainSequence(sequence, nextRandom, alpha);被用到，在trainSequence中，nextRandom.set(nextRandom.get() * 25214903917L + 11);如果我們更加深入到每個訓練的步驟，我們會發現nextRandom產生於相同的步驟及方法，即進行固定的數學運算（到這裡和這裡瞭解為什麼這樣做），所以nextRandom是依賴於threadId的數字，而threadId是0，1，2，3，…所以這裡我們實際上不再有隨機性。

並行tokenization

因為對文字的處理是一項耗時的工作，所以進行並行tokenization可以提高效能，但訓練的一致性將不能得到保證。並行處理下，提供給每個thread進行訓練的資料將出現隨機性。從程式碼中可以看到，如果我們將allowParallelBuilder設為false，進行tokenization的runnable將阻塞其他thread直到tokenization結束，從而保持輸入訓練資料的一致性。

if (!allowParallelBuilder) { 
   try { 
       runnable.awaitDone();
    
  } catch (InterruptedException e) { 
       Thread.currentThread().interrupt();
        throw new RuntimeException(e);
    
  }
  }複製程式碼

為各個thread提供訓練資料的佇列

該佇列是一個LinkedBlockingQueue,這個佇列從迭代器中取出訓練文字，然後提供給各個執行緒進行訓練。因為各個執行緒請求資料的時間可以是任意的，所以在每次訓練中，每個執行緒得到的資料也是不一樣的。請看這裡的程式碼具體實現。

// 初始化一個 sequencer 來提供資料給每個執行緒val sequencer = new AsyncSequencer(this.iterator, this.stopWords);
// 每個執行緒使用同一個 sequencer// worker是我們設定的進行訓練的執行緒數for (int x = 0;
 x <
 workers;
 x++) { 
   threads.add(x, new VectorCalculationsThread(x, ..., sequencer);
                    threads.get(x).start();
            
  }// 在sequencer中 初始化一個 LinkedBlockingQueue buffer// 同時保持該buffer的size在[limitLower, limitUpper]private final LinkedBlockingQueue<
Sequence<
T>
>
 buffer;
limitLower = workers * batchSize;
limitUpper = workers * batchSize * 2;
// 執行緒從buffer中讀取資料buffer.poll(3L, TimeUnit.SECONDS);
複製程式碼

所以，如果我們將worker設為1，即採用單執行緒進行訓練，那麼每次訓練我們將得到相同順序的資料。這裡需要注意的是，如果採用單執行緒，訓練的速度將會大幅降低。

總結

為了將隨機性排除，我們需要做以下：

將seed設為0；
將allowParallelTokenization設為false;
將worker設為1。

這樣在使用相同資料訓練，我們將會得到完全相同的模型引數和向量表示。

最終，我們的訓練程式碼將會像：

ParagraphVectors vec = new ParagraphVectors.Builder()                .minWordFrequency(1)                .labels(labelsArray)                .layerSize(100)                .stopWords(new ArrayList<
String>
())                .windowSize(5)                .iterate(iter)                .allowParallelTokenization(false)                .workers(1)                .seed(0)                .tokenizerFactory(t)                .build();
vec.fit();
複製程式碼

如果您覺得對上述內容不理解，那麼別擔心，我將在之後的推文中聯絡程式碼和論文，詳細解釋word embedding以及language model的技術。

參考

Deeplearning4j, ND4J, DataVec and more - deep learning &
linear algebra for Java/Scala with GPUs + Spark - From Skymind http://deeplearning4j.org https://github.com/deeplearning4j/deeplearning4j
Java™ Platform, Standard Edition 8 API Specification https://docs.oracle.com/javase/8/docs/api/

來源：https://juejin.im/post/5be254c76fb9a049e93c3396

基於word2vec訓練詞向量(一)
2018-04-11
動手實踐word2vec和doc2vec模型
2019-03-22
模型
Alink漫談(十七) ：Word2Vec原始碼分析之迭代訓練
2020-08-08
原始碼
如何在滴滴雲上用 Darknet 訓練 VOC
2019-01-22
[翻譯] 使用 TensorFlow 進行分散式訓練
2022-04-10
分散式
[論文翻譯] 分散式訓練 Parameter sharding 之 ZeRO
2022-01-11
分散式
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
如何在耗時較長的操作完成後得到提醒？
2020-04-06
流和向量（Streams and Vectors）
2024-11-19
NLP ——Doc2vec
2020-09-30
CocoStuff—基於Deeplab訓練資料的標定工具【一、翻譯】（未完）
2018-06-14
20240622訓練
2024-06-22
20240610訓練
2024-06-14
正念訓練的有效方法
2024-11-18
SQLAlchemy Join Query 得到的不同資料行相同資料是同一個例項
2018-12-12
SQL
YOLOv4: Darknet 如何於 Docker 編譯，及訓練 COCO 子集
2020-09-11
YOLODocker編譯
全網最細 | 教你如何在 docker 容器下使用 mmdetection 訓練自己的資料集
2020-01-06
Docker
如何在《狂怒 2》中得到最佳遊戲體驗
2019-06-05
遊戲
Doc2vec技術
2019-12-31
acm訓練題
2018-12-07
ACM
擴充訓練
2018-03-10
4.17訓練賽
2024-04-19
24.8.18 DP訓練
2024-08-18
2024.8.20 DS訓練
2024-08-20
pytorch訓練GAN時的detach()
2020-11-09
PyTorch
訓練的評估函式
2024-09-02
函式
【vjudge訓練記錄】11月個人訓練賽1
2024-11-03
新型大語言模型的預訓練與後訓練正規化，阿里Qwen
2024-11-27
模型阿里
word2vec的理解
2018-11-15
PyTorch 模型訓練實⽤教程（程式碼訓練步驟講解）
2020-09-25
PyTorch模型
2、PyTorch訓練YOLOv11—訓練篇（detect）—Windows系統
2024-10-09
PyTorchYOLOv1Windows
3.3 神經網路的訓練
2019-12-31
神經網路
使用 diffusers 訓練你自己的 ControlNet ?
2023-04-04
機器學習的訓練集
2021-02-05
機器學習
學習筆記CB012: LSTM 簡單實現、完整實現、torch、小說訓練word2vec lstm機器人
2019-02-16
筆記機器人
訓練日誌 2018.10.24
2018-10-24
1.23訓練總結
2019-01-23
20240302 專項訓練
2024-03-06