加入Transformer-XL，這個PyTorch包能呼叫各種NLP預訓練模型

機器之心發表於2019-02-13

原文網址 : https://www.jiqizhixin.com/articles/2019-02-13-15

作為預訓練模型，BERT 目前常充當系統的重要模組，並衍生出大量 NLP 專案。但是 BERT 官方實現基於 TensorFLow 框架，因此那些藉助 PyTorch 實現的 NLP 系統可能並不方便嵌入它。為此，開發者從每一個 OP 開始重新用 PyTorch 預訓練 BERT 等模型。這個專案不僅提供預訓練 BERT、GPT 和 Transformer-XL 模型，同時還提供對應的微調示例和程式碼。

PT-BERT 專案地址：https://github.com/huggingface/pytorch-pretrained-BERT

短短兩個多月以來，該專案已經獲得了 3 千多的收藏量，而這兩天釋出的 0.5 版本更是收錄了由谷歌和 CMU 最新提出的 Transformer-XL 模型。

在 0.5 版本的更新中，它主要提供了兩個新的預訓練模型，即在 Toronto Book Corpus 上預訓練的 Open AI GPT 模型和在 WikiText 103 上預訓練的 Transformer-XL 模型。其中 Open AI GPT 模型主要修正了分詞和位置嵌入編碼，從而提升預訓練的效能；Transformer-XL 模型主要是針對 TensorFlow 官方實現的復現，且對相對位置編碼等模組做一些修改。

這次更新比較重要的就是 Transformer-XL 預訓練模型，它是對 Transformer 及語言建模的修正，這項前沿研究也是上個月才公佈。一般而言，Transformer-XL 學習到的長期依賴性比標準 Transformer 學到的長 450%，無論在長序列還是短序列中都得到了更好的結果，而且在評估時比標準 Transformer 快 1800 多倍。

除了預訓練模型的釋出，0.5 發行版還更新了一些指令碼和微調示例，例如更新 SQuAD 微調指令碼以適應 SQuAD V2.0 資料集。現在讓我們看看 0.5 版如何快速匯入 Open AI GPT 和 Transformer-XL 模型，並預測一句話缺失的下一個詞吧：

加入Transformer-XL，這個PyTorch包能呼叫各種NLP預訓練模型

PT-BERT

上面簡單介紹了什麼是 PT-BERT 即最新的 0.5 版，那麼這個專案到底有什麼特點呢？目前專案一共包含三大類預訓練模型，它們的實現均已在多個資料集上進行測試（詳見示例），效能堪比對應的 TensorFlow 實現。

以下是三大類預訓練模型的資訊詳情：

BERT 是在論文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中提出的。該 PyTorch 實現包括谷歌的預訓練模型（https://github.com/google-research/bert）、示例、notebook，以及命令列介面，允許載入 BERT 的任意預訓練 TensorFlow 檢查點。

OpenAI GPT 是在論文《Improving Language Understanding by Generative Pre-Training》中提出的。該 PyTorch 實現是對 HuggingFace 的 PyTorch 實現進行改進後得到的，包括 OpenAI 的預訓練模型（https://github.com/openai/finetune-transformer-lm）和命令列介面，可將預訓練 NumPy 檢查點轉換為 PyTorch。

Google/CMU 提出的 Transformer-XL 是在論文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》中提出的。該 PyTorch 實現是對原版 PyTorch 實現的改進版本，以獲得與 TensforFlow 版本相匹配的效能，並允許複用預訓練權重。該實現提供命令列介面，以將 TensorFlow 檢查點轉換為 PyTorch 模型。

以上所有預訓練模型都可以直接通過軟體庫呼叫，使用方法就和前面圖片那樣簡單便捷。整個包體的安裝也可以直接使用命令列 pip install pytorch-pretrained-bert 完成。目前該軟體包含以下模型與模組，它們均可被匯入 Python 中。

8 個具備預訓練權重的 Bert PyTorch 模型：包括原版 BERT Transformer 模型（完全預訓練）、執行下一句預測分類的 BERT Transformer 模型（完全預訓練）、實現序列分類的 BERT Transformer 模型、實現 token 分類的 BERT Transformer 模型等。
3 個具備預訓練權重的 OpenAI GPT PyTorch 模型：原版 OpenAI GPT Transformer 模型（完全預訓練）、實現捆綁語言建模的 OpenAI GPT Transformer 模型（完全預訓練）、實現多類別分類的 OpenAI GPT Transformer 模型。
2 個具備預訓練權重的 Transformer-XL PyTorch 模型：Transformer-XL 模型，輸出最後一個隱藏狀態和記憶單元（完全預訓練）、具備 tied adaptive softmax head 的 Transformer-XL 模型，輸出 logits/loss 和記憶單元（完全預訓練）。
3 種 BERT 分詞器：基礎分詞、WordPiece 分詞、端到端分詞。
OpenAI GPT 分詞器：執行 Byte-Pair-Encoding (BPE) 分詞。
Transformer-XL 分詞器
BERT 優化器：Adam 演算法的 BERT 版本。
OpenAI GPT 優化器：Adam 演算法的 OpenAI GPT 版本。

此外，該庫還包括 5 個 BERT 使用示例、1 個 OpenAI GPT 使用示例、1 個 Transformer-XL 使用示例、3 個用於檢查 TensorFlow 和 PyTorch 模型是否行為一致的 notebook，以及將 TensorFlow 檢查點（BERT、Transformer-XL）和 NumPy 檢查點（OpenAI）轉換成 PyTorch 的命令列介面。

PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
「NLP」GPT：第一個引入Transformer的預訓練模型
2019-08-27
GPTORM模型
MxNet預訓練模型到Pytorch模型的轉換
2018-06-28
模型PyTorch
NLP與深度學習（五）BERT預訓練模型
2021-09-30
深度學習模型
NLP領域預訓練模型的現狀及分析
2019-11-05
模型
取出預訓練模型中間層的輸出(pytorch)
2023-03-12
模型PyTorch
對比復現34個預訓練模型，PyTorch和Keras你選誰？
2019-03-11
模型PyTorchKeras
TensorFlow 呼叫預訓練好的模型—— Python 實現
2018-10-10
模型Python
預訓練語言模型：還能走多遠？
2020-11-13
模型
多項NLP任務新SOTA，Facebook提出預訓練模型BART
2019-12-10
模型
最強NLP預訓練模型！谷歌BERT橫掃11項NLP任務記錄
2018-10-12
模型谷歌
完勝 BERT，谷歌最佳 NLP 預訓練模型開源，單卡訓練僅需 4 天
2020-03-17
谷歌模型
讓PyTorch訓練速度更快，你需要掌握這17種方法
2021-01-17
PyTorch
PyTorch 模型訓練實⽤教程（程式碼訓練步驟講解）
2020-09-25
PyTorch模型
【小白學PyTorch】5 torchvision預訓練模型與資料集全覽
2020-09-03
PyTorch模型
NLP生成任務超越BERT、GPT！微軟提出通用預訓練模型MASS
2019-05-10
GPT微軟模型
預訓練模型 & Fine-tuning
2020-10-18
模型
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
輕量化模型訓練加速的思考（Pytorch實現）
2020-09-01
模型PyTorch
pytorch使用交叉熵訓練模型學習筆記
2024-06-17
PyTorch熵模型筆記
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
中文任務全面超越 BERT：百度正式釋出NLP預訓練模型ERNIE
2019-03-16
模型
文件智慧：通用文件預訓練模型與資料集，推動NLP落地升級
2020-08-19
模型
iGear 用了這個小魔法，模型訓練速度提升 300%
2022-01-28
模型
pytorch指定GPU訓練
2020-10-16
PyTorchGPU
Pytorch分散式訓練
2022-07-14
PyTorch分散式
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
CV之後，純MLP架構又來搞NLP了，效能媲美預訓練大模型
2022-02-14
架構大模型
pytorch，訓練模型時記憶體佔用不斷上升
2024-10-28
PyTorch模型記憶體
pytorch-模型儲存與載入自己訓練的模型詳解
2020-10-31
PyTorch模型
TorchVision 預訓練模型進行推斷
2021-02-26
模型
XLNet預訓練模型，看這篇就夠了！(程式碼實現)
2019-09-30
模型
00 預訓練語言模型的前世今生（全文 24854 個詞）
2022-07-12
模型
賦能RPA時代，微軟釋出通用文件理解預訓練模型LayoutLM
2020-03-10
微軟模型
「四大模型」革新NLP技術應用，揭秘百度文心ERNIE最新開源預訓練模型
2021-05-25
大模型
模型訓練：資料預處理和預載入
2020-10-27
模型
[原始碼解析] 模型並行分散式訓練 Megatron (4) --- 如何設定各種並行
2022-02-10
原始碼模型並行分散式

加入Transformer-XL，這個PyTorch包能呼叫各種NLP預訓練模型

相關文章