百度Paddle Fluid v1.3版本重磅更新新增影片模型庫、BERT模型

飞桨PaddlePaddle發表於2019-03-05

原文網址 : http://www.jiqizhixin.com/articles/2019-03-04-19

UI模型

Paddle Fluid v1.3版本於今日釋出，在基礎框架、預測引擎、模型建設、分散式訓練各個方向上完成多項升級。

業界首個影片分類模型庫

新增影片模型庫，提供5個影片分類經典模型以及適合影片分類任務的通用骨架程式碼，使用者可一鍵式高效配置模型完成訓練和評測。

影片理解權威競賽ActivityNet - Kinetics影片動作識別任務冠軍方法stNet的resnet50版本開源實現。

基於PaddlePaddle的BERT多機多卡和混合精度訓練

新增支援NLP語義表示BERT模型，支援多機多卡訓練，支援混合精度訓練，訓練速度對比主流實現提升50%+，提供完整部署示例。

分散式訓練效能大幅提升

大規模稀疏引數伺服器Benchmark釋出， CPU多機非同步訓練釋出顯著提升點選率預估任務IO吞吐的built-in reader，多機多卡訓練效能多方面提升。

下面將Paddle Fluid v1.3版本所釋出的內容，全面介紹給廣大開發者：

重要更新

統一Executor和ParallelExecutor介面，使用者只需透過CompiledProgram將單卡模型轉化多卡模型，並利用Executor進行訓練或者預測。
正式釋出AnalysisConfig預測介面，支援計算圖分析、運算元融合等最佳化，並支援利用Intel MKLDNN、Nvidia TensorRT子圖引擎等第三方庫的加速.
模型庫新增釋出PaddlePaddle影片模型庫，提供5個影片分類經典模型以及適合影片分類任務的通用骨架程式碼，使用者可一鍵式高效配置模型完成訓練和評測。
新增支援NLP語義表示BERT模型，支援多機多卡訓練，支援混合精度訓練，訓練速度對比主流實現提升50%+，提供完整部署示例。
大規模稀疏引數伺服器Benchmark釋出，CPU多機非同步訓練釋出顯著提升點選率預估任務IO吞吐的built-in reader，多機多卡訓練效能多方面提升。
新增支援Intel Deep Learning Boost(VNNI指令集)。在新一代的Intel Xeon Scalable Processor上，使用這個特性的一些模型，INT8預測效能可以達到FP32的2倍。

基礎框架

安裝
- 新增Linux和MacOS下的中文版本輔助安裝指令碼，提供互動式安裝方式，協助使用者在複雜環境下快速完成PaddlePaddle安裝。
- Windows支援最佳化：新增cuda8，cudnn7的GPU支援，新增AVX指令集、MKLDNN、mnist資料集支援。修復Windows載入Linux/Mac下同版本paddle訓練模型的問題。
增加動態圖基礎功能
- 動態圖tracer、autograd、python Layer/PyLayer，動態圖支援MLP、GAN、ptbRNN、Resnet模型，動態圖支援Optimizer、GPU訓練。
Executor和ParallelExecutor介面最佳化
- 對Executor和ParallelExecutor介面進行統一，使用者只需透過CompiledProgram將單卡模型轉化多卡模型，並利用Executor進行訓練或者預測。
- ParallelExecutor最佳化
  對MultiDevSSAGraphBuilder進行重構，使得MultiDevSSAGraphBuilder更易擴充套件。
  去除ParallelExecutor中的裝置鎖，提升ParallelExecutor多卡排程效能。
中間表達IR和Pass方面的最佳化
- 完善C++ IR graph的python介面以及C++ IR pass的python介面。
- 在framework.py中新增IRGraph類，為在Python層編寫IR Pass做準備。
- 新增支援網路無鎖更新的Pass。
- 新增QuantizationTransformPass，此為Quantization Aware Training量化模式訓練前的圖修改操作部分。
記憶體和視訊記憶體方面的最佳化
- 新增支援在編譯時加入Jemalloc作為動態連結庫，提升記憶體管理的效能，降低基礎框架記憶體管理開銷
- 新增memory optimize，inplace pass, memory pool early deletion等視訊記憶體最佳化策略。
- 新增支援網路無鎖更新的Pass。
- 新增QuantizationTransformPass，此為Quantization Aware Training量化模式訓練前的圖修改操作部分。
Operator整體層面的最佳化
- 每個op在執行前只做一次scope查詢，減少讀寫鎖操作（原來需要做1~5次scope查詢）
- 新增Temporary Allocator，減少op中的同步操作
- 新增py_func operator，支援python op接入，使用者可以藉助py_func Operator快速實現所需要的特有操作
重構DDim，Variable Type等，降低基礎框架排程開銷。
INTEL FP32計算相關最佳化
- 最佳化density_prior_box operator，單op四執行緒提速3倍。
- 最佳化Stack operator，單op提速16倍。
- 開發Transpose，Concat和Conv3d三個基於MKLDNN的kernel。
- 修復lrn operator中MKLDNN kernel精度bug，同時單op提速1.3倍。
- 修復MKLDNN初始化佔用5G記憶體的問題，目前初始化佔用500MB。
- 減少從MKLDNN OP kernel到非MKLDNN OP kernel時不必要的reorder。
完善CPU JitKernel
- sequence pooling的jitkernel，純op提升2倍。
- softmax的jitkernel，純op提升2倍，同時使得Bert模型CPU預測提升26%。
- 常見的基本邏輯：向量的每個元素求平方kVSquare、矩陣乘法kMatMul、向量的最大值kHMax、向量所有元素的和kHSum。

預測引擎

伺服器預測

正式釋出AnalysisConfig預測介面，支援計算圖分析、運算元融合等最佳化，並支援利用Intel MKLDNN、Nvidia TensorRT子圖引擎等第三方庫的加速。
預釋出intel CPU上的預測INT8離線量化方案
- 開發Conv2D，Pool2D，Quantize，Dequantize四個基於MKL-DNN的INT8 kernel。
- 預釋出Calibration的3個核心Python API（paddle.fluid.contrib.Calibrator）。
- 開發Calibration工具，保證FP32和INT8的精度在ResNet-50和MobileNet-V1在ImageNet驗證資料集上相差在1%內。
- 支援Intel Xeon CascadeLake Server（VNNI指令）及Intel Xeon SkyLake Server，效能提升約為1.33倍。
CPU預測速度提升
- fuse sequence pooling concatop，支援N (<200)個sequence_pooling op concat起來組成一個新op，整體使得seqpool模型CPU預測提升56%。
- fuse連續重複的fc op為一個大op，使得seqpool模型CPU預測速度提升15%。
- fuse邏輯為((X * Y).^2 - (X.^2 * Y.^2) ) .* scalar的op組合,使得seqpool模型CPU預測速度提升8.2%。
- 針對輸入tensor元素個數為1的情況，最佳化compare_op的CPU Kernel。
新增Paddle-TRT對Calibration INT8的支援，GPU預測速度提升
- 模型VGG，Resnet50上預測速度達到了Paddle-TRT float32的兩倍效能。
- 模型VGG，Resnet50在imagenet資料集上測試，精度下降0.3%以內。
運算元融合
- 增加fc和con相關兩個fuse，作用於conv_op CUDNN kernel。
- 新增Conv+Affine Channel的融合pass，Faster RCNN執行的效能提升26.8%。
- 新增Transpose+Flatten+Concat融合pass，MobilenetSSD模型效能提升15%。
- 實現beam_search operator的CUDA Kernel，並且將相應的top-k、elementwise_add、reshape、log計算融合到beam_search operator中。
功能完善及易用性提升
- 新增C++ IR graph的Python介面。
- 新增預測庫的Python介面。
- 服務端預測支援從記憶體載入模型。
其他
- 刪除legacy V2程式碼。從1.3版本起，不再支援V1&V2老版本功能。
- 修復Paddle-TRT elementwise-mul模型執行出現問題的bug。
- 修復Paddle-TRT trt_engine stream多個連續輸入情況下模型輸出結果異常的bug。

移動端預測

效率最佳化，常見模型預測速度提升
- int8預測支援dequantize和其他op（batch normalization/relu/elementwise add）進行自動kernel融合。
- transpose2 operator對於shuffle channel操作進行最佳化。
- gru operator使用neon指令進行最佳化，並針對batch size為1時進行最佳化。
- 最佳化和實現pooling，支援任意的padding。
- 最佳化和實現batch normalization、softmax、elementwise add。
新增支援多個輸入和多個輸出的模型預測。
新增實現prelu6 operator、cast operator、top_k operator。
修復int8 offline量化溢位結果不對的問題。
修復winograd實現在輸入feature map的height和width不相等時結果可能為0的bug。

模型建設

PaddleCV智慧視覺
- 新增釋出PaddlePaddle影片模型庫，包括五個影片分類模型：Attention Cluster、NeXtVLAD、LSTM,、stNet、TSN。提供適合影片分類任務的通用骨架程式碼，包括資料讀取和預處理、訓練和預測、網路模型以及指標計算等多個模組。使用者根據需要新增自己的網路模型，直接複用其他模組的程式碼，快速部署模型。
- 新增支援目標檢測Mask R-CNN模型，效果與主流實現打平。
- 語義分割DeepLabV3+模型，depthwise_conv op融合，視訊記憶體最佳化，視訊記憶體佔用對比上一版本減少40%。
PaddleNLP智慧文字處理
- 新增支援NLP語義表示BERT模型，支援多機多卡訓練，支援混合精度訓練，訓練速度對比主流實現提升50%+，提供完整部署示例。
- 機器翻譯Transformer模型最佳化解碼計算，decoder中加入對encoder output計算結果的cache，預測速度提升一倍。
PaddleRec智慧推薦
- Sequence Semantic Retrieval新增單機多執行緒、單機多卡執行示例，新增預測功能、資料預處理最佳化，完善部署示例。
- GRU4Rec新增負取樣功能，使用bpr loss和cross entropy loss的效果與原作打平。

分散式訓練

大規模稀疏引數伺服器Benchmark釋出
- 測試真實業務場景下，特徵規模百億、樣本平均特徵數1k的點選率預估任務，在batch=512情況下，100worker加速比90.5，吞吐量1.36M/s。
CPU多機非同步訓練
- 釋出面向點選率預估任務的built-in reader，Criteo資料集下IO總吞吐提升1300%。
GPU多機多卡水平擴充套件效能提升
- 新增並行模式：PG（ParallelGraph）、MP（Multi-Process），獨立GPU卡之間的計算，提升效能同時，不影響模型精度。
- 在ResNet50模型，單機8卡V100下，PG, MP模式提升訓練效能30%以上；4機32卡，PG模式提速46%，MP模式提速60%。
- 在BERT模型，8卡V100下，PG, MP模式提升訓練效能26%。
- Multi-Process模式相比Parallel-Graph模式對Reader速度敏感度不高。
GPU多機多卡垂直擴充套件效能提升
- 新增功能：fp16和混合精度訓練
- Fp16單機單卡加速情況：ResNet50提速約87%，BERT提速約70%。
- BERT同時開啟PG和混合精度，單機8卡下單位時間吞吐提升120%。
- ResNet50同時開啟混合精度訓練和MP模式，在V100單機8卡、4機32卡下，單位時間吞吐提升100%。
典型模型收斂速度最佳化
- 新增功能：動態Batch Size，動態Image Resize方法。
- Resnet50 on Imagenet資料集：訓練收斂輪數下降為標準訓練方法的1/3左右。

VisualDL

VisualDL graph支援Paddle fluid儲存的模型視覺化展示。

更多內容，請了解：https://github.com/PaddlePaddle/Paddle/releases

飛槳PaddlePaddle

飛槳(PaddlePaddle)是中國首個自主研發、功能完備、開源開放的產業級深度學習平臺。

https://www.paddlepaddle.org

百度Paddle Fluid v1.3版本重磅更新新增視訊模型庫、BERT模型
2019-03-05
UI模型
Paddle Fluid v1.2 Release Note 深度學習框架重磅更新
2018-12-17
UI深度學習框架
【百度飛槳】手寫數字識別模型部署Paddle Inference
2022-07-16
模型
8.3 BERT模型介紹
2020-01-08
模型
BERT 模型壓縮方法
2020-03-02
模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
Paddle Lite新增ARM端影像預處理庫
2019-12-24
版本V1.1.140817，新增模型儲存時報錯
2019-05-11
模型
【BERT】你儲存的BERT模型為什麼那麼大？
2020-03-13
模型
新增模型物件操作
2024-07-09
模型物件
百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 Paddle Inference 模型推理
2023-05-19
模型
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
XLM — 基於BERT的跨語言模型
2019-08-23
模型
AntSK 0.2.3 版本更新：輕鬆整合 AI 本地離線模型
2024-03-23
AI模型
中文任務全面超越 BERT：百度正式釋出NLP預訓練模型ERNIE
2019-03-16
模型
Apache DolphinScheduler 3.3.0 版本重磅更新提前看！
2024-05-08
Apache
深入淺出騰訊BERT推理模型--TurboTransformers
2020-06-27
模型ORM
NLP與深度學習（六）BERT模型的使用
2021-10-09
深度學習模型
基於 Fluid+JindoCache 加速大模型訓練的實踐
2024-02-28
UI大模型
真實案例：使用LLM大模型及BERT模型實現合同審查系統
2024-08-15
大模型
基於Python和TensorFlow實現BERT模型應用
2024-06-26
Python模型
NLP與深度學習（五）BERT預訓練模型
2021-09-30
深度學習模型
330+ 個機器學習模型、庫探索工具！Papers With Code 重磅推出！
2021-03-03
機器學習模型
基於bert架構的精準知識表徵模型
2019-12-12
架構模型
如何用最強模型BERT做NLP遷移學習？
2019-02-03
模型遷移學習
activiti 新增流程模型並返回 modelId
2021-10-26
模型
BERT預訓練模型的演進過程！(附程式碼)
2019-09-28
模型
ACL20 | 讓笨重的BERT問答匹配模型變快！
2020-06-05
模型
使用Bert預訓練模型文字分類（內附原始碼）
2019-03-13
模型文字分類原始碼
CityDreamer4D: 下一個世界模型，何必是影片生成模型？
2025-01-28
世界模型
TensorFlow——Checkpoint為模型新增檢查點
2019-05-27
模型
百度開源自然語言理解模型 ERNIE 2.0，16 個 NLP 任務中碾壓 BERT 和 XLNet！
2019-08-06
模型
pytorch中：使用bert預訓練模型進行中文語料任務，bert-base-chinese下載。
2020-11-30
PyTorch模型
BERT模型在京東零售業務的應用實踐
2019-03-30
模型
2018年最強自然語言模型 Google BERT 資源彙總
2019-03-03
模型Go
MobileBERT：一個在資源有限裝置上使用的BERT模型
2020-08-21
模型
從字到詞，大詞典中文BERT模型的探索之旅
2019-06-27
模型
如何載入本地下載下來的BERT模型，pytorch踩坑！！
2022-01-28
模型PyTorch

百度Paddle Fluid v1.3版本重磅更新 新增影片模型庫、BERT模型

相關文章

百度Paddle Fluid v1.3版本重磅更新新增影片模型庫、BERT模型