比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

机器之心發表於2021-03-29

在 MindSpore 開發團隊和社群開發者共同努力下,MindSpore 很多的新特性馬上要與大家見面了,比如動態圖分散式訓練效率的大幅提升、一鍵模型遷移、模型魯棒性檢測、深度分子模擬及量子機器學習等,無論是在效率提升、易用性,還是創新方面,都是乾貨滿滿

一、效率提升

大幅提升動態圖下分散式訓練的效率

深度學習中,當資料集和引數量的規模越來越大,訓練所需的時間和硬體資源會隨之增加,最後會變成制約訓練的瓶頸。分散式並行訓練,可以降低對記憶體、計算效能等硬體的需求,是進行訓練的重要最佳化手段。當前 MindSpore 動態圖模式已經支援資料並行,透過對資料按 batch 維度進行切分,將資料分配到各個計算單元中進行模型訓練,從而縮短訓練時間

基於 ResNet50 v1.5+ImageNet 資料集測試,在昇騰計算硬體平臺,MindSpore 動態圖模式分散式的表現,可以達到 PyTorch 典型分散式場景的 1.6 倍, 靜態圖模式分散式的表現也可以達到 TensorFlow 典型分散式場景的 2 倍。

PyNative 快速入門:https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/advanced_use/debug_in_pynative_mode.html

資料預處理加速 Dvpp

資料是機器學習的基礎。在網路推理場景中,我們需要針對不同的資料進行資料的預處理,從中過濾出核心資訊放入我們訓練好的模型中進行推理預測。在實際應用場景中,我們往往需要對大量的原始資料進行推理,比如實時的影片流等。因此,我們在昇騰推理平臺引入了 Dvpp 模組來針對網路推理資料預處理流程進行加速

Dvpp 資料預處理模組提供 C++ 介面,提供圖片的解碼、縮放,中心摳圖、標準化等功能。在 Dvpp 模組的設計中,考慮到整體的易用性,其功能與 MindData 現有 CPU 運算元有重疊,我們將其 API 統一,透過推理執行介面設定執行裝置來進行區分。使用者可以根據自身硬體裝置環境來選擇最佳的執行運算元。Dvpp 資料預處理流程如下圖所示:

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

我們在一臺昇騰推理伺服器上測試了 Dvpp 系列運算元的效能收益。該伺服器擁有 128 個主頻為 2.6GHz 的 CPU 核心,以及 128Gb 的記憶體空間。在實驗中,我們選取 yoloV3 網路,同時選取 coco2017 推理資料集 40504 張圖片進行推理,最終得到模型輸入尺寸為 [416, 416] 的圖片。

我們分別使用 Dvpp 運算元和 CPU 運算元進行資料預處理,得到如下效能對比:

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

可以看到 Dvpp 系列運算元相較於 CPU 運算元在處理大量資料時效能優勢明顯,在本實驗中處理 40504 張圖片效能 FPS 提升 129%

檢視教程:https://www.mindspore.cn/tutorial/inference/zh-CN/r1.2/multi_platform_inference_ascend_310_mindir.html#ascend-310

二、創新性

分子模擬庫(SPONGE),來自社群分子動力學工作組

MindSpore 版的 SPONGE 是在社群中的分子動力學工作組 (MM WG) 中,由北大、深圳灣實驗室高毅勤課題組與華為 MindSpore 團隊聯合開發的分子模擬庫,具有高效能、模組化等特性。

  • 為何需要開發 SPONGE?


分子動力學模擬是用牛頓定律近似來描述微觀原子和分子尺度演化的計算機模擬方法。其既可用於基礎科學研究也可用於工業實際應用。在基礎科學領域,分子動力學方法有助於科研學者從微觀研究體系的物理化學性質。

在工業生產中,其可以利用大規模計算的能力輔助藥物分子的設計和蛋白靶點的搜尋 [1,2]。由於模擬的時間和空間尺度限制,傳統分子動力學軟體的應用範圍受到較大限制。科研工作者也在不斷的開發新的力場模型[3,4]、抽樣方法[5,6] 以及嘗試結合新興的人工智慧 [7,8] 來進一步擴充分子動力學模擬的適用領域。

由此,新一代的分子動力學軟體就需要被提上日程。其應該具有模組化的特性,能夠支援科學家高效的創造和搭建出能夠驗證其理論模型的結構。同時,它還需要兼顧傳統模擬方法的高效性,能夠相容其在傳統領域上的使用。此外,為實現分子模擬 + 機器學習的自然融合,其還應該擁有嵌入人工智慧框架的形態。SPONGE 就是基於這些理念而被創造出的全新的,完全自主的分子模擬軟體。

相比於之前在傳統分子模擬軟體上結合 SITS 方法進行生物分子增強抽樣[9],SPONGE 原生支援 SITS 並對計算流程進行最佳化使得其使用 SITS 方法模擬生物體系更加高效。針對極化體系,傳統分子模擬採用結合量化計算等方式來解決電荷浮動等問題[10]。即使採用機器學習降低計算量也會浪費大量時間在程式資料傳送的問題上。而 SPONGE 利用模組化的特點可支援記憶體上直接與機器學習程式通訊大大降低了整體計算時間。

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性
圖 1:結合 SITS 等方法可進行 Na[CpG], Lys 生物分子模擬

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性
圖 2:機器學習 + 分子模擬方法可更快更準確地模擬極化體系,圖為[C1MIm]Cl 離子液體模擬

  • MindSpore + SPONGE


基於 MindSpore 自動並行、圖算融合等特性,SPONGE 可高效地完成傳統分子模擬過程。SPONGE 利用 MindSpore 自動微分的特性,可以將神經網路等 AI 方法與傳統分子模擬進行結合。

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性
SPONGE 模組化設計結構圖

隨 MindSpore1.2 版本開源的 SPONGE 具備以下優勢

1、全模組化分子模擬。模組化構建分子模擬演算法,易於領域研發人員進行理論和演算法的快速實現,併為外部開發人員貢獻子模組提供友好的開源社群環境。

2、傳統分子模擬與 MindSpore 結合的人工智慧演算法的全流程實現。在 MindSpore 中,研發人員能便利的將 AI 方法作用於分子模擬中。全運算元化的 SPONGE 將與 MindSpore 進一步結合成為新一代端到端可微的分子模擬軟體,實現人工智慧與分子模擬的自然融合。

教程文件:https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/advanced_use/hpc_sponge.html

  • MindSpore+SPONGE 展望


近期展望:在後續的版本更新中會陸續加入已經理論驗證好的 MetaITS 模組、有限元計算模組等功能。這些模組將幫助 SPONGE 能更好的從事相變和金屬表面相關的模擬。同時,MindSpore 版 SPONGE 各模組逐步支援自動微分和自動並行,對於銜接機器學習方案提供更友好的支援。

遠期展望:擴充 SPONGE 的各種特色模組,使其能夠描述大部分微觀體系並同時具有較高的計算和取樣效率。對特定工業需求,如藥物篩選或晶型預測,將基於 SPONGE 衍生出完整的流程化計算方案,能夠滿足大規模平行計算的需求。在 MindSpore 框架下,SPONGE 具有元最佳化功能,從而實現更準確和更快的力場擬合。

量子機器學習(MindQuantum),來自社群量子力學工作組

MindQuantum 是結合 MindSpore 和 HiQ 開發的量子機器學習框架,支援多種量子神經網路的訓練和推理。得益於華為 HiQ 團隊的量子計算模擬器和 MindSpore 高效能自動微分能力,MindQuantum 能夠高效處理量子機器學習、量子化學模擬和量子最佳化等問題,效能達到業界 TOP1(Benchmark),為廣大的科研人員、老師和學生提供了快速設計和驗證量子機器學習演算法的高效平臺。

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性
MindQuantum vs TF Quantum/Paddle Quantum 效能對比

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

檢視教程:https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/advanced_use/parameterized_quantum_circuit.html

多跳知識推理問答(TPRR)

TPRR 是華為泊松實驗室與華為 MindSpore 團隊提出的解決開放域多跳問題的通用模型。相比於傳統問答僅需從單個文件中檢索答案,多跳知識推理問答需要從多個佐證文件得到最終答案,並返回問題到答案的推理鏈。TPRR 基於 MindSpore 混合精度特性,可以高效地完成多跳問答推理過程。

  • 全路徑建模:


TPRR 模型在多跳問題推理鏈的每一個環節中基於全部推理路徑的條件機率建模,模型以 「全域性視角」 進行知識推理。

  • 動態樣本選取:


TPRR 模型採用動態樣本的建模方式,透過更強的對比學習提升模型多跳問答的能力。

演算法流程圖如下:

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

TPRR 模型在國際權威的多跳問答榜單 HotpotQA 評測中榮登榜首,榜單圖如下:

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

檢視教程:https://www.mindspore.cn/tutorial/inference/zh-CN/r1.2/nlp_tprr.html

三、易用性

一鍵模型遷移(MindConverter)

指令碼遷移工具(MindConverter)旨在幫助演算法工程師將存量的基於三方框架開發的模型快速遷移至 MindSpore 生態。根據使用者提供的 TensorFlow PB 或 ONNX 模型檔案,工具透過對模型的計算圖(Computational Graph)解析,生成一份具備可讀性的 MindSpore Python 模型定義指令碼(.py)以及相應的模型權重(.ckpt)。

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

  • 一鍵遷移:


透過 MindConverter CLI 命令即可一鍵將模型遷移為 MindSpore 下模型定義指令碼以及相應權重檔案,省去模型重訓以及模型定義指令碼開發時間;

  • 100% 遷移率:


在 MindConverter 具備跨框架間運算元對映的情況下,遷移後指令碼可直接用於推理,實現 100% 遷移率;

  • 支援模型列表:


目前工具已支援計算機視覺領域典型模型、自然語言處理 BERT 預訓練模型指令碼及權重的遷移,詳細模型列表見 README。

BERT 模型定義遷移結果展示(部分程式碼):

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

檢視教程:https://www.mindspore.cn/tutorial/training/zh-CN/r1.2/advanced_use/migrate_3rd_scripts_mindconverter.html?highlight=mindconverter

四、可靠性

魯棒性評測工具助力 OCR 服務達成首個 AI C4 魯棒性標準要求

MindSpore 魯棒性測試工具 MindArmour,基於黑白盒對抗樣本(20 + 方法)、自然擾動(10 + 方法)等技術提供高效的魯棒性評測方案,幫助客戶評估模型的魯棒性性,識別模型脆弱點。

OCR 是指利用光學裝置去捕獲影像並識別文字,減少人工成本,快速提升工作效率;如果攻擊者透過對待識別的文字做出人眼不易察覺的修改,而模型無法對其正確識別或處理,就會導致 OCR 服務對文字識別的準確率下降,且使用人員不清楚問題背後的原因。測評團隊使用 MindArmour 對 OCR 服務的魯棒性進行測評,發現 OCR 服務中部分模型對自然擾動和對抗樣本的防禦能力較差,如文字框檢測模型在校驗噪聲、PGD、PSO(粒子群)等攻擊演算法下準確率小於 66%;並以此指導模型開發團隊透過對抗樣本檢測、資料增強訓練等技術,使得模型對惡意樣本的識別準確率達到 95+%,提高了模型及 OCR 服務的魯棒性。

比PyTorch、TensorFlow更快,MindSpore開源一週年升級巨量新特性

AI C4 標準連結:https://www.bsi.bund.de/SharedDocs/Downloads/EN/BSI/CloudComputing/AIC4/AI-Cloud-Service-Compliance-Criteria-Catalogue_AIC4.html

五、更多值得期待

其實 MindSpore 即將帶來的大量新特性,不止於文中所展示的舉例,比如超大規模引數模型、可解釋 AI、MindSpore IoT 支援等更加前衛的特性,將在 4 月底的華為開發者大會 2021(Cloud)大會亮相,而社群也會在近期釋出一款新的開源工具集,敬請關注!開源一週年的 MindSpore 社群,將為大家帶來源源不斷的驚喜!

參考文獻:

[1] De Vivo M, Masetti M, Bottegoni G, et al. Role of molecular dynamics and related methods in drug discovery[J]. Journal of medicinal chemistry, 2016, 59(9): 4035-4061.
[2] Liu X, Shi D, Zhou S, et al. Molecular dynamics simulations and novel drug discovery[J]. Expert opinion on drug discovery, 2018, 13(1): 23-37.
[3] Robustelli P, Piana S, Shaw D E. Developing a molecular dynamics force field for both folded and disordered protein states[J]. Proceedings of the National Academy of Sciences, 2018, 115(21): E4758-E4766.
4. Nerenberg P S, Head-Gordon T. New developments in force fields for biomolecular simulations[J]. Current opinion in structural biology, 2018, 49: 129-138.
[5] Yang Y I, Shao Q, Zhang J, et al. Enhanced sampling in molecular dynamics[J]. The Journal of chemical physics, 2019, 151(7): 070902.
[6] Bernardi R C, Melo M C R, Schulten K. Enhanced sampling techniques in molecular dynamics simulations of biological systems[J]. Biochimica et Biophysica Acta (BBA)-General Subjects, 2015, 1850(5): 872-877.
[7] Wang H, Zhang L, Han J, et al. DeePMD-kit: A deep learning package for many-body potential energy representation and molecular dynamics[J]. Computer Physics Communications, 2018, 228: 178-184.
[8] Ribeiro J M L, Bravo P, Wang Y, et al. Reweighted autoencoded variational Bayes for enhanced sampling (RAVE)[J]. The Journal of chemical physics, 2018, 149(7): 072301.
[9] Yang L, Qin Gao Y. A selective integrated tempering method[J]. The Journal of chemical physics, 2009, 131(21): 12B606.
[10] Kan Z, Zhu Q, Yang L, et al. Polarization effects on the cellulose dissolution in ionic liquids: Molecular dynamics simulations with polarization model and integrated tempering enhanced sampling method[J]. The Journal of Physical Chemistry B, 2017, 121(17): 4319-4332.

MindSpore官方資料
GitHub : https://github.com/mindspore-ai/mindspore
Gitee:https : //gitee.com/mindspore/mindspore
官方QQ群 : 871543426

相關文章