【推理引擎】ONNXRuntime 的架構設計

虔誠的樹發表於2022-03-29

原文網址 : https://www.cnblogs.com/xxxxxxxxx/p/16069379.html

ONNXRuntime，深度學習領域的神經網路模型推理框架，從名字中可以看出它和 ONNX 的關係：以 ONNX 模型作為中間表達（IR）的執行時（Runtime）。

本文許多內容翻譯於官方文件：https://onnxruntime.ai/docs/reference/high-level-design.html ，並適當地新增一些自己的理解，由於對ONNXRuntime的認識還不夠深入，因此可能會存在一些錯誤，希望多多指正，深入交流。

特色：

在不同平臺上，最大限度地、自動地使用定製的加速器（accelerators）和執行時（runtimes）；
針對定製的加速器和執行時，提供良好的抽象和執行時（onnxruntime）來支援執行，這裡的抽象也被稱之為EP（Execution Provider，eg. CUDA、TensorRT、OpenVINO、ROCm等）。每個EP都各自定義自己的功能，比如記憶體分配、可以執行的單個的或融合的節點（注意：本文中所說的節點就是運算元，兩者等同；conv屬於單個的運算元，conv_bn_relu屬於融合的運算元），這些功能需要以標準的API形式暴露給 ONNXRuntime，以供其呼叫；
ONNXRuntime並不要求每個EP都完全支援ONNX中定義的所有運算元，這也就意味著 ONNXRuntime 可能需要在異構環境中才能完整的執行完一個模型，這裡的異構環境是指涉及到多個計算硬體，比如CPU和GPU；
支援多種圖優化（Graph Optimization），主要分為兩類：

全域性變換（Global transformations）：這種優化方式需要對整張計算圖進行分析並優化；在原始碼中，每種變換都繼承自 GraphTransformer 類；
區域性變換（Local transformations）：這種優化方式相當於定義一些簡單的重寫規則（rewriting rules），比如消除一些沒有具體操作的圖節點（eg.推理階段的dropout節點）；與全域性變換不同，重寫規則一般只針對圖中的部分節點，也就是說需要先判斷圖中的節點是否滿足重寫條件，然後再決定是否實施變換；在原始碼中，每種重寫規則都繼承自 RewriteRule 類，但是最後會使用 GraphTransformer 的一個派生類 RuleBasedGraphTransformer ，將所有的 RewriteRule 類聚合起來。

從更高視野看ONNXRuntime系統結構

從這張圖中，我們可以看出ONNXRuntime的執行流程。

ONNXRuntime 首先將 ONNX 模型轉變為 In-memory 形式；
針對這個模型執行一些與EP無關的優化；
根據設定的EP（可能會有多個），將整體計算圖分割成多個子圖；
每個子圖都被分配到一個相應的EP中，分配過程中要確保這個EP能夠執行該子圖；

由於很多EP都會對一些特定的運算元做特殊優化，因此在分割子圖時，ONNXRuntime希望充分利用這些EP的能力，但是仍然會存在一些運算元不能被EP執行，或者高效執行，這時就需要設定一個預設的EP進行兜底，這個角色往往由CPU承擔。

計算圖分割的策略：首先設定可用的EP，比如

ort_sess = ort.InferenceSession('onnx_model/resnet50.onnx', providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])

然後依照providers中設定的順序為每個EP充分分配其可以執行的子圖，為了確保每個子圖都被執行，一般會講CPU EP放置在最後。ONNXRuntime當前只支援同步的執行模式，並且由其控制整個計算圖的執行。

【推理引擎】從原始碼看ONNXRuntime的執行流程
2022-03-29
原始碼
流程引擎的架構設計
2022-10-14
架構
【推理引擎】如何在 ONNXRuntime 中新增新的運算元
2022-03-30
【推理引擎】在 VS Code 除錯 ONNXRuntime 的測試單元
2022-03-30
除錯
工作流引擎架構設計
2023-01-12
架構
Twitter推薦引擎架構設計分析
2024-03-05
架構
架構設計之架構的演變
2024-06-15
架構
利用 onnxruntime 庫同時推理多個模型的效率研究
2022-04-06
模型
架構設計思想-微服務架構設計模式
2020-06-24
架構微服務設計模式
常用的設計架構
2024-06-19
架構
初探Tomcat的架構設計
2019-11-25
Tomcat架構
架構設計的本質
2020-10-10
架構
UI架構設計的演化
2019-05-11
UI架構
理解Underscore的設計架構
2019-02-18
架構
架構設計之一——基礎架構
2022-05-02
架構
架構師修煉之道（二）——架構？設計？架構師？
2019-07-22
架構
網易考拉規則引擎平臺架構設計與實踐
2018-10-29
架構
前端架構設計的方法論
2018-11-01
前端架構
應用架構圖的設計
2023-12-19
應用架構
遊戲架構遊戲架構設計(8)
2018-07-16
遊戲架構
SaaS架構：開放平臺架構設計
2024-10-12
架構
網站架構設計
2019-03-07
網站架構
架構設計方法初探
2018-06-22
架構
架構設計（九）：估算
2022-12-25
架構
架構設計方法論
2021-04-14
架構
面向架構程式設計
2020-12-12
架構程式設計
大道至簡的架構設計思想之：封裝（C系架構設計法，sishuok）
2023-03-02
架構封裝
架構規則引擎 quartz
2019-02-27
架構quartz
Opensearch架構及引擎原理
2018-03-22
架構
【架構設計的藝術】Kafka如何通過精妙的架構設計優化JVM GC問題？【石杉的架構筆記】
2019-05-06
架構Kafka優化JVMGC筆記
SaaS架構：多租戶系統架構設計
2024-10-11
架構
SaaS架構：中央庫存系統架構設計
2024-10-14
架構
面向演算法的架構設計
2018-10-25
演算法架構
架構設計中的基本原則
2018-07-18
架構
什麼是真正的架構設計？
2020-03-24
架構
【推理引擎】ONNX 模型解析
2022-03-27
模型
Fresco架構設計賞析
2019-02-28
架構
小程式渲染架構設計
2019-04-01
架構

【推理引擎】ONNXRuntime 的架構設計

特色：

從更高視野看ONNXRuntime系統結構

相關文章