影片連結:https://www.bilibili.com/video/BV1KS4y1v7zd/?spm_id_from=333.788&vd_source=c2a322357481107ab7f418b1ae9ce618
一、推理框架介紹
- triton和推理框架不能畫上等號,推理框架一般包括客戶端端和服務端,triton是服務端部分。
- 使用triton的場景,一般使用k8s來管理triton應用,解決負載均衡,動態擴容等問題。
- 模型倉庫,用來管理模型檔案。
- metrics service:監控整個推理服務,駕駛艙。
- 推理服務一般開啟多個部署,用以分擔推理請求壓力。triton實際上就是綠色部分。
- triton支援多種深度學習框架匯出的模型,Tensorrt只是triton裡的一個推理庫而已。
二、推理框架元件介紹
進一步介紹了推理框架中的元件。
- k8s——叢集。
- Triton——單模式推理服務(Pod),單卡/多卡
- Tensorrt——模型加速庫。
三、Triton基本功能
- 多框架支援;
- CPU、GPU,多GPU異構支援;
- 並行執行能力,CPU級別最佳化;
- 支援HTTP/REST,gRPC APIS;
- 監控:透過延遲和執行狀況指標與編排系統和自動縮放程序整合;
- 模型管理,載入、解除安裝、更新;
- 開源,NGC docker倉庫支援,每月釋出;
其他:Scheduler主要是指對推理請求佇列進行排程的過程。