[Nvidia Triton Inference Server課程筆記] 1.1.1 框架介紹

大师兄啊哈發表於2024-06-26

影片連結:https://www.bilibili.com/video/BV1KS4y1v7zd/?spm_id_from=333.788&vd_source=c2a322357481107ab7f418b1ae9ce618

一、推理框架介紹

  1. triton和推理框架不能畫上等號,推理框架一般包括客戶端端和服務端,triton是服務端部分。
  2. 使用triton的場景,一般使用k8s來管理triton應用,解決負載均衡,動態擴容等問題。
  3. 模型倉庫,用來管理模型檔案。
  4. metrics service:監控整個推理服務,駕駛艙。
  5. 推理服務一般開啟多個部署,用以分擔推理請求壓力。triton實際上就是綠色部分。
  6. triton支援多種深度學習框架匯出的模型,Tensorrt只是triton裡的一個推理庫而已。

二、推理框架元件介紹

進一步介紹了推理框架中的元件。

  • k8s——叢集。
  • Triton——單模式推理服務(Pod),單卡/多卡
  • Tensorrt——模型加速庫。

三、Triton基本功能

  • 多框架支援;
  • CPU、GPU,多GPU異構支援;
  • 並行執行能力,CPU級別最佳化;
  • 支援HTTP/REST,gRPC APIS;
  • 監控:透過延遲和執行狀況指標與編排系統和自動縮放程序整合;
  • 模型管理,載入、解除安裝、更新;
  • 開源,NGC docker倉庫支援,每月釋出;

其他:Scheduler主要是指對推理請求佇列進行排程的過程。

相關文章