ploomber:建立ML資料管道的最有效率方式

banq發表於2022-03-25

Jupyter等開發工具在資料科學家中很流行,因為它們提供了一個環境以視覺化和互動方式探索資料。但是,在部署專案時,我們必須確保分析能夠在 Airflow 或 Argo 等生產環境中可靠執行;這導致資料科學家在他們的notebooks和這些生產工具之間來回移動程式碼。
此外,資料科學家必須花時間學習不熟悉的框架和編寫管道程式碼,這嚴重延遲了部署過程。
Ploomber 透過提供以下解決方案來解決這個問題:
  • 使用靜態分析自動推斷任務執行順序的工作流編排器。
  • 引導專案的合理佈局。
  • 與 Jupyter 整合的開發環境。
  • 無需更改程式碼即可匯出到生產系統(Kubernetes、Airflow 和 AWS Batch)的能力。


Ploomber是構建資料管道的最快方法。使用您最喜歡的編輯器(Jupyter、VSCode、PyCharm)進行互動式開發和部署,無需更改程式碼。你在用傳統notebooks嗎?ploomber只需一個命令就可以將它們重構為在Kubernetes、Airflow、AWS Batch中執行模組化管道。
特點:
  • 一個簡單的 YAML API 可以快速上手,一個強大的 Python API 可以提供完全的靈活性。
  • 自動快取管道以前的結果,並且僅重新計算自上次執行以來已更改的任務。
  • 在單臺機器上作為 shell 指令碼執行,或者在Kubernetes、Airflow、AWS Batch或SLURM中分散式執行。
  • 從舊版notebooks自動遷移,會自動將它們轉換為可維護的模組化管道。
  • 使用 Ploomber 可在 30 分鐘內開發和部署機器學習管道

相關文章