縮放Python ML:使用不同的工具來擴充套件Python ML工作負載的玩家部落格

發表於2021-01-10

這是一個介紹使用不同的工具來擴充套件Python ML工作負載的部落格網站,點選標題進入,當前文章有:

  • 在Kubernetes叢集中執行Spark Jupyter Notebooks客戶端模式(使用ARM可獲得更多樂趣)

    將Spark Notebook與執行程式放在同一群集中可以減少網路錯誤並提高正常執行時間。由於這些網路問題可能導致作業失敗,因此這是一個重要的考慮因素。本文假定您已經在Kubernetes部署中設定了基礎JupyterHub;達斯(Dask)發行的筆記本部落格文章中介紹了有關該內容的資訊

  • 在Kubernetes上的ARM上為Dask部署Jupyter Lab / Notebook

    在本文中,我們將介紹如何在Kubernetes上的ARM上部署Jupyter Lab。我們還將構建一個供Dask使用的容器,但是您可以跳過/自定義此步驟以滿足您自己的需求。在將客戶端程式碼移出群集後遇到了一些問題之後,我認為值得在K8s上的ARM上建立Jupyter的工作是值得的。

  • docker buildx(尤其是qemu)的一些尖銳角落

    您是否一直在嘗試使用QEMU嘗試使用Docker的出色的新buildx,但是在ARM上遇到了意外的“ exec使用者程式引起:exec格式錯誤”或奇怪的段錯誤?如果是這樣,那麼這篇簡短而甜蜜的部落格文章適合您。我想明確一點:我認為帶有qemu的buildx很棒,但是有一些鋒利的邊緣可以吸引您的注意。

  • 首先了解一下基於K8s的ARM上的Dask。

    在上一篇文章中設定了叢集之後,是時候終於在叢集上玩Dask了。幸運的是,有dask-kubernetesdask-docker專案提供了執行此操作的框架。由於我還是Dask的新手,所以我決定從本地膝上型電腦開始使用Dask(回想起來,也許不是最佳選擇)。

  • 在ARM上使用持久卷和Minio設定K3(輕量級Kubernetes)

    在建立機架併購買機器的最後冒險之後,是時候安裝軟體了。最初,我計劃在一兩天內進行此操作,但實際上,它的執行方式與其他許多“簡單”專案一樣,並且我認為某些“超級快”的事情最終花費的時間比計劃的要長得多。

  • 建立測試叢集

    為了確保兩次測試之間的結果具有可比性,我儘可能使用一致的硬體設定。我(而不是使用雲提供商)(在Nova的幫助下)設定了具有幾個不同節點的機架。使用我自己的硬體可以避免 任何效能數字帶來的嘈雜鄰居問題,並讓我可以更好地控制模擬網路分割槽。不利的一面是環境不容易重新建立。

  • Kubernetes上的Ray簡介

    像Spark一樣,主要作者現在已經成立了一家公司(Anyscale)來發展Ray。與Spark不同,Ray是Python的第一個庫,並且不依賴Java虛擬機器(JVM).

 

相關文章