ML 中的並行程式設計知識有多大用處?- reddit

banq發表於2022-01-18

在 AI/ML 世界中平行計算的知識有多大用處或適用性?
AI/ML世界中有模型並行和資料並行,當你使用 Tensorflow 或 PyTorch 時,你就會知道它們背後的場景。因此,在實現自己的資料載入器或模型訓練器時,您可能會編寫更好的程式碼。
如果您主要使用預先訓練的模型,或者您的模型效能在單個 GPU 上看起來足夠好,那麼作為面向應用程式的從業者,學習並行程式設計沒有太多價值。
但是,如果您正在構建大型模型或有興趣加入構建大型模型的團隊,那麼學習分散式和並行程式設計可能比學習 ML 基礎知識更重要。就訓練大型模型而言,資料、模型和管道並行性是您應該瞭解的工具,但即便如此,如果您足夠大,您如何設定大型基礎設施,如何除錯故障,如何彈性恢復?
在低延遲真正重要的環境中,想象一下實時搜尋。您的操作是否經過最佳化以利用 GPU,它們是否融合?您是否花費大量時間等待同步或資料載入器?
考慮到知道如何執行上述操作,您對從事廣告排名等業務關鍵型基礎架構團隊以及任何希望推動最先進技術的研究團隊都很有用,因為讓我們面對現實,小型模型似乎並不明顯變得比更大的更好。
因此,再次學習分散式系統可能並不普遍有用,但在合適的大公司可能是 ML 中最賺錢的事情,頂級人員的收入超過 300-500K
 

相關文章