ShifuML/shifu: Hadoop上的機器學習和資料探勘框架

banq發表於2022-01-26

來自Paypal的Shifu是一個建立在 Hadoop 之上的開源、端到端的機器學習和資料探勘框架。Shifu 專為資料科學家設計,簡化了構建機器學習模型的生命週期。雖然最初是為欺詐建模而構建的,但 Shifu 已推廣到許多其他建模領域。
Shifu 的優點之一是機器學習中的端到端建模管道。只需配置設定,就可以構建整機流水線,並且可以更輕鬆地開發模型並將其推向生產。
Shifu 基於 Hadoop 的快速分散式神經網路/邏輯迴歸/梯度增強樹訓練可以將 TB 資料集上的模型訓練時間從幾天縮短到幾小時。Shifu 與 Hadoop 上的 Pig 工作流整合,Shifu 訓練的模型可以透過簡單的 Java API 整合到生產程式碼中。Shifu 利用 Pig、Akka、Encog 和其他開源專案。

Guagua是一個基於 Hadoop YARN 的記憶體迭代計算框架,作為 Shifu 的子專案開發,以加速訓練進度。


Shifu 為模型構建過程的每個步驟提供了一個簡單的命令列介面,包括



 

相關文章