ShifuML/shifu: Hadoop上的機器學習和資料探勘框架
來自Paypal的Shifu是一個建立在 Hadoop 之上的開源、端到端的機器學習和資料探勘框架。Shifu 專為資料科學家設計,簡化了構建機器學習模型的生命週期。雖然最初是為欺詐建模而構建的,但 Shifu 已推廣到許多其他建模領域。
Shifu 的優點之一是機器學習中的端到端建模管道。只需配置設定,就可以構建整機流水線,並且可以更輕鬆地開發模型並將其推向生產。
Shifu 基於 Hadoop 的快速分散式神經網路/邏輯迴歸/梯度增強樹訓練可以將 TB 資料集上的模型訓練時間從幾天縮短到幾小時。Shifu 與 Hadoop 上的 Pig 工作流整合,Shifu 訓練的模型可以透過簡單的 Java API 整合到生產程式碼中。Shifu 利用 Pig、Akka、Encog 和其他開源專案。
Guagua是一個基於 Hadoop YARN 的記憶體迭代計算框架,作為 Shifu 的子專案開發,以加速訓練進度。
Shifu 為模型構建過程的每個步驟提供了一個簡單的命令列介面,包括
- 統計計算和變數選擇以確定資料中最具預測性的變數
- 變數歸一化
- 基於敏感性分析的分散式變數選擇
- 分散式神經網路模型訓練
- 分散式樹整合模型訓練
- 訓練後分析和模型評估
- Shifu 上的分散式 TensorFlow
相關文章
- .NET資料探勘與機器學習開源框架機器學習框架
- 2018資料科學和機器學習調查:Hadoop被拋棄!資料科學機器學習Hadoop
- 「雜談」GitHub上最全的機器學習和深度學習資料Github機器學習深度學習
- Hadoop大資料開發框架學習Hadoop大資料框架
- 資料探勘,人工智慧,機器學習會議總結人工智慧機器學習
- Python核心資料:Django+Scrapy+Hadoop+資料探勘+機器學習+Python精選視訊(限時福利免費領)PythonDjangoHadoop機器學習
- 【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP機器學習
- 人工智慧、資料探勘、機器學習和深度學習之間,主要有什麼關係?人工智慧機器學習深度學習
- 理解Transformer [資料探勘深度學習]ORM深度學習
- 大資料框架之一——Hadoop學習第四天大資料框架Hadoop
- 白山雲科技校招:系統研發、機器學習、資料探勘工程師機器學習工程師
- 機器學習:探索資料和資料預處理機器學習
- hadoop 存到hdfs的資料沒有同步到其他機器上Hadoop
- 大資料和Hadoop什麼關係?為什麼大資料要學習Hadoop?大資料Hadoop
- 具身智慧和機器人學習資料機器人
- 學Java的,想嘗試轉行大資料和資料探勘,該怎麼規劃學習?Java大資料
- 2018年Analytics Vidhya上最受歡迎的15篇資料科學和機器學習文章資料科學機器學習
- 資料科學和機器學習面試問題資料科學機器學習面試
- 機器學習-資料清洗機器學習
- 機器學習 大資料機器學習大資料
- 11 個 AI 和機器學習模型的開源框架AI機器學習模型框架
- 機器學習和深度學習資源蒐集機器學習深度學習
- 5月Github上最熱門的資料科學和機器學習專案TOP5Github資料科學機器學習
- ChunJun框架在資料還原上的探索和實踐 | Hadoop Meetup精彩回顧框架Hadoop
- 五個給機器學習和資料科學入門者的學習建議機器學習資料科學
- 機器學習-- 資料轉換機器學習
- 機器學習之清理資料機器學習
- 談談人工智慧和機器學習的資料架構人工智慧機器學習架構
- 使用 .NET 5 體驗大資料和機器學習大資料機器學習
- 做資料分析需要學習機器學習嗎?機器學習
- (一) 機器學習和機器學習介紹機器學習
- 大資料之 Hadoop學習筆記大資料Hadoop筆記
- 從小白到大神:快速掌握資料探勘的學習路徑!
- 機器學習中的有標註資料集和無標註資料集機器學習
- 機器學習和資料科學領域,推薦幾本學習書單機器學習資料科學
- 機器學習 # 為什麼機器學習要求資料是獨立同分布的?機器學習
- 3月份Github上最熱門的資料科學和機器學習專案TOP7Github資料科學機器學習
- 在大型金融資料集上使用機器學習的特徵工程測試機器學習特徵工程