ShifuML/shifu: Hadoop上的機器學習和資料探勘框架
來自Paypal的Shifu是一個建立在 Hadoop 之上的開源、端到端的機器學習和資料探勘框架。Shifu 專為資料科學家設計,簡化了構建機器學習模型的生命週期。雖然最初是為欺詐建模而構建的,但 Shifu 已推廣到許多其他建模領域。
Shifu 的優點之一是機器學習中的端到端建模管道。只需配置設定,就可以構建整機流水線,並且可以更輕鬆地開發模型並將其推向生產。
Shifu 基於 Hadoop 的快速分散式神經網路/邏輯迴歸/梯度增強樹訓練可以將 TB 資料集上的模型訓練時間從幾天縮短到幾小時。Shifu 與 Hadoop 上的 Pig 工作流整合,Shifu 訓練的模型可以透過簡單的 Java API 整合到生產程式碼中。Shifu 利用 Pig、Akka、Encog 和其他開源專案。
Guagua是一個基於 Hadoop YARN 的記憶體迭代計算框架,作為 Shifu 的子專案開發,以加速訓練進度。
Shifu 為模型構建過程的每個步驟提供了一個簡單的命令列介面,包括
- 統計計算和變數選擇以確定資料中最具預測性的變數
- 變數歸一化
- 基於敏感性分析的分散式變數選擇
- 分散式神經網路模型訓練
- 分散式樹整合模型訓練
- 訓練後分析和模型評估
- Shifu 上的分散式 TensorFlow
相關文章
- .NET資料探勘與機器學習開源框架機器學習框架
- 機器學習和資料探勘的推薦書單機器學習
- 《資料探勘:實用機器學習技術》——資料探勘、機器學習一舉兩得機器學習
- 機器學習、資料探勘及其他機器學習
- 如何向外行解釋機器學習和資料探勘機器學習
- 常用的機器學習&資料探勘知識(點)機器學習
- 趣文:如何向外行解釋機器學習和資料探勘機器學習
- [機器學習&資料探勘]SVM---核函式機器學習函式
- ChunJun框架在資料還原上的探索和實踐 | Hadoop Meetup精彩回顧框架Hadoop
- 資料探勘,人工智慧,機器學習會議總結人工智慧機器學習
- 資源|28本必讀的經典機器學習/資料探勘書籍機器學習
- [機器學習&資料探勘]機器學習實戰決策樹plotTree函式完全解析機器學習函式
- Python核心資料:Django+Scrapy+Hadoop+資料探勘+機器學習+Python精選視訊(限時福利免費領)PythonDjangoHadoop機器學習
- 資料探勘和資料提取能做什麼?
- [機器學習&資料探勘]樸素貝葉斯數學原理機器學習
- [機器學習&資料探勘]SVM---軟間隔最大化機器學習
- 資料探勘類圖書:Hadoop實戰(第2版)Hadoop
- 資料探勘技術在軌跡資料上的應用實踐
- 資料探勘的功能
- 神奇的資料探勘
- huichen/mlf: 大資料機器學習框架UI大資料機器學習框架
- 「雜談」GitHub上最全的機器學習和深度學習資料Github機器學習深度學習
- 淺析大資料框架 Hadoop大資料框架Hadoop
- OLAP和資料探勘——資料倉儲手冊
- 資料探勘者與資料探勘青年的對話(轉)
- 資料探勘的資料分析方法
- 【Mark Schmidt課件】機器學習與資料探勘——MLE與MAP機器學習
- Hadoop大資料探勘從入門到進階實戰Hadoop大資料
- 資料探勘和資料提取該怎麼區分?
- 機器學習中的模型和資料機器學習模型
- 在Apache Hadoop和Spark上加速大資料加密 [session]ApacheHadoopSpark大資料加密Session
- 在Spark和Hadoop上做大規模資料科學SparkHadoop資料科學
- 自學資料探勘
- Web資料探勘Web
- 序列資料探勘
- 資料探勘概念
- 機器學習&資料探勘筆記_16(常見面試之機器學習演算法思想簡單梳理)機器學習筆記面試演算法
- 資料探勘——認識資料