huichen/mlf: 大資料機器學習框架
huichen/mlf: 大資料機器學習框架 https://github.com/huichen/mlf
讓天下沒有難做的大資料模型!
現有的機器學習框架/軟體包存在幾個問題:
無法處理大資料:多數Python,Matlab和R寫的訓練框架適合處理規模小的樣本,沒有為大資料優化。
不容易整合到實際生產系統:standalone的程式無法作為library嵌入到大程式中。
模型單一:一個軟體包往往只解決一個型別的問題(比如監督式或者非監督式)。
不容易擴充套件:設計時沒有考慮可擴充套件性,難以新增新的模型和元件。
程式碼質量不高:程式碼缺乏規範,難讀懂、難維護。
彌勒佛專案的誕生就是為了解決上面的問題,在框架設計上滿足了下面幾個需求:
處理大資料:可隨業務增長scale up,無論你的資料樣本是1K還是1B規模,都可使用彌勒佛專案。
為實際生產:模型的訓練和使用都可以作為library或者service整合到在生產系統中。
豐富的模型:容易嘗試不同的模型,在監督、非監督和線上學習等模型間方便地切換。
高度可擴充套件:容易新增新模型,方便地對新模型進行實驗並迅速整合到生產系統中。
高度可讀性:程式碼規範,註釋和文件儘可能詳盡,適合初學者進行大資料模型的學習。
[
](https://github.com/huichen/mlf#安裝更新)安裝/更新
go get -u github.com/huichen/mlf
[
](https://github.com/huichen/mlf#功能)功能
下面是彌勒佛框架解決的問題型別,括號中的斜體代表尚未實現以及預計實現的時間
監督式學習:最大熵分類模型(max entropy classifier),決策樹模型(decision tree based models,2014 Q1)
非監督式學習:聚類問題(k-means,2014 Q1)
線上學習:線上梯度遞降模型(online stochastic gradient descent)
神經網路(2014 Q2/3)
專案實現了下面的元件
多種資料集(in-mem,skip)
多種評價器(precision,recall,f-score,accuracy,confusion)和交叉評價(cross-validation)
多種優化器:協程併發L-BFGS,梯度遞降(batch, mini-batch, stochastic),帶退火的學習率(learning rate),L1/L2正則化(regularization)
稀疏向量(sparse vector)以儲存和表達上億級別的特徵
特徵辭典(feature dictionary)在特徵名和特徵ID之間自動翻譯
[
相關文章
- 機器學習 大資料機器學習大資料
- 機器學習——大資料與MapReduce機器學習大資料
- 大資料框架圖大資料框架
- .NET資料探勘與機器學習開源框架機器學習框架
- 大資料常用處理框架大資料框架
- 大資料框架原理簡介大資料框架
- 大資料協作框架Hue大資料框架
- 大資料 機器學習 演算法概論大資料機器學習演算法
- 資源|機器學習必知的15大框架,歡迎補充!機器學習框架
- 大資料學習筆記(十五)-大資料排程框架大資料筆記框架
- ShifuML/shifu: Hadoop上的機器學習和資料探勘框架Hadoop機器學習框架
- 機器學習高質量資料集大合輯機器學習
- 使用 .NET 5 體驗大資料和機器學習大資料機器學習
- 淺析大資料框架 Hadoop大資料框架Hadoop
- 前端三大框架:資料繫結與資料流前端框架
- 大資料開源框架特點大總結大資料框架
- [大資料][機器學習]之Model Card(模型卡片)介紹大資料機器學習模型
- 機器學習-資料清洗機器學習
- 大資料的分散式機器學習的策略與原則大資料分散式機器學習
- 觀點 | 重新思考機器學習:大資料消耗已無必要機器學習大資料
- 加速大資料分析和機器學習- Ziya Ma ( Intel Corp )大資料機器學習Intel
- 零基礎大資料學習框架大資料框架
- Hadoop大資料開發框架學習Hadoop大資料框架
- 大資料,大資料,大資料大資料
- 網際網路,IT,大資料,機器學習,AI知識tag雲大資料機器學習AI
- 《Spark 3.0大資料分析與挖掘:基於機器學習》簡介Spark大資料機器學習
- 亞馬遜雲科技:實現大資料與機器學習雙劍合璧亞馬遜大資料機器學習
- 大資料分析/機器學習基礎之matplotlib繪圖篇大資料機器學習繪圖
- LibRec: 基於機器學習的大資料推薦系統機器學習大資料
- 機器學習之清理資料機器學習
- 機器學習-- 資料轉換機器學習
- 機器學習資料彙總機器學習
- 機器學習資料精選機器學習
- 我愛機器學習--機器學習方向資料彙總機器學習
- 大資料生態圈技術框架總攬大資料框架
- 大資料文摘:細數機器學習在金融領域的七大應用大資料機器學習
- 大快搜尋的大資料一體化開發框架下的大資料爬蟲安裝教程大資料框架爬蟲
- 誰說.NET不適合搞大資料,機器學習、人工智慧大資料機器學習人工智慧