huichen/mlf: 大資料機器學習框架

weixin_33892359發表於2017-04-30

huichen/mlf: 大資料機器學習框架 https://github.com/huichen/mlf

讓天下沒有難做的大資料模型！
現有的機器學習框架/軟體包存在幾個問題：
無法處理大資料：多數Python，Matlab和R寫的訓練框架適合處理規模小的樣本，沒有為大資料優化。
不容易整合到實際生產系統：standalone的程式無法作為library嵌入到大程式中。
模型單一：一個軟體包往往只解決一個型別的問題（比如監督式或者非監督式）。
不容易擴充套件：設計時沒有考慮可擴充套件性，難以新增新的模型和元件。
程式碼質量不高：程式碼缺乏規範，難讀懂、難維護。

彌勒佛專案的誕生就是為了解決上面的問題，在框架設計上滿足了下面幾個需求：
處理大資料：可隨業務增長scale up，無論你的資料樣本是1K還是1B規模，都可使用彌勒佛專案。
為實際生產：模型的訓練和使用都可以作為library或者service整合到在生產系統中。
豐富的模型：容易嘗試不同的模型，在監督、非監督和線上學習等模型間方便地切換。
高度可擴充套件：容易新增新模型，方便地對新模型進行實驗並迅速整合到生產系統中。
高度可讀性：程式碼規範，註釋和文件儘可能詳盡，適合初學者進行大資料模型的學習。

[

](https://github.com/huichen/mlf#安裝更新)安裝/更新
go get -u github.com/huichen/mlf

[

](https://github.com/huichen/mlf#功能)功能
下面是彌勒佛框架解決的問題型別，括號中的斜體代表尚未實現以及預計實現的時間
監督式學習：最大熵分類模型（max entropy classifier），決策樹模型（decision tree based models，2014 Q1）
非監督式學習：聚類問題（k-means，2014 Q1）
線上學習：線上梯度遞降模型（online stochastic gradient descent）
神經網路（2014 Q2/3）

專案實現了下面的元件
多種資料集（in-mem，skip）
多種評價器（precision，recall，f-score，accuracy，confusion）和交叉評價（cross-validation）
多種優化器：協程併發L-BFGS，梯度遞降（batch, mini-batch, stochastic），帶退火的學習率（learning rate），L1/L2正則化（regularization）
稀疏向量（sparse vector）以儲存和表達上億級別的特徵
特徵辭典（feature dictionary）在特徵名和特徵ID之間自動翻譯

[

](https://github.com/huichen/mlf#其它)其它
專案名稱來歷
 專案郵件列表
 聯絡方式

機器學習大資料
2019-05-10
機器學習大資料
機器學習——大資料與MapReduce
2017-01-18
機器學習大資料
大資料框架圖
2016-07-18
大資料框架
.NET資料探勘與機器學習開源框架
2024-10-20
機器學習框架
大資料常用處理框架
2020-12-22
大資料框架
大資料框架原理簡介
2020-12-30
大資料框架
大資料協作框架Hue
2016-03-29
大資料框架
大資料機器學習演算法概論
2018-04-12
大資料機器學習演算法
資源|機器學習必知的15大框架，歡迎補充！
2018-09-05
機器學習框架
大資料學習筆記（十五）-大資料排程框架
2017-12-27
大資料筆記框架
ShifuML/shifu: Hadoop上的機器學習和資料探勘框架
2022-01-26
Hadoop機器學習框架
機器學習高質量資料集大合輯
2018-10-24
機器學習
使用 .NET 5 體驗大資料和機器學習
2020-11-16
大資料機器學習
淺析大資料框架 Hadoop
2021-07-27
大資料框架Hadoop
前端三大框架：資料繫結與資料流
2020-07-26
前端框架
大資料開源框架特點大總結
2016-12-06
大資料框架
[大資料][機器學習]之Model Card（模型卡片）介紹
2024-07-09
大資料機器學習模型
機器學習-資料清洗
2019-03-02
機器學習
大資料的分散式機器學習的策略與原則
2022-05-10
大資料分散式機器學習
觀點 | 重新思考機器學習：大資料消耗已無必要
2019-02-04
機器學習大資料
加速大資料分析和機器學習－ Ziya Ma ( Intel Corp )
2016-07-26
大資料機器學習Intel
零基礎大資料學習框架
2019-05-31
大資料框架
Hadoop大資料開發框架學習
2018-08-31
Hadoop大資料框架
大資料，大資料，大資料
2014-05-16
大資料
網際網路,IT,大資料,機器學習,AI知識tag雲
2019-02-15
大資料機器學習AI
《Spark 3.0大資料分析與挖掘：基於機器學習》簡介
2022-03-20
Spark大資料機器學習
亞馬遜雲科技：實現大資料與機器學習雙劍合璧
2022-05-23
亞馬遜大資料機器學習
大資料分析/機器學習基礎之matplotlib繪圖篇
2023-11-25
大資料機器學習繪圖
LibRec：基於機器學習的大資料推薦系統
2017-02-13
機器學習大資料
機器學習之清理資料
2020-06-16
機器學習
機器學習-- 資料轉換
2018-11-17
機器學習
機器學習資料彙總
2018-01-24
機器學習
機器學習資料精選
2017-08-15
機器學習
我愛機器學習--機器學習方向資料彙總
2016-06-04
機器學習
大資料生態圈技術框架總攬
2019-01-07
大資料框架
大資料文摘：細數機器學習在金融領域的七大應用
2019-07-04
大資料機器學習
大快搜尋的大資料一體化開發框架下的大資料爬蟲安裝教程
2018-08-24
大資料框架爬蟲
誰說.NET不適合搞大資料，機器學習、人工智慧
2020-04-18
大資料機器學習人工智慧

huichen/mlf: 大資料機器學習框架

相關文章