微軟開源分散式機器學習工具包
為了滿足研究人員和開發者日益增長的各種需求,微軟亞洲研究院於日前將分散式機器學習工具包(DMTK)透過Github開源。DMTK由一個服務於分散式機器學習的框架和一組分散式機器學習演算法構成,是一個將機器學習演算法應用在大資料上的強大工具包。
無論是學術界的研究人員還是工業界的開發者,DMTK可以幫助他們在超大規模資料上靈活穩定地訓練大規模機器學習模型。當前版本的工具包包含以下幾個部分:
1. DMTK分散式機器學習框架:它由引數伺服器和客戶端軟體開發包(SDK)兩部分構成。引數伺服器在原有基礎上從效能和功能上都得到了進一步提升——支援儲存混合資料結構模型、接受並聚合工作節點伺服器的資料模型更新、控制模型同步邏輯等。客戶端軟體開發包(SDK)支援維護節點模型快取(與全域性模型伺服器同步)、節點模型訓練和模型通訊的流水線控制、以及片狀排程大模型訓練等。
2. LightLDA:LightLDA是一種全新的用於訓練主題模型,計算複雜度與主題數目無關的高效演算法。在其分散式實現中,我們做了大量的系統最佳化使得LightLDA能夠在一個普通計算機叢集上處理超大規模的資料和模型。例如,在一個由8臺計算機組成的叢集上,我們可以在具有2千億訓練樣本的資料集上訓練具有1百萬詞彙表和1百萬個話題的LDA模型(約1萬億個引數),這種規模的實驗以往要在數千臺計算機的叢集上才能執行。
3. 分散式詞向量:詞向量技術近來被普遍地應用於計算詞彙的語義表示,它可以用作很多自然語言處理任務的詞特徵。我們為兩種計算詞向量的演算法提供了高效的分步式實現:一種是標準的word2vec演算法,另一種是可以對多義詞計算多個詞向量的新演算法。
此外,DMTK提供了豐富且易用的API介面,能夠有效降低分散式機器學習的門檻。機器學習的研發人員只需要專注於資料、模型和模型訓練等機器學習的核心邏輯部分。
DMTK還將在未來的版本中提供更多的功能和演算法。我們希望開源分散式機器學習工具包可以促進學術界和工業界在大規模機器學習方面的創新。更多資訊,請訪問 http://www.dmtk.io/。
相關文章
- 微軟開源機器學習框架——infer.NET微軟機器學習框架
- 微軟開源機器學習框架——infer.NET微軟機器學習框架
- 開源 | 微軟開源嵌入式機器學習庫ELL:把人工智慧擴充套件到邊緣裝置微軟機器學習人工智慧套件
- .NET開源分散式鎖DistributedLock分散式
- Zipkin開源分散式跟蹤系統分散式
- Java 開源分散式快取框架EhcacheJava分散式快取框架
- 冰河開源了全網首個完全開源的分散式全域性有序序列號(分散式ID)框架!!分散式框架
- 分散式機器學習中的模型聚合分散式機器學習模型
- 分散式機器學習常用資料集分散式機器學習
- 王益:分散式機器學習的故事分散式機器學習
- 掘金 AMA:聽分散式架構 SOFA 的開源負責人黃挺聊分散式架構和開源分散式架構
- 把機器學習塞進針尖大小的晶片中:微軟開源嵌入式學習庫ELL機器學習晶片微軟
- [開源] 一個分散式中國象棋 Alpha zero分散式
- Leaf:美團分散式ID生成服務開源分散式
- 阿里分散式事務框架GTS開源啦!阿里分散式框架
- 主流開源分散式圖資料庫 Benchmark分散式資料庫
- 阿里開源Mysql分散式中介軟體:Cobar阿里MySql分散式
- 分散式機器學習中的模型架構分散式機器學習模型架構
- 微軟開源 Try .NET - 建立互動式.NET文件微軟
- [開源] Golang 實現的分散式 WebSocket 微服務Golang分散式Web微服務
- FASTDFS開源分散式檔案系統介紹AST分散式
- 微軟釋出API及軟體開發工具包微軟API
- 開源|ns4_frame分散式服務框架開發指南分散式框架
- Cassandra+Akka+Spark分散式機器學習架構Spark分散式機器學習架構
- 騰訊重磅開源分散式NoSQL儲存系統DCache分散式SQL
- 一個開源的分散式線上教育系統分散式
- 微軟開源WinJS微軟JS
- 開源機器學習系統(一)機器學習
- 微軟的分散式應用框架 Dapr Helloworld微軟分散式框架
- Atlas—微軟的Ajax工具包(轉)微軟
- 滴滴開源分散式訊息中介軟體產品DDMQ分散式MQ
- 開源分散式圖資料庫的思考和實踐分散式資料庫
- 數人云Meetup|分散式架構的開源元件大選分散式架構元件
- Go的又一個分散式資料庫開源了Go分散式資料庫
- MLSys提前看:機器學習的分散式優化方法機器學習分散式優化
- [貝聊科技]「散點圖工具包」正式開源
- 解讀微軟開源MMLSpark:統一的大規模機器學習生態系統微軟Spark機器學習
- 微軟會開源 Windows 嗎?微軟Windows