微軟研究院開源專案盤點

微軟亞洲研究院發表於2017-01-05

20169GitHub報告顯示,微軟已在這一全球最大程式碼託管網站上擁有16419位開源貢獻者,成為GitHub上排名第一的開源貢獻者。對於這個全球最大的程式碼存放網站和開源社群而言,微軟的貢獻不僅使Github上又擁有了一大批帥氣美麗聰慧樂於奉獻的程式設計師(嚴肅臉),還使得開源界的力量更為壯大。對開發者個人而言,更多的開源專案也將幫助他們節省大量造輪子的時間,從而專注於效能表現與使用者體驗的優化。

總結|微軟研究院開源專案盤點

如何利用好微軟提供的這些開源工具包資源呢?這篇合集介紹了微軟研究院過去兩年的幾個重要開源專案,如深度學習領域的微軟認知工具包(原名CNTK)等。大家只需點選每個專案後所附的連結就可以輕鬆訪問。

微軟研究院近期開源工具包一覽

1. 微軟認知工具包(Microsoft Cognitive Toolkit)

總結|微軟研究院開源專案盤點

微軟認知工具包(原名CNTK) 是微軟出品的開源深度學習工具包。新版的微軟認知工具包在原有CNTK的基礎上增加了對Python的支援,同時在效能方面也有所提高。而經實驗室測試表明,微軟認知工具包的效能在同等主流工具中表現突出。其裝置要求相對靈活,同時支援CPU和GPU模式。因此沒有GPU,或者神經網路比較小的實驗,可以直接使用CPU版的微軟認知工具包。微軟認知工具包將神經網路描述成一個有向圖的結構,葉子節點代表輸入或者網路引數,其他節點計算步驟,它同時支援卷積神經網路和遞迴神經網路。

其開源專案主頁是:https://www.microsoft.com/en-us/research/product/cognitive-toolkit/

Github主頁地址為:https://github.com/microsoft/cntk

2. LightGBM

總結|微軟研究院開源專案盤點

由微軟亞洲研究院DMTK(分散式機器學習工具包)團隊在在GitHub上開源了效能超越其他boosting工具的LightGBM,在三天之內GitHub上被star了1000 次,fork了200 次。LightGBM (Light Gradient Boosting Machine)是一個實現GBDT演算法的框架,支援高效率的並行訓練,它的主要優勢表現在訓練方面的高效性、較低的記憶體佔用、更高的準確率、進行並行學習與大規模資料處理的能力。公開資料表明 LightGBM 相較於同類工具,其學習效率和準確性都表現突出。此外,實驗也表明LightGBM 通過使用多臺機器進行特定設定的訓練能取得線性加速。<wbr><wbr><wbr><wbr>

LightBGM的開源專案地址參見:https://github.com/Microsoft/LightGBM

3.Project Malmo

總結|微軟研究院開源專案盤點

微軟研究院曾在不久前演示過用遊戲《我的世界》來訓練人工智慧的實驗性專案。現在這款專案Project Malmo通過GitHub正式開源。研究者可以通過《我的世界》測試人工智慧演算法,指導人工智慧學習並完成一些複雜任務。這一計劃可以通過遊戲中的人完成現實生活中的計劃任務。當微軟研究員團隊在利用這個工具訓練人工智慧的角色學習如何爬到虛擬世界的最高點時,這些角色使用的是與人類學習新任務時相同型別的資源。也就是說,這個由科學家研究的小人與普通的人類玩家並無區別,是真正的以人為基礎進行的模擬。這樣的模擬使研究者完全不需要開發人工智慧實體,因此也不再要求研究者有機器人方面的開發背景,就可以進行一些原來只能靠機器人或通過極高成本才能進行的工作。

專案主頁可開啟連線:https://github.com/Microsoft/malmo

4. SDN

總結|微軟研究院開源專案盤點

分散式伺服器中的多臺伺服器該如何連線?連線之後又該如何確保資料傳送效率和實時支撐呢? SDN(Software Defined Network)由此應運而生,它顛覆了傳統網路搭建的邏輯,採用虛擬化技術,根據應用資料的不同使用方式,動態調整和分配資源,優化資料的存貯和轉移。據此,SDN技術可以為不同的使用者群建立不同的虛擬網路,實現不同的資源配置,從而使得物理網路的能力被更加合理的利用。微軟現已開發SDN工具幫助開發者快速部署起一套SDN平臺。<wbr>

該專案原始碼與具體應用方式可開啟連線:https://github.com/Microsoft/SDN

5. Sora

總結|微軟研究院開源專案盤點

微軟亞洲研究院開源的軟體無線電專案Sora是一個完全可程式設計的高效能軟體無線電系統,能夠快捷而有效地實現當前最前沿的無線通訊技術。軟硬體平臺的創新使Sora在PC上就可以完成高效能的無線訊號處理。自2009年首次發表以來,Sora已在學術界獲得多項最佳論文和演示大獎。目前已有50多家大學和科研機構在教學和科研中使用Sora。為滿足研究者們日益迫切的研究需求,完全開源的Sora系統提供了大量特性,其中包括:支援定製的射頻前端,RCB和通訊模式。

Github主頁:https://github.com/Microsoft/Sora

6. GraphView

總結|微軟研究院開源專案盤點

2015年12月16日,微軟亞洲研究院系統演算法組開發的圖資料庫GraphView通過GitHub平臺開源。GraphView是一款中介軟體軟體,方便使用者使用關聯式資料庫SQL Server 或Azure SQL Database高效地管理和處理大規模圖資料。GraphView 在物理資料表達以及系統執行行為上和原生圖資料庫完全一致,填補了關聯式資料庫和圖資料庫之間的鴻溝。它還繼承了關聯式資料庫領域數十年的科研成果,可以提供市面上原生圖資料庫難以媲美的效能。GraphView的功能包括:完備的查詢語言,索引,事物處理和系統管理等等。

GitHub主頁為:https://github.com/Microsoft/GraphView

專案更多介紹可訪問:http://research.microsoft.com/en-us/projects/graphview/

7. Graph Engine

總結|微軟研究院開源專案盤點

2015年5月20日,微軟亞洲研究院Graph Engine 1.0預覽版正式釋出。Graph Engine是一個基於記憶體的分散式大規模圖資料處理引擎,能夠幫助使用者更方便地構建實時查詢應用和高吞吐量離線分析平臺。Graph Engine在學術界有個更廣為人之的名稱,叫做Trinity。此外,Graph Engine 還可與強大的整合開發環境Visual Studio以及微軟雲端計算平臺Azure無縫整合。無論本地開發還是雲端部署,Graph Engine都可以給開發者帶來極佳的使用者體驗。

Github主頁原始碼:https://github.com/Microsoft/GraphEngine

專案主頁:https://www.graphengine.io/

以上所有開源工具都體現了這樣一種追求:在雲時代與移動時代的大背景下,微軟奉行的“移動優先、雲優先”的新願景使微軟將視野擴充到更為廣闊的範圍。微軟的服務不僅可以在微軟的軟體或硬體上使用,同時,在各個平臺,甚至在不同開發者的應用上,微軟的服務也能為更多使用者帶來更新的技術和更智慧易用的使用者體驗,這才能真正讓技術之光照進我們日常生活的每一個角落。畢竟,微軟想做的,是真正的“開發者之友”。

相關文章