本文由 「AI前線」原創,原文連結:二十大Python人工智慧與機器學習開源專案,TensorFlow升為榜首
譯者|核子可樂
編輯|Tina
AI 前線導讀: ”我們更新了 Python 下的各大頂級人工智慧與機器學習專案。TensorFlow 憑藉著三位數的貢獻者增長量成為新的冠軍,Scikit-learn 雖然跌落至第二,但仍然擁有相當龐大的貢獻者群體。”
邁入機器學習與人工智慧領域絕非易事。考慮到目前市面上存在著大量可用資源,眾多懷有這一抱負的專業人士及愛好者往往發現自己很難建立正確的發展路徑。這一領域正不斷演變,我們必須緊隨時代的步伐。為了應對演進與創新帶來的壓倒性速度,保持機器學習認知與知識積累的最好方法無疑在於同技術社群開展合作,進而為眾多頂尖專家所使用的開源專案及工具提供貢獻。
在今天的文章當中,我們更新了原有資訊,旨在對此前於 2016 年 11 月釋出的二十大 Python 機器學習開源專案清單呈現出的趨勢作出一番全面整理。
Tensorflow 憑藉著三位數的貢獻者增長量成為新的冠軍,Scikit-learn 雖然跌落至第二,但仍然擁有相當龐大的貢獻者群體。相較於 2016 年,各專案的貢獻者增長速度分別為:
- TensorFlow,增長 169%,由 493 名貢獻者增加至 1324 名。
- Deap,增長 86%,由 21 名貢獻者增加至 39 名。
- Chainer ,增長 83%,由 84 名貢獻者增加至 154 名。
- Gensim,增長 81%,由 145 名貢獻者增加至 262 名。
- Neon,增長 66%,由 47 名貢獻者增加至 78 名。
- Nilearn,增長 50%,由 46 名貢獻者增加至 69 名。
圖一:GitHub 上的二十大 Python 人工智慧與機器學習專案。
專案規模與貢獻者數量成正比,顏色表示貢獻者的數量變化——紅色更高。
可以看到,TensorFlow、Theano 以及 Caffe 等深度學習專案目前擁有極高人氣。
以下清單整理自 Github 上的貢獻者數量,以降序形式排列。感興趣的朋友亦可點選其中的連結以檢視各專案的說明文件頁面,並以此為起點開始協作及學習利用 Python 實現機器學習的具體方式。
1.TensorFlow 最初由谷歌公司機器智慧研究部門旗下 Brain 團隊的研究人員及工程師們所開發。這套系統專門用於促進機器學習方面的研究,旨在顯著加快並簡化由研究原型到生產系統的轉化。貢獻者數量增長 168%。
提交數量:28476 次。貢獻者數量:1324 名。Github URL:github.com/tensorflow/…。排名變化:+1。
2.Scikit-learn 是一套簡單且高效的資料探勘與資料分析工具,可供任何人群使用,可在多種場景下進行復用,立足 NumPy、SciPy 以及 matplotlib 構建,遵循 BSD 許可且可進行商業使用。貢獻數量增長 39%。
提交數量:22575 次。貢獻者數量:1019 名。Github URL:github.com/scikit-lear…。排名變化:-1。
3.Theano 允許大家高效對關於多維陣列的數學表示式進行定義、優化與評估。貢獻者數量增加 24%。
提交數量:27931 次。貢獻者數量:327 名。Github URL:github.com/Theano/Thea…。排名變化:0。
4.Gensim 是一套自由 Python 庫,其中包含可擴充套件統計語義、純文字文件語義結構分析、語義相似性檢索等功能。貢獻者數量增加 81%。
提交數量:3549 次。貢獻者數量:262 名。Github URL:github.com/RaRe-Techno…。排名變化:+1。
5.Caffe 是一套深度學習框架,主要面向表達、速度與模組化等使用方向。此框架由伯克利大學視覺與學習中心(簡稱 BVLC)以及社群貢獻者共同開發完成。貢獻者數量增加 21%。
提交數量:4099 次。貢獻者數量:260 名。Github URL:github.com/BVLC/caffe。排名變化:-1。
6.Chainer 是一套基於 Python 的獨立開源框架,專門面向各類深度學習模型。Chainer 提供靈活、直觀且高效的手段以實現全面的深度學習模型,其中包括遞迴神經網路以及變分自動編碼器等最新模型。貢獻者數量增加 84%。
提交數量:12613 次。貢獻者數量:154 名。Github URL:github.com/chainer/cha…。排名變化:+3。
7.Statsmodels 是一套 Python 模組,允許使用者進行資料探索、統計模型評估並執行統計測試。其提供包含描述統計、統計測試、繪圖功能以及結果統計的廣泛列表,適用於各種不同型別的資料與估算工具。貢獻者數量增加 33%。
提交數量:9729 次。貢獻者數量:144 名。Github URL:github.com/statsmodels…。排名變化:0。
8.Shogun 是一款機器學習工具集其中提供多種統一且高效的機器學習(簡稱 ML)方興未艾。這套工具集能夠以無縫化方式對多種資料表達、演算法類以及通用型工具加以組合。貢獻者數量增加 33%。
提交數量:16362 次。貢獻者數量:139 名。Github URL:github.com/shogun-tool…。排名變化:0。
9.Pylearn2 是一套機器學習庫。其主要功能以 Theano 為實現基礎。這意味著大家可以利用數學表示式編寫 Pylearn2 外掛(新模型以及演算法等),而 Theano 將對這些表示式進行優化與穩定調整,並將其編譯至您所選定的後端(CPU 或 GPU)。貢獻者數量增加 3.5%。
提交數量:7119 次。貢獻者數量:119 名。Github URL:github.com/lisa-lab/py…。排名變化:-3。
10.NuPIC 是一個開源專案,基於所謂新皮層理論中的分層時間記憶(特立獨行 HTM)概念。HTM 理論中的部分內容已經在現實層面得到應用、測試以及使用,而該理論的其餘部分則仍處於開發階段。貢獻者數量增加 12%。
提交數量:6588 次。貢獻者數量:85 名。Github URL:github.com/numenta/nup…。排名變化:0。
11.Neon 為 Nervana 的基於 Python 的深度學習庫。其在實現易用性的同時,亦可提供極高的效能表現。貢獻者數量增加 66%。
提交數量:1112 次。貢獻者數量:78 名。Github URL:github.com/NervanaSyst…。排名變化:0。
12.Nilearn 是一套 Python 模組,用於對 NeroImaging 資料進行便捷學習。其利用 scikit-learn Python 工具集進行多變數統計,並可提供預測建模、分類、解碼或者連線分析等應用選項。貢獻者數量增加 50%。
提交數量:6198 次。貢獻者數量:69 名。Github URL:github.com/nilearn/nil…。排名變化:0。
13.Orange3 是一套同時面向新手與專家的開源機器學習與資料視覺化方案。其中的大規模工具集可實現互動資料分析工作流。貢獻者數量增加 33%。
提交數量:8915 次。貢獻者數量:53 名。Github URL:github.com/biolab/oran…。排名變化:0。
14.Pymc 是一款 Python 模組,可實現貝葉斯統計模型與擬合演算法,包括馬爾可夫鏈蒙特卡洛演算法。其出色的靈活性與可擴充套件性使其適用於多種任務。貢獻者數量增加 6%。
提交數量:2721 次。貢獻者數量:39 名。Github URL:github.com/pymc-devs/p…。排名變化:0。
15.Deap 是一種用於快速原型設計與思路測試的新型進化計算框架。其目標在於提升自滿的明確度與資料結構的透明性。其與多程式及 SCOOP 的並行機制能夠完美契合。貢獻者數量增加 86%。
提交數量:1960 次。貢獻者數量:39 名。Github URL:github.com/deap/deap。排名變化:+4。
16.Annoy (全稱為近似最近毗鄰) 是一套 C++ 庫,且繫結有 Python 以搜尋空間當中與給定查詢點相信的各點。其亦可建立基於檔案的大型只讀資料結構並將其對映至記憶體當中,從而實現多程式間共享相同資料。貢獻者數量增加 46%。
提交數量:527 次。貢獻者數量:35 名。Github URL:github.com/spotify/ann…。排名變化:+2。
17.PyBrain 是一套面向 Python 的模組化機器學習庫,其目標在於為各類機器學習任務及多種預定義環境提供靈活且易於使用的強大演算法,從而測試並比較各類演算法。貢獻者數量增加 3%。
提交數量:992 次。貢獻者數量:32 名。Github URL:github.com/pybrain/pyb…。排名變化:-2。
18.Fuel 是一套資料管道框架,旨在為您的機器學習模型提供其需要的資料。該專案原本專供 Blocks 與 Pylearn2 神經網路庫使用。貢獻者數量增加 10%。
提交數量:1116 次。貢獻者數量:32 名。Github URL:github.com/mila-udem/f…。排名變化:-2。
19.PyMVPA 是一套 Python 工具包,旨在簡化對大型資料集的統計學習分析流程。其提供一套擴充套件框架,可通過一套高階介面實現分類、迴歸、特徵選擇、資料匯入與匯出等多種演算法。貢獻者數量增加 8%。
提交數量:9373 次。貢獻者數量:28 名。Github URL:github.com/PyMVPA/PyMV…。排名變化:-2。
20.Pattern 是一套面向 Python 程式語言的 Web 挖掘模組。其捆綁多款工具,可用於資料探勘(谷歌 +Twitter+ 維基百科 API、Web 爬取器、HTML DOM 解析器)、自然語言處理(詞性標註器、n-gram 搜尋、情感分析、WordNet)、機器學習(向量空間模型、k-means 聚類、樸素貝葉斯 +k-NN+SVM 分類器)以及網路分析(圖形中心性與視覺化)。貢獻者數量減少 5%。
提交數量:968 次。貢獻者數量:19 名。Github URL:github.com/clips/patte…。排名變化:0。
以上貢獻者與提交次數資料截至 2018 年 2 月 13 日。
www.kdnuggets.com/2018/02/top…
更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。