2018年Github最受歡迎機器學習語言Python穩坐冠軍,numpy、scipy是最受歡迎軟體包...

weixin_33766168發表於2019-01-25

在 GitHub 2018 年的 Octoverse 報告中,機器學習和資料科學是 GitHub 上的熱門話題。其中,tensorflow / tensorflow 是專案貢獻最多的專案之一,pytorch / pytorch 是增長最快的專案之一,而 Python 是 GitHub 上第三大最受歡迎的語言。於是,GitHub 決定更加深入地研究一下,機器學習和資料科學在該平臺究竟是怎樣的情況。

GitHub 提取了 2018 年 1 月 1 日到 2018 年 12 月 31 日之間的貢獻資料。這些貢獻可能包括推送程式碼、發起話題或提取請求、評論問題或提取請求,以及審查拉取請求。對於大多數匯入的程式包,GitHub 使用了從依賴關係圖中獲得的資料,其中包括所有公共儲存庫和已選擇加入依賴關係圖的所有私有儲存庫。

機器學習程式語言:Python 穩坐冠軍

\"image\"

GitHub 以使用“機器學習”主題標記的儲存庫的貢獻者為依據,對儲存庫中最常見的主要程式語言進行了排名。結果顯示,Python 是機器學習庫中最常用的語言,也是 GitHub 上第三種最常用的語言。然而,並非所有機器學習專案都使用 Python:GitHub 上還有其他一些最常見的機器學習通用語言,如 C ++、JavaScript、Java、C#、Shel l和 TypeScript 躋身 GitHub 程式語言 Top10,同時是機器學習專案的 Top10 語言。Julia、R 和 Scala 都出現在機器學習專案程式語言的前 10 名,但未上榜 GitHub 整體最受歡迎程式語言 Top10。Julia 和 R 都是資料科學家常用的語言,Scala 在 與 Apache Spark 等大資料系統互動時變得越來越常用。

最受歡迎機器學習和資料科學包:numpy、scipy、pandas佔據前三

\"image\"

我們從依賴圖中提取資料,以計算匯入流行 Python 包的機器學習或資料科學專案的百分比。上表為專案匯入最多程式包 Top10 排名。我們發現:

  • Numpy,一個支援多維資料數學運算的軟體包,是匯入最多的軟體包,近四分之三的機器學習和資料科學專案使用此包。
  • Scipy,一個用於科學計算的軟體,pandas,一個用於管理資料集的軟體包,以及視覺化庫matplotlib,都在超過 40% 的機器學習和資料科學專案中使用。
  • Scikit-learn 是一種流行的機器學習包,包含大量機器學習演算法的實現,近 40% 的專案使用此包。
  • Tensorflow 是一種用於處理神經網路的軟體包,近四分之一的專案使用。

前十名中其他的包均為實用程式包:排名第六的是 Python 2和3相容性庫,python-dateutilpytz 是用於處理日期的包。

最受歡迎的機器學習專案:Tensorflow

\"image\"

2018年,帶有“機器學習”標籤、貢獻最多的開源專案為 Tensorflow,是迄今為止最受歡迎的機器學習專案,且其貢獻者數量是第二大受歡迎專案 scikit-learn 的五倍多。排名第三和第九的 explosion/spaCy/ spaCy 和 RasaHQ / rasa_nlu 是兩個專注於自然語言處理問題的專案。另外四個專案,CMU-Perceptual-Computing-Lab / openpose,thtrieu / darkflow,ageitgey / face_recognition和tesseract-ocr / tesseract 則專注於影象處理。另外,Julia 語言原始碼也是 2018 年專案貢獻最多的專案之一。

原文連結:
https://github.blog/2019-01-24-the-state-of-the-octoverse-machine-learning/

相關文章