2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

喜歡打醬油的老鳥發表於2020-04-04

導語:​Github 開源專案技術圖

鋒網 AI 開發者按:工欲善其事必先利其器,這也是大部分開發者在日常工作中最重要開發原則。選擇與開發內容相匹配的工具,常常會使我們事半功倍。但面對人工智慧的多個領域,如:機器學習、深度學習、NLP等等,多樣的工具有時也讓我們也無從選擇。

就在最近,一個基於 javascript 的視覺化庫 D3js(treemap 視覺化)對 json 檔案生成的技術圖,給開發者提供了詳細的各領域工具清單,內容涵蓋了 11 種極具潛力的 AI 工具型別,雷鋒網 AI 開發者將其整理如下,強烈建議大家收藏~

原文連結:https://github.com/haggaishachar/techmap 

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

目錄:

Ⅰ、經典機器學習(1-3)

Ⅱ、深度學習(4-8)

Ⅲ、強化學習(9-12)

Ⅳ、自然語言處理(13-18)

Ⅴ、語音識別(19-21)

Ⅵ、計算機視覺(22-26)

Ⅶ、分散式訓練(27-31)

Ⅷ、自動建模(32-35)

Ⅸ、IDEs系統(36-38)

Ⅹ、平臺(39-41)

Ⅺ、評分推理系統(42-43)

適用於經典機器學習的工具

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

一、SciKit-learn  star 39.2k  fork 19.2k

scikit-learn 是一種強大的基於 Python 語言的機器學習演算法庫(https://scikit-learn.org/stable/)。其中,包含了演算法預處理,模型引數擇優,迴歸與分類等演算法,官方文件包含了每一種演算法的例子,程式碼簡潔優美,視覺化了每一種演算法結果,即能學習 python,也是幫助開發者更好理解機器學習演算法的便利工具。

尤其在監督學習部分,Scikit-learn 提供了廣義線性模型、支援向量機、最近鄰演算法、高斯過程、樸素貝葉斯、決策樹和整合方法等演算法教程,同時還介紹了特徵選擇、隨即梯度下降演算法、線性與二次判別分析等在監督學習中非常重要的概念;而在半監督學習中的標籤傳播演算法和無監督學習中的聚類與降維演算法方面,也有非常多的教程。

GitHub 地址:

https://github.com/scikit-learn/scikit-learn 

二、XGBoost star 18.3k  fork 7.3k

xgboost 的全稱是 eXtreme Gradient Boosting,它在 Gradient Boosting 框架下實現了 c++機器學習演算法。

XGBoost 最大的特點在於,它能夠自動利用 CPU 的多執行緒進行並行,同時在演算法上加以改進提高了精度。它是經過優化的分散式梯度提升庫,可擴充套件性強,高效、靈活且可移植。

GitHub 地址:

https://github.com/dmlc/xgboost 

三、Accord.NET star 3.7k  fork 1.7k

Accord.NET Framework 是一個.NET 機器學習框架,結合了完全用 C#編寫的音訊和影像處理庫(http://accord-framework.net/)。

它可用於構建生產級計算機視覺、計算機試聽、訊號處理和統計應用程式甚至用於商業用途的完整框架,併為.NET 的應用程式提供了統計分析、機器學習、影像處理、計算機視覺相關的演算法。

GitHub 地址:

https://github.com/accord-net/framework 

適用於深度學習的工具2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

TensorFlow 2019 年相關資料

四、TensorFlow star 141k  fork 79.8k

TensorFlow 是用於機器學習的端到端開源平臺(https://tensorflow.org),也是 2019 年度 GitHub 上最受歡迎的專案。

它具有工具、庫、社群資源全面且靈活的生態系統,提供穩定的 Python 和 C ++ API,以及其他語言的非保證向後相容 API;能夠幫助開發者們在 ML 領域的研究與發展,並使開發人員輕鬆構建和部署 ML 支援的應用程式。

GitHub 地址:

https://github.com/tensorflow/tensorflow 

五、PyTorch star 35.8k  fork 9k

作為 TensorFlow 強有力競爭對手的 PyTorch,也是目前較為主流的深度學習工具之一。

PyTorch 是一個開源的機器學習框架,提供了兩個高階功能,包括:具有強有力的 GPU 加速度的張量計算(如 NumPy),以及基於磁帶自動調整系統構建的深度神經網路;可加快從研究原型到生產部署的過程。

此前,OpenAI 官方宣佈了「全面轉向 PyTorch」的訊息,計劃將自家平臺的所有框架統一為 PyTorch,也進一步體現了 PyTorch 在深度學習方面的潛力。

GitHub 地址:

https://github.com/pytorch/pytorch 

六、MXNET star 18.4k  fork 6.5k

MXNet 是一個功能齊全,可程式設計和可擴充套件的深入學習框架,支援最先進的深入學習模式(https://mxnet.apache.org/)。

MXNet 提供了混合程式設計模型(命令式和宣告式)和大量程式語言的程式碼(包括 Python、C++、R、Scala、Julia、Matlab 和 JavaScript)的能力,是一個易安裝易上手的開源深度學習工具,它提供了一個 python 介面 gluon,能夠讓開發者迅速搭建起神經網路,並進行高效訓練。

GitHub 地址:

https://github.com/apache/incubator-mxnet 

七、Sonnet star 8.1k  fork 1.2k

Sonnet 是由 DeepMind 釋出的,在 TensorFlow 上用於構建複雜神經網路的開源庫。

Sonnet 主要用於讓 DeepMind 開發的其它模型更容易共享,Sonnet 可以在內部的其它子模組中編寫模組,或者在構建新模組時傳遞其它模型作為引數;同時,Sonnet 提供實用程式來處理這些任意層次結構,以便於使用不同的 RNN 進行實驗,整個過程無需繁瑣的程式碼改寫。

GitHub 地址:

https://github.com/deepmind/sonnet 

八、DL4J star 11.5k  fork 4.8k

DL4J 是採用 java 和 jvm 編寫的開源深度學習庫,支援各種深度學習模型。DL4J 最重要的特點是支援分散式,可以在 Spark 和 Hadoop 上執行,它支援分散式 CPU 和 GPU 執行,並可以利用 Spark 在多臺伺服器多個 GPU 上開展分散式的深度學習模型訓練,讓模型執行更快。

DL4J 的基本特性包括:DL4J 中的神經網路訓練通過簇的迭代平行計算;整個過程由 Hadoop 和 Spark 架構支援;使用 Java 允許開發者在 Android 裝置的程式開發週期中使用。

GitHub 地址:

https://github.com/eclipse/deeplearning4j 

適用於強化學習的工具

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

九、Gym    star 19.6k  fork 5.5k

Gym 是一個用於開發和比較強化學習演算法的工具(https://gym.openai.com/)。

它無需對 agent 的先驗知識,並且採用 python 作為主要開發語言,因此可以簡單的和 TensorFlow 等深度學習庫進行開發整合,同時直觀的將學習結果用畫面直觀的展示出來。Gym 庫中包含許多可以用於制定強化學習演算法的測試問題(即環境),這些環境有共享介面,允許編寫通用的演算法。

GitHub 地址:

https://github.com/openai/gym 

十、Dopamine     star 8.7k  fork 1.1k

一款基於 Tensorflow 的框架,旨在為新手和經驗豐富的強化學習研究人員提供兼具靈活性、穩定性和可重複性的新工具。

該框架的靈感來源於大腦中獎勵-動機行為的主要成分「多巴胺受體」,這反映了神經科學與強化學習研究之間的強大的歷史聯絡,是一個強化學習演算法快速原型的研究框架。

GitHub 地址:

https://github.com/google/dopamine 

十一、ReAgent    star 2.4k  fork 312

Facebook 推出的一個構建決策推理系統的模組化端到端平臺,用於推理系統(強化學習、上下文管理等), 可以顯著簡化推理模型構建過程。

ReAgent 由三部分組成:生成決策並接收決策反饋的模型、用於評估新模型部署前效能的模組及快速迭代的服務平臺。同時,ReAgent 也是建立基於 AI 的推理系統的最全面、模組化開源平臺,並且是第一個包含策略評估的平臺,將會加速相關決策系統的部署。

GitHub 地址:

https://github.com/facebookresearch/ReAgent 

十二、Tensorlayer   star 5.9k  fork 1.3k

這是一個面向科學家的深度學習和強化學習庫。TensorLayer 由底層到上層可以分為三大模組:神經網路模組、工作流模組、應用模組。

與 Keras 和 Pytorch 相比,TensorLayer 提高了神經網路模組的抽象化設計,同時實現了降低使用現有層和開發新層的工作量。

GitHub 地址:

https://github.com/tensorlayer/tensorlayer 

適用於自然語言處理的工具

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

十三、BERT   star 21.3k  fork 5.8k 

BERT 是一個基於雙向 Transformer 的大規模預訓練語言模型,用於對大量未標記的文字資料進行預訓練,以學習一種語言表示形式,這種語言表示形式可用於對特定機器學習任務進行微調。

BERT 被稱為是 NLP 領域中里程碑的進展;目前,BERT 也是 NLP 深度學習中的重要組成部分,很多之後的自然語言處理模型都是在此基礎上優化與改進而得。

GitHub 地址:

https://github.com/google-research/bert 

十四、Transformers  star 21.7k  fork 4.8k

Transformers 是神經機器翻譯中使用的一種神經網路,它主要涉及將輸入序列轉換為輸出序列的任務,這些任務包括語音識別和文字轉換語音。

這類任務需要「記憶」,下一個句子必須與前一個句的上下文相關聯(這是相當關鍵的),以免丟失重要的資訊。通過將 attention 應用到正在使用的單詞上,則可以解決當句子太長的時,RNN 或 CNN 無法跟蹤上下文和內容的問題。

GitHub 地址:

https://github.com/huggingface/transformers 

十五、AllenNLP    star 8k  fork 1.7k

一個基於 PyTorch 的 NLP 研究庫,利用深度學習來進行自然語言理解,通過處理低層次的細節、提供高質量的參考實現,能輕鬆快速地幫助研究員構建新的語言理解模型。

AllenNLP 能讓設計和評估新的深度學習模型變得簡單,幾乎適用於任何 NLP 問題,通過利用一些基礎元件,你可以輕鬆地在雲端或是你自己的筆記本上跑模型。

GitHub 地址:

https://github.com/allenai/allennlp 

十六、flair    star 8.1k  fork 1k

一款簡單易用的 Python NLP 庫,允許將當前最優自然語言處理(NLP)模型應用於文字,如命名實體識別(NER)、詞性標註(PoS)、詞義消歧和分類。

Flair 基於 Pytorch 的 NLP 框架,它的介面相對更簡單,允許使用者使用和結合不同的詞嵌入和文件嵌入,包括 Flair 嵌入、BERT 嵌入和 ELMo 嵌入。

GitHub 地址:

https://github.com/flairNLP/flair 

十七、spaCy    star 15.7k  fork 2.8k

這是一個具有工業強度級的 Python 自然語言處理工具包。

它已經成為 Python 中最廣泛使用的工業級自然語言庫之一,它提供了當前最佳的準確性和效率,並且有一個活躍的開源社群支援。

GitHub 地址:

https://github.com/explosion/spaCy 

十八、fastText   star 20.5k  fork 3.9k

FastText 是 Facebook 人工智慧研究實驗室(FAIR)開源的一個文字處理庫,他是一個專門用於文字分類和外文字表示的庫,用於高效文字分類和表示學習。

fastText 的核心是使用「詞袋」的方式,不管文字的順序;但它不是線性的,而是使用分層分類器來將時間複雜度降低到對數級別,並且在具有更高分類數量的大資料集上更高效。

GitHub 地址:

https://github.com/facebookresearch/fastText

適用於語音識別的工具

十九、Kaldi  star 8.2k  fork 3.7k

Kaldi 是目前使用廣泛的開發語音識別應用的框架。

該語音識別工具包使用了 C ++編寫,研究開發人員利用 Kaldi 可以訓練出語音識別神經網路模型,但如果需要將訓練得到的模型部署到移動端裝置上,通常需要大量的移植開發工作。

GitHub 地址:

https://github.com/kaldi-asr/kaldi 

二十、DeepSpeech star 13k  fork 2.4k

DeepSpeech 是一個開源語音轉文字引擎,使用基於百度深度語音研究論文的機器學習技術訓練的模型。其中,該專案運用到了 Google 的 TensorFlow 來簡化實施過程。

GitHub 地址:

https://github.com/mozilla/DeepSpeech 

二十一、wav2letter   star 4.8k  fork 770

這是由 Facebook 人工智慧研究院釋出的首個全卷積自動語音識別工具包,它是一個簡單高效的端到端自動語音識別(ASR)系統。

wav2letter 的核心設計基於三個關鍵原則,包括:實現在包含成千上萬小時語音資料集上的高效模型訓練;簡單可擴充套件模型,可以接入新的網路架構、損失函式以及其他語音識別系統中的核心操作;以及平滑語音識別模型從研究到生產部署的過渡。

GitHub 地址:

https://github.com/facebookresearch/wav2letter 

適用於計算機視覺的工具

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

二十二、YOLO  star 16.2k  fork 10.4k

YOLO 是當前深度學習領域解決影像檢測問題最先進的實時系統。在檢測過程中,YOLO 首先將影像劃分為規定的邊界框,然後對所有邊界框並行執行識別演算法,來確定物體所屬的類別。確定類別之後,YOLO 再智慧地合併這些邊界框,在物體周圍形成最優邊界框。

這些步驟全部並行進行,因此 YOLO 能夠實現實時執行,並且每秒處理多達 40 張影像。據官網顯示,在 Pascal Titan X 上,它以 30 FPS 的速度處理影像,並且在 COCO 測試開發中的 mAP 為 57.9%。

GitHub 地址:

https://github.com/allanzelener/YAD2K 

二十三、OpenCV    star 41.9k  fork 32.4k

OpenCV 是英特爾開源的跨平臺計算機視覺庫(https://opencv.org),被稱為 CV 領域開發者與研究者的必備工具包。

這是一套包含從影像預處理到預訓練模型呼叫等大量視覺 API 的庫,並可以處理影像識別、目標檢測、影像分割和行人再識別等主流視覺任務。其最顯著的特點是它提供了整套流程的工具,因此開發者無需瞭解各個模型的原理就能用 API 構建視覺任務。它具備 C++、Python 和 Java 介面,支援 Windows、Linux、Mac OS、iOS 和 Android 系統。

GitHub 地址:

https://github.com/opencv/opencv 

二十四、Detectron2   star 7.7k  fork 1.4k

Detectron2 則是 PyTorch 1.3 中一重大新工具,它源於 maskrcnn 基準測試,也是對先前版本 detectron 的一次徹底重寫。

Detectron2 通過全新的模組化設計,變得更靈活且易於擴充套件,它能夠在單個或多個 GPU 伺服器上提供更快速的訓練速度,包含了更大的靈活性與擴充套件性,並增強了可維護性和可伸縮性,以支援在生產中的用例。

GitHub 地址:

https://github.com/facebookresearch/detectron2 

二十五、OpenPose   star 15.9k  fork 4.7k

OpenPose 人體姿態識別專案是美國卡耐基梅隆大學(CMU)基於卷積神經網路和監督學習並以 caffe 為框架開發的開源庫。

它可以實現人體動作、面部表情、手指運動等姿態估計。適用於單人和多人,具有極好的魯棒性。是世界上首個基於深度學習的實時多人二維姿態估計應用,很多人體姿態估計例項都是基於它實現,如動作採集、3D 試衣、繪畫輔助等。

GitHub 地址:

https://github.com/CMU-Perceptual-Computing-Lab/openpose 

二十六、facenet   star 10k  fork 4.1k

FaceNet 採用了深度卷積神經網路(CNN)學習將影像對映到歐式空間,也被稱為通用人臉識別系統。

該系統可從人臉中提取高質量的特徵,稱為人臉嵌入(face embeddings),可用於訓練人臉識別系統,從而實現對人臉的驗證。它在 LFW 資料集上測試的準確率達到了 99.63%,在 YouTube Faces DB 資料集上準確率為 95.12%。

GitHub 地址:

https://github.com/davidsandberg/facenet 

適用於分散式訓練的工具

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

二十七、Spark MLlib   star 25.1k  fork 21.1k

Spark 是一個開源叢集運算框架,也是現在大資料領域熱門開源軟體之一(https://spark.apache.org/mllib/)。

由於 Spark 使用了記憶體內運算技術,它在記憶體上的運算速度比 Hadoop MapReduce 的運算速度快上 100 倍;這也使得 Spark MLlib 分散式計算框架執行非常高效、快速。它可以實現大部分機器學習,如:聚類、分類、迴歸等演算法,並允許將資料載入至叢集記憶體,多次對其進行查詢,所以非常適合用於機器學習演算法。

GitHub 地址:

https://github.com/apache/spark 

二十八、Mahout  star 1.8k  fork 930

Mahout 是一個分散式線性代數框架,用於快速建立可擴充套件的高效能機器學習應用程式(http://mahout.apache.org/  )。

Mahout 框架長期以來一直與 Hadoop 繫結,但它的許多演算法也可以在 Hadoop 之外執行。它允許多種演算法可以跨越分散式 Spark 群集上執行,並且支援 CPU 和 GPU 執行。

GitHub 地址:

https://github.com/apache/mahout 

二十九、Horovod   star 8.5k  fork 1.3k

這是由 Uber 開源的一個跨多臺機器的分散式深度學習的 TensorFlow 訓練框架,可以使分散式深度學習快速且易於使用。

據介紹,Horovod 讓開發人員只需幾行程式碼就可以完成任務。這不僅加快了初始修改過程,而且進一步簡化了除錯。考慮到深度學習專案的高度迭代性,這也可以節省大量時間。除此之外,它還結合了高效能和修補低階模型細節的能力,例如:同時使用高階 api,並使用 NVIDIA 的 CUDA 工具包實現自己的自定義操作符。

GitHub 地址:

https://github.com/horovod/horovod 

三十、Dask   star 6.2k  fork 994

當開發者需要並行化到多核時,可以用 Dask 來將計算擴充套件到多個核心甚至多個機器。

Dask 提供了 NumPy Arrays,Pandas Dataframes 和常規列表的抽象,能夠在無法放入主記憶體的資料集上並行執行。對大型資料集來說,Dask 的高階集合是 NumPy 和 Pandas 的替代方案。

GitHub 地址:

https://github.com/dask/dask 

三十一、Ray   star 10.3k  fork 1.5k

Ray 是一個高效能分散式執行框架,它使用了和傳統分散式計算系統不一樣的架構和對分散式計算的抽象方式,用於快速而簡單的構建和執行分散式應用程式。

Ray 按照典型的 Master-Slave 進行設計。其中,Master 負責全域性協調和狀態維護,Slave 執行分散式計算任務。不過和傳統的分散式計算系統不同的是,Ray 使用了混合任務排程的思路,效能更強。

GitHub 地址:

https://github.com/ray-project/ray 

適用於自動建模的工具

三十二、TPOT  star 6.7k  fork 1.2k

TPOT 是一個 Python 編寫的軟體包,利用遺傳演算法行特徵選擇和演算法模型選擇,僅需幾行程式碼,就能生成完整的機器學習程式碼。

在機器學習模型開發圖中,TPOT 所完成的即通過利用遺傳演算法,分析數千種可能的組合,為模型、引數找到最佳的組合,從而自動化機器學習中的模型選擇及調參部分。

GitHub 地址:

https://github.com/EpistasisLab/tpot 

三十三、AutoKeras   star 6.6k  fork 1.1k

它使用了高效神經架構搜尋(ENAS,https://arxiv.org/abs/1802.03268),只需使用 pip install autokeras 就能快速輕鬆地安裝軟體包,然後就能用自己的資料集來執行自己的架構搜尋構建思路。

相比谷歌 AutoML,兩者構建思路類似,但不同的是,AutoKeras 所有程式碼都已經開源,可供開發者無償使用。

GitHub 地址:

https://github.com/keras-team/autokeras 

三十四、Featuretools  star 4.6k  fork 602

這是一個用於自動化特性工程的開源 python 框架(https://www.featuretools.com/)。

它可以幫助開發者從一組相關資料表中自動構造特徵。開發者只需要知道資料表的基本結構和它們之間的關係,然後在實體集(一種資料結構)中指明。然後在有了實體集之後,使用一個名為深度特徵合成(DFS)的方法,在一個函式呼叫中構建出數千個特徵。

GitHub 地址:

https://github.com/FeatureLabs/featuretools 

三十五、NNI   star 5.3k  fork 683

NNI 是由微軟釋出的一個用於神經網路超引數調整的開源 AutoML 工具包,也是目前較為熱門的 AutoML 開源專案之一。

最新版本的 NNI 對機器學習生命週期的各個環節做了更加全面的支援,包括:特徵工程、神經網路架構搜尋(NAS)、超參調優和模型壓縮,開發者都能使用自動機器學習演算法來完成,即使是開發小白也能輕鬆上手。

GitHub 地址:

https://github.com/microsoft/nni 

三十六、AdaNet    star 3k  fork 443

AdaNet 是由谷歌開源的一個輕量級的基於 TensorFlow 框架(https://adanet.readthedocs.io/en/v0.8.0/)。

AdaNet 易於使用,並能建立高質量的模型,為 ML 實踐者節省了用於選擇最佳神經網路架構的時間,實現了一種將學習神經架構作為子網路集合的自適應演算法。

GitHub 地址:

https://github.com/tensorflow/adanet 

IDEs 系統

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

三十七、Jupyter   star 9.3k  fork 2.2k

Jupyter 是一種 Web 應用,涵蓋了跨數十種程式語言的互動式計算。

它能讓使用者將說明文字、數學方程、程式碼和視覺化內容全部組合到一個易於共享的文件中,非常方便研究和教學。在資料探勘平臺 Kaggle 上,使用 Python 的資料開發者大多數選擇了 jupyter 來實現分析和建模的過程。

GitHub 地址:

https://github.com/jupyter/jupyter 

三十八、Spyder    star 5.1k  fork 1k

Spyder 是一個 用於科學計算的使用 Python 程式語言的整合開發環境(IDE)。

它結合了綜合開發工具的高階編輯、分析、除錯功能以及資料探索、互動式執行、深度檢查和科學包的視覺化功能,對於初學者也非常友好。

GitHub 地址:

https://github.com/spyder-ide/spyder 

三十九、Zeppelin  star 4.6k  fork 2.2k

Zeppelin 是一款基於 Web 的互動式資料分析平臺。它基於網路的筆記本,預設使用 Spark 叢集作為分析引擎,提供資料視覺化的框架,支援資料驅動的互動式資料分析。

通過配置,它也支援包括 SQL、Python、R 等多種資料分析語言,提供資料庫查詢、動態圖表展示、地圖等資料視覺化能力,並能夠以 Notebook 的形式儲存和分發程式碼及分析結果。

GitHub 地址:

https://github.com/apache/zeppelin 

平臺

四十、H2O  star 4.6k  fork 1.7k

H2O 是  H2O.ai 公司的完全開源的分散式記憶體機器學習平臺。H2O 同時支援 R 和 Python,支援最廣泛使用的統計和機器學習演算法,包括梯度提升(Gradient Boosting)機器、廣義線性模型、深度學習模型等。

H2O 包括一個自動機器學習模組,使用自己的演算法來構建管道。它對特徵工程方法和模型超引數採用了窮舉搜尋,優化了管道。H2O 自動化了一些最複雜的資料科學和機器學習工作,例如特徵工程、模型驗證、模型調整、模型選擇 和 模型部署。除此之外,它還提供了自動視覺化以及機器學習的解釋能力(MLI)。

GitHub 地址:

https://github.com/h2oai/h2o-3

四十一、MLflow  star 5.9k  fork 1.2k

MLflow 是機器學習生命週期的開源平臺,開放介面,可與任何機器學習庫、演算法、部署工具或程式語言一起使用,基於 REST API 和簡單的資料格式而構建。是一個開源專案,允許使用者和機器學習庫開發人員可以對其進行擴充套件。

MLflow 現 alpha 版,提供跟蹤、專案和模型三大元件。MLflow 的跟蹤元件支援記錄和查詢實驗資料,如評估度量指標和引數。MLflow 的專案元件提供了可重複執行的簡單包裝格式。最後,MLflow 的模型元件提供了用於管理和部署模型的工具。

GitHub 地址:

https://github.com/mlflow/mlflow 

四十二、Kubeflow   star 8.3k  fork 1.3k

Kubeflow 專案旨在使 Kubernetes 上的機器學習變的輕鬆、便捷、可擴充套件,其目標不是重建其他服務,而是提供一種簡便的方式找到最好的 OSS 解決方案。對分散式訓練任務支援。

用於建立和管理互動式 Jupyter notebook 的 JupyterHub,可配置為使用 CPU 或 GPU,並通過單一設定調整至單個叢集大小的 TensorFlow 訓練控制器(Tensorflow Training Controller),用於 TF 服務容器(TF Serving container)

GitHub 地址:

https://github.com/kubeflow/kubeflow 

評分推理系統

2020 年最具潛力 44 個頂級開源專案,涵蓋 11 類 AI 學習框架、平臺(值得收藏)

四十三、ONNX  star 7.8k  fork 1.3k

ONNX 是一種針對機器學習所設計的開放式的檔案格式,用於儲存訓練好的模型。它使得不同的人工智慧框架(如 Pytorch, MXNet)可以採用相同格式儲存模型資料並互動。ONNX 的規範及程式碼主要由微軟,亞馬遜,Facebook 和 IBM 等公司共同開發,以開放原始碼的方式託管在 Github 上。

目前官方支援載入 ONNX 模型並進行推理的深度學習框架有: Caffe2, PyTorch, MXNet,ML.NET,TensorRT 和 Microsoft CNTK,並且 TensorFlow 也非官方的支援 ONNX。

GitHub 地址:

https://github.com/onnx/onnx 

四十四、Seldon star 1.4k  fork 296

開源機器學習部署平臺 Seldon Core,讓機器學習模型可以部署於 Kubernetes 上。Seldon Core 的目標,要讓研究人員可以用任何工具包、程式語言建立機器學習模型。

現階段該工具支援模型包含以 Python 為基礎的 TensorFlow、Sklearn,還有 Spark、H2O、R 等知名模型。此外,Seldon Core 也讓機器學習模型可支援 REST、gRPC,讓使用者可以更簡單地整合相關企業應用。

GitHub 地址:

https://github.com/SeldonIO/seldon-core 

相關文章