本文作者Matthew May是一位正在進行並行式機器學習演算法研究的計算機碩士研究生,同時Matthew也是一位資料探勘研習者,資料發燒友,熱忱的機器學習科學家。開源工具在資料科學工作流中起到了愈發重要的作用。Github十大深度學習專案,其中包含了大量的程式碼庫,框架以及學習資料。看看Github上的人們都在使用哪些工具,都在從哪些資源那裡進行學習。
最新KDnuggets軟體調查結果表明,在過去12個月,73%的資料科學家都會使用免費的資料科學工具。不言而喻,Python和R語言(兩者皆為開源)以及各自的生態系統,是這些免費的資料科學工具中,資料科學家們運用的最突出、最必不可少的。
Github已成為名副其實的開源軟體交流中心,其上寄存了幾乎所有想得到的專案型別。深度學習在學術、研究和興趣方面的普及程度越來越高,並在資料科學方面越來越重要,我們將探索一下Github裡出類拔萃的深度學習專案。
需要注意的是,大部分人認為屬於深度學習的一些重要專案並沒有出現在該名單上,原因在於在Github搜尋「深度學習」時並沒有涉及到這些專案。
1. Caffe
Caffe是利用Python和MATLAB兩者結合建立的深度學習程式庫。由伯克利大學的伯克利視覺與學習中心創辦,如果人們僅把Caffe當做計算機視覺應用是情有可原的;事實上,這是一個通用的深度學習程式庫,能夠開發卷積網路,並建立其他視覺、語音等應用。
2. Data Science IPython Notebooks
這是由Donne Martin策劃收集的IPython筆記本。話題涵蓋大資料、Hadoop、scikit-learn和科學Python堆疊以及很多其他方面的內容。至於深度學習,像是TensorFlow、Theano和Caffe之類的框架也均被涵蓋其中,當然還有相關的特定構架和概念等。
3. ConvNetJS
由史丹佛博士生Andrej Karpathy寫就,他也一直維持著部落格更新。ConvNetJS是一個由Javascript實現的神經網路及其通用模組,並且包括大量的基於瀏覽器的例項。這些文件和例項數不勝數,且非常完整。不要讓javascript和神經網路結合在一起的想法把你嚇跑了,這可是個非常受歡迎而且非常有用的專案。
4. Keras
Keras也是一種Python深度學習程式庫,但它利用了TensorFlow和Theano,這也意味著它可以在目前已知最受歡迎的2個深度學習研發庫中的任一個上執行。也是那些越來越多的被形容為非常高階的庫之一,而所有這些高等級庫都非常相似:抽象化底層的深度學習引擎,使使用者可以更快、更便捷以及更靈活地部署神經網路。Keras支援主流深度學習架構,自帶30秒的快速入門指南,並有著完善的文件。
5. MXNet
作為一個深度學習框架,MXNet旨在靈活和高效,並且透過允許混合使用指令式程式設計及符號式程式設計的技巧來提高程式碼生產力。這個專案可以和多種語言繫結,如Python, R, 以及 Julia。同時MXNet還附帶了一系列神經網路指南和藍本。另外值得注意的是,一個相關專案用JavaScript在瀏覽器環境中實現MXNet,有興趣的朋友可以透過該連結對一個圖形分類模型進行測試。
6. Qix
這是一個各種計算和程式設計主題有關資源(包括Node.Js, GoLang和深度學習)的Github版本庫。之所以說「似乎(appears)」,是因為Github版本庫都是用中文寫的,谷歌提供的翻譯甚至會帶來更多不解。不過,有許多連結,所以如果你能說中文或看得懂中文,或許這裡有些有價值的東西。
7. Deeplearning4j
Deeplearning4j是為Java 和Scala打造的一款具有工業強度的深度學習框架。作為唯一值得研究的JVM深度學習解決方案之一,它在這個領域有著明顯的優勢。不僅可以很好地與Hadoop 以及Spark的結合,它還可以使用GPU。他的文件和指南也非常可靠。
8. Machine Learning Tutorials
這是一張機器學習和深度學習教程,文章和資源的名單。這張列表根據透過主題進行組織,包括了許多與深度學習有關的類別,包括計算機視覺,加強學習以及各種架構。由於內容廣泛,幾個月來,已經在社交媒體上小有名氣,你也可以點選此處做些貢獻。
9. DeepLearnToolbox
DeepLeanToolBox是一個供MATLAB和Octave使用的深度學習工具箱。很遺憾,這個專案現在已被廢棄並停止維護。其Github版本庫也指向了在修習深度學習方面頗具價值的其他選擇:Theano和TensorFlow。 如果說這個已經廢棄的雲端版本庫還有點什麼價值,那就是這個連結了, 這本由Yoshua Bengio撰寫的教程被包含在了這個版本庫中以作為學習人工智慧所使用的深度學習架構的學習資源。
10. LISA Lab Deep Learning Tutorials
這個Github版本庫彙總了加拿大蒙特利爾大學的LISA實驗室深度學習課程的練習材料。其介紹文件摘取如下:
這套練習材料將介紹你們瞭解一些最重要的深度學習演算法,以及展示如何使用Theano執行這些演算法。
Theano是一個使撰寫深度學習模型變得簡單,並允許使用者選擇GPU對他們進行訓練的python庫。
點選這裡線上檢視課程材料原文連結
本文選自kdnuggets,作者:Matthew Mayo,機器之心編譯出品,編譯:柒柒、微胖、之乎。