學機器學習要選擇 Python 的13個原因

dicksonjyl560101發表於2019-08-02

來源|QIKU

Python程式語言與機器學習實踐可以稱得上是“珠聯璧合”。

學機器學習要選擇 Python 的13個原因

1. Python是解釋語言,程式寫起來非常方便

寫程式方便對做機器學習的人很重要。

因為經常需要對模型進行各種各樣的修改,這在編譯語言裡很可能是牽一髮而動全身的事情,Python 裡通常可以用很少的時間實現。

舉例來說,在 C 等編譯語言裡寫一個矩陣乘法,需要自己分配運算元(矩陣)的記憶體、分配結果的記憶體、手動對 BLAS 介面呼叫 GEMM 、最後如果沒用 smart pointer 還得手動回收記憶體空間。Python 幾乎就是 import numpy;numpy.dot 兩句話的事。

當然現在很多面向C/C++庫已經支援託管的記憶體管理了,這也讓開發過程容易了很多,但解釋語言仍然有天生的優勢--不需要編譯時間。這對機器學習這種需要大量 prototyping 和迭代的研究方向是非常有益工作效率的。

2. Python的開發生態成熟,有很多有用的庫可以用

除了上面說到的NumPy,還有SciPy、NLTK、OS(自帶)等等不一而足。Python 靈活的語法還使得包括文字操作、list / dict comprehension 等非常實用的功能非常容易高效實現(編寫和執行效率都高),配合 Lambda 等使用更是方便。這也是 Python 良性生態背後的一大原因。相比而言,Lua雖然也是解釋語言,甚至有 LuaJIT 這種神器加持,但其本身很難做到 Python 這樣,一是因為有 Python 這個前輩佔領著市場份額,另一個也因為它本身種種反常識的設計(比如全域性變數)。不過藉著 Lua-Python bridge 和 Torch 的東風,Lua 似乎也在寄生興起。

3. Python的效率很高

解釋語言的發展已經大大超過許多人的想象。很多比如 list comprehension 的語法糖都是貼近核心實現的。除了JIT[1]之外,還有 Cython 可以大幅增加執行效率。最後,得益於 Python 對 C 的介面,很多像 gnumpy ,theano 這樣高效、Python 介面友好的庫可以加速程式的執行,在強大團隊的支撐下,這些庫的效率可能比一個不熟練的程式設計師用 C 寫一個月調優的效率還要高。

4. 資料儲存方便

有 SQL,Hadoop,MongoDB,Redis,Spark 等。

5. 資料獲取方便

有 Scrapy,Beautiful Soup,Requests,paramiko 等。

6. 資料運算方便

有 Pandas,Numpy,scipy 等。

7. 輸出結果方便

有 Matplotlib,VisPy 等。

8. 和其他語言互動方便

有 ctypes,rpy2,Cython,SWIG,PyQt,Boost.Python 。

9. 加速方便

有 PyPy,Cython,PyCUDA 等。

10. 圖形影像方便

有 PyOpenGL,PyOpenCV,Mayavi2 。

11. 訊號處理方便

PyWavelets,scipy.signal。

12. 雲系統支援方便

GitHub,SourceForge,EC2,BAT,HPC。

13. python開源

Python支援的平臺多,包括 Windows / Linux / UNIX / macOS。而 MATLAB 太貴,只能呼叫其 API,用 Python 省錢,省錢就是賺錢。

Python 和 C++ 做個比較。

C++ 的 CPU 效率是遠遠高於 Python 的不過 python 是一門膠水語言,它可以和任何語言結合,基於這個優點,很多資料處理的 Python 庫底層都是 C++ 實現的,意思就是說:你用 Python 寫 code,但效率是C++的。只有那些 for 迴圈,還是用Python的效率高。

近年來機器學習最要是深度學習,而深度學習使用 CUDA GPU 加速遠比 CPU 要快,而cuda 是C++寫的。所以現在TensorLayer、theano 等深度學習庫都是 Python 程式設計、底層C++。

學機器學習要選擇 Python 的13個原因


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2652561/,如需轉載,請註明出處,否則將追究法律責任。

相關文章