用python進行資料分析的五個最常用庫

weixin_34148456發表於2017-04-11

http://www.360doc.com/content/15/0412/10/17132703_462592209.shtml

1、pandas

Pandas包含高階資料結構,以及和讓資料分析變得快速、簡單的工具。它建立在NumPy之上,使以NumPy為中心的應用變得簡單。

Pandas是進行資料清洗/整理(data munging)的最好工具。

http://pandas.pydata.org/pandas-docs/stable/10min.html

2、numpy

對於科學計算,它是Python建立的所有更高層工具的基礎,NumPy不提供高階資料分析功能,但有了對NumPy陣列和麵向陣列的計算的理解,能幫助你更有效地使用像Pandas之類的工具。

參考視訊教程  https://vimeo.com/77263537

3、scipy

Scipy庫依賴於NumPy,它提供便捷和快速的N維向量陣列操作。SciPy庫的建立就是和NumPy陣列一起工作,並提供許多對使用者友好的和有效的數值例程,如:數值積分和優化。SciPy提供模組用於優化、線性代數、積分以及其它資料科學中的通用任務。

參考教程 https://docs.scipy.org/doc/scipy/reference/tutorial/

4、matplotlib

Matlplotlib是Python的一個視覺化模組。它讓你方便地製作線條圖、餅圖、柱狀圖以及其它專業圖形。使用Matplotlib,你可以定製所做圖表的任一方面。在IPython中使用時,Matplotlib有一些互動功能,如:縮放和平移。它支援所有的作業系統下不同的GUI後端(back ends),並且可以將圖形輸出為常見地向量圖和圖形格式,如:PDF、SVG、JPG、PNG、BMP和GIF等。


5、Scikit-learn

Scikit-learn是一個用於機器學習的Python模組。它建立在Scipy之上,提供了一套常用機器學習演算法,讓使用者通過一個統一的介面來使用。Scikit-learn有助於你迅速地在你的資料集上實現流行的演算法。

內建各演算法教程   http://scikit-learn.org/stable/user_guide.html

這些教程都非常適合初學者。不過,在學習這些教程前,先要熟悉Python語言的基本程式設計知識。

相關文章