Python為何能成為資料分析的主流工具?

CDA資料分析師發表於2019-02-16

昨天,微信的Python交流群出現了這樣的對話:

看到這部分程式碼交流,讓我不禁感受到Python的強大、函式演算法的多用以及一個人思維的提升。想想,Python在1991年首次釋出,Python2.0於2000年釋出,8年後Python3.0釋出。根據Stack Overflow在2017年的調查顯示,近45%的資料科學家使用Python作為主要的程式語言,Python每一次的進步都是它成為資料分析主流工具的重要因素。

近年來,Python的被使用性越來越高,尤其是Jupyter Notebook備受大家喜愛。根據Ben Frederickson進行的一項調查顯示,Jupyter Notebook在Github上的月活躍使用者(MAU)的佔比在2015年後大幅上升。隨著近年Python的使用者越來越多,R的月活躍使用者在2015年之後不可避免有了大幅下降。

可以看到,在CDA對資料分析人才等級的劃分中,基本上對Python軟體的應用都有一定的要求。

既然Python這麼受歡迎,那我們就有一個問題了,Python一個開源的軟體,到底可以做什麼呢?

首先,我們知道,Python具有豐富和強大的庫,其語言簡潔、優雅,有時候可以用幾句話就能表達出C語言幾千行、Java幾百行的程式碼。Python可以做的事情有很多:開發、資料分析、資料探勘、機器學習、爬蟲等等,包括它的視覺化功能也是和R可以媲美的。在我看來,Python近幾年受追捧的一部分原因和資料分析行業的爆發有著密不可分的關係,隨著各大中小型企業對資料的重視程度的增加,資料分析師需求的大幅上漲,而Python作為資料分析界最容易入門上手並且做資料分析首選的的分析工具,需求也相應有了暴增。

Python中有兩個最基礎的包:Pandas和Numpy,Pandas是Python中一種資料分析的包,而Numpy是一個可以藉助Python實現科學計算的包,可以計算和儲存大型矩陣。所以,用Python來做資料分析基本需求都可以被實現,這也是Python可以廣泛運用到資料分析中的原因。

接下來我要提到的就是Python第一次引起我興趣的一個點——爬蟲,我是通過感到這個名詞有趣然後去了解學習Python從而感到Python的有趣之處。爬蟲就是爬取網頁上我們看到的資訊,通過編寫語句、整理得到我們想要的資料,進而去做一些其他的資料分析,當然,這一切都要建立在合法合理的基礎上。下面我給大家分析一個我自己爬蟲的小練習。

這是一個爬取豆瓣tap250電影排行的程式程式碼:

爬取到結果整理之後如下(輸出評分排名前十的電影):

使用上面的程式碼,我爬取了豆瓣top250電影的影名、型別、國家、時間、簡介、評論等相關資訊並最終輸出為excel表格,這將有助於你劇荒的時候更好的選擇高質量的電影。以上程式碼僅僅是個人練習所操作,有更簡潔的語言歡迎大家一起交流。Python真的是一個神奇的工具,建議大家千萬不要輕易入坑,因為很難出來。

CDA資料分析師原創作品,轉載需授權喲!

相關文章