前言
為什麼學習Python爬蟲?
資料控?!
為什麼學習Python爬蟲?
酷!效率高!
本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。
學習爬蟲前
你得先了解Python的list(佇列),dict(字典)
因為爬蟲爬取下來的資料要用Python的資料框架來儲存,list和dic是基礎,另外你還需要了解numpy以及pandas。
推薦書籍
學習Python的資料架構,強烈推薦利用Python進行資料分析
Python爬蟲相關的模組
urllib、requests、Bs4、scrapy、pyspider等等。
對於這些模組當中,小編強烈建議用requests、Bs4這樣2個包,你會發現寫爬蟲原來這麼簡單!
requests負責網站,處理http協議;
bs4負責將網頁變成結構化資料,方便爬取。
當然了,你肯定會遇到一些用bs4也很難爬取的內容,這個時候你就需要學一學re(正規表示式)
掌握以上這些知識點內容,那麼你就可以開始爬取一些靜態網站資料啦!
比如:糗事百科的段子、一些盜版網站的小說等等。
慢慢的你會發現這些靜態網站已經不能滿足你的慾望了,這個時候就可以開始學習爬取js載入的動態網站了
那你就需要學習的知識點就有selenium、ghost這種包來控制瀏覽器,學了這些你就可以輕鬆爬取知乎啦~~~
你以為學完這些就夠了?
路漫漫其修遠兮,你爬取到的資料,肯定是需要儲存的吧,這時你就需要惡補Python資料庫連線的知識,爬到的資料你想要展示對吧,那你就需要解除一下Django、flask等一些web開發框架了。
除此之外:
多執行緒爬蟲提高爬取效率!
代理IP池與網站鬥智鬥勇!
scrapy、pyspider框架部署!
每一個都需要我們學習很久