從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲

嗨學程式設計發表於2019-01-02

從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲

前言

為什麼學習Python爬蟲?

資料控?!

為什麼學習Python爬蟲?

酷!效率高!

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。

學習爬蟲前

你得先了解Python的list(佇列),dict(字典)

因為爬蟲爬取下來的資料要用Python的資料框架來儲存,list和dic是基礎,另外你還需要了解numpy以及pandas。

推薦書籍

學習Python的資料架構,強烈推薦利用Python進行資料分析

從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲

Python爬蟲相關的模組

urllib、requests、Bs4、scrapy、pyspider等等。

對於這些模組當中,小編強烈建議用requests、Bs4這樣2個包,你會發現寫爬蟲原來這麼簡單!

requests負責網站,處理http協議;

bs4負責將網頁變成結構化資料,方便爬取。

當然了,你肯定會遇到一些用bs4也很難爬取的內容,這個時候你就需要學一學re(正規表示式)

掌握以上這些知識點內容,那麼你就可以開始爬取一些靜態網站資料啦!

比如:糗事百科的段子、一些盜版網站的小說等等。

慢慢的你會發現這些靜態網站已經不能滿足你的慾望了,這個時候就可以開始學習爬取js載入的動態網站了

那你就需要學習的知識點就有selenium、ghost這種包來控制瀏覽器,學了這些你就可以輕鬆爬取知乎啦~~~

你以為學完這些就夠了?

路漫漫其修遠兮,你爬取到的資料,肯定是需要儲存的吧,這時你就需要惡補Python資料庫連線的知識,爬到的資料你想要展示對吧,那你就需要解除一下Django、flask等一些web開發框架了。

除此之外:

多執行緒爬蟲提高爬取效率!

代理IP池與網站鬥智鬥勇!

scrapy、pyspider框架部署!

每一個都需要我們學習很久

從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲


相關文章