因為最近在看爬蟲嘛,所以就一直在百度搜關於爬蟲的相關問題,然後就發現了原來有許多人都在問爬蟲是要怎麼學的,所以呢,我就感覺到了,可能大家缺少一份爬蟲教程。
所以我準備整一個簡簡單單的入門小教程,雖然我會的也不多,但是教大家爬取一個小頁面的內容還是可以的。
首先呢,說一下學習的方法
第一,你需要有一個小目標,比如說我當時的小目標其實是爬取知乎的文章,不知道你的小目標是什麼呢?
第二,最好有一定的基礎,能明白大體的語法,別到時候連import和from都不明白。
第三,邊學邊做,這點很重要,因為有的東西就是這樣,我眼睛看會了但是我的腦子並不會,而你邊學邊做的話,遇到問題可以回去看或者百度查,要不到時候會很難受的。
第四,學會利用GitHub,這裡面有許多關於python的優秀庫,很適合大家使用。
話不多說,切入正題。
不過還是要說一句題外話,其實這個入門我寫過一篇類似的,叫爬蟲基礎,歡迎大家閱讀。
首先呢,庫很推薦使用的是requests_html當然使用requests也可以,這兩個應該是現在最流行的了吧。
安裝也是老生常談的內容了。
pip install requests
主要說一下requests吧,安裝就是這麼簡簡單單。然後我們直接import requests就可以把庫匯入了。具體的一些獲取方法就不在這裡詳談了,百度有很多,當然我推薦的是權威文件—->Requests快速上手
一般來說,這些文件都是很實用的,我以前比較愛看書,現在其實比較愛看文件了。
然後嘞,我們既然知道了這個庫,也明白了要去學習該如何使用了,接下來要做什麼呢?接下來需要學習一下html,哈哈真的,不是在逗你哦,因為你爬取的畢竟是網頁,而網頁是通過html+css+JavaScript來寫的,不需要你明白他怎麼寫,只需要懂得這是幹啥的就行了。
之後學習一下re正則,這個對爬蟲來說真的很實用,比如說我的那篇文章,爬取知乎鹽選,就是利用正則抓取下一頁的跳轉連結的。正則其實入門的話沒必要怎麼學,只需要知道怎麼抓取指定的值就好了,之後再慢慢學下去。
然後再接下來學習scrapy,來進行更進一步的爬取,大體的思路也就是這些,上手其實是和容易的,並且爬一些簡單的站也是非常容易地,但是真正要爬一些有東西的網站還是很難得,另外就是沒事看看別人的程式碼,對自己有很大的幫助,別人寫的狗屁不通,你就要學習一下如何寫的不像他那樣,別人寫的精益求精,你就要學習一下如何寫的這麼好,別人好的思路你學習,別人查的方法你反思,不斷學習,勇攀高峰!
本作品採用《CC 協議》,轉載必須註明作者和本文連結