寫個爬蟲唄

黃小帥發表於2019-02-25

原文網址 : https://flycode.co/archives/285675

之前寫了個小爬蟲，用來爬噹噹的圖書資訊用的，挺好玩，分享一下吧。整個爬蟲非常簡單，主要是使用request庫+cheerio解析，實現非常粗糙，今天正好理一下思路。

首先，準備工作，就是各種庫的安裝以及其他前置工作的準備，比如頁面分析。

整個流程實際上比較簡單，適合像我這樣的菜鳥觀看。

準備工作

npm install request
npm install cheerio
npm install iconv-lite複製程式碼

request是用來請求頁面的庫，也是本次爬蟲最核心的庫；cheerio是用於解析的庫，將頁面轉化成DOM來簡化資料的解析；iconv-lite是解碼庫，因為噹噹網用的不是utf8編碼，這點倒是讓我吃了不少苦頭。

分析清單

下載完需要的庫就可以開始擼了，不過擼之前需要先分析頁面結構，我列一下分析清單：

頁面結構：分析資料在哪些結構中
資料形式：圖片，文字還是數字
爬取深度：抓取的資料在當前頁面還是需要進入連結（比如商品列表與商品詳情，我們需要的資料在詳情頁，但我們只能通過列表頁去爬，這時候深度就是2）
儲存位置：資料儲存在哪：檔案or資料庫
編碼格式：編碼不對資料就全是亂碼了，這樣的資料要了也沒用

分析完需要分析的東西就可以接著往下了

初步使用

request({
    encoding:null,
    url:`http://book.dangdang.com/list/newRelease_C01.54.htm`
}，function(err,response,body){
    if(err){console.log(err)}
    else{
        //處理資料
        console.log(body)
    }
})複製程式碼

這裡解釋一下，encoding:null是取消編碼，因為預設會按照utf8編碼，但頁面本身是gb2312的，所以解析了也沒用。不寫會出問題，因為以gb2312解碼的時候資料都被utf8編碼過，簡直是災難。

response是伺服器端的響應，比如各種頭資訊啊之類的，這裡用不到它。body是頁面主體，也就是整個html，是我們需要處理的主角。

但之前也提到了，頁面編碼是gb2312，因此在解析資料之前先要解碼。

var decodeBuffer=iconv.decode(body,"gb2312");//將body以gb2312解析轉化成buffer（unicode）
var html=decodeBuffer.toString();
var $=cheerio.load(html);複製程式碼

這時候html是原gb2312解碼後又被編碼成utf8的字串，如果列印出來就能發現，裡邊的中文不再是亂碼了。這時候就輪到cheerio登場了：cheerio提供的api和JQuery基本相同，在這裡可以直接當成JQuery，因此為了更加靠近JQuery，我們將解析後的資料儲存到$這個變數中。

var $=cheerio.load(html);
$(".tushu").each(function(index,ele){
    var bookName=$(ele).find(".name").text();
    console.log(bookName);
})複製程式碼

這時候書名就被列印出來了，是不是很方便。圖片我們就用src吧，當然，如果想把圖片儲存下來也是可以的，用上fs模組就行了

var fs = require("fs");
var path=require("path");
$(".tushu").each(function(index,ele){
    var src=$(ele).find(".cover img").attr("src");
    var srcParse=path.parse(src);
    var srcStore="img/"+srcParse.base;
    request(src).pipe(fs.createWriteStream(srcStore));
})複製程式碼

完整程式碼

至此，整個爬蟲差不多了，因為噹噹把下一頁的連結寫在了a標籤裡，因此同樣可以使用選擇器這種方式去獲取href，以此得知下一頁的路徑。因此封裝一下：

var request=require("request");
var cheerio=require("cheerio");
var iconv=require("iconv-lite");
var path=require("path");
var fs=require("fs");

var main="http://book.dangdang.com";

function spider(url){
    request({
        encoding:null,
        url:url
    },function (err, res, body) {
        var decodeBuffer=iconv.decode(body,"gb2312");
        var result=decodeBuffer.toString();
        var $=cheerio.load(result);
        $(`.tushu`).each(function(index,ele){
            var src=$(ele).find(".cover img").attr("src");
            var srcpath=path.parse(src);
            var srcStore="img/"+srcpath.base;
            request(src).pipe(fs.createWriteStream(srcStore));
        });
        var next=$(`.fanye_bottom > span:nth-child(1) > a:last-child`).attr("href");
        var nextUrl=main+next;
        spider(nextUrl);
    })
}複製程式碼

這時候再呼叫一下spider函式，就可以一頁一頁往下了。同時我也把詳細文章寫在了自己部落格上，防止下次寫的時候忘了怎麼用，可以點選訪問

小結

當然，這個爬蟲很簡單，基本上糊弄一下沒有任何限制的網站還行。之後要寫一個同城租房的畢設專案，準備爬58租房資訊。58對ip作了限制，因此訪問量太大會出驗證碼或者封ip，所以需要加上代理等進一步偽裝一下。代理的確非常頭疼，因為可用率非常低，還記得當初隨便找了一個網站，爬了1w多條ip，結果前幾個還能用，後面的測試一下基本不可用，最後在篩選的時候就篩選出7-8條，真的心累。後來找到了快代理，可用率還不錯，基本能達到12%左右，可以說是非常高的可用率了，畢竟免費。當然有更好的免費代理可以和我說說呀。

第一次寫文章，有什麼不對的地方歡迎看官指正。

如何編寫一個Perl爬蟲程式
2023-11-14
爬蟲
基於 Lua 寫一個爬蟲程式
2023-11-14
爬蟲
如何自己寫一個網路爬蟲
2020-02-27
爬蟲
Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了，動手破壞它！
2019-04-22
Python爬蟲
從零開始寫一個node爬蟲(一)
2019-04-09
爬蟲
5 個用 Python 編寫 web 爬蟲的方法
2018-05-20
PythonWeb爬蟲
編寫一個使用wreq庫的爬蟲程式
2023-11-23
爬蟲
用 Java 拿下 HTML 分分鐘寫個小爬蟲
2020-09-21
JavaHTML爬蟲
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
用JS寫個小燈控制器唄
2018-04-21
JS
3 行寫爬蟲 - 使用 Goribot 快速構建 Golang 爬蟲
2019-10-13
爬蟲Golang
Python爬蟲：手把手教你寫迷你爬蟲架構
2020-07-10
Python爬蟲架構
分分鐘教你用node.js寫個爬蟲
2018-07-18
Node.js爬蟲
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
不用寫程式碼的爬蟲
2019-06-17
爬蟲
新手寫的視訊爬蟲
2020-12-16
爬蟲
手把手教你寫網路爬蟲（2）：迷你爬蟲架構
2018-04-27
爬蟲架構
什麼是網路爬蟲?為什麼用Python寫爬蟲?
2021-03-08
爬蟲Python
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python爬蟲和java爬蟲哪個效率高
2023-10-12
Python爬蟲Java
python與nodejs寫爬蟲你更傾向於哪個一個？
2023-01-06
PythonNodeJS爬蟲
面試—html語義化，SEO的原理，什麼是爬蟲、怎麼去寫一個爬蟲
2018-08-07
面試HTML爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲
Lua-http庫寫一個爬蟲程式怎麼樣？
2023-10-20
HTTP爬蟲
就想寫個爬蟲，我到底要學多少東西啊？
2022-12-06
爬蟲
新一代爬蟲平臺！不寫程式碼即可完成爬蟲...
2024-05-30
爬蟲
python爬蟲是什麼?為什麼用python語言寫爬蟲？
2022-04-02
Python爬蟲
Python為什麼叫爬蟲?Python為什麼適合寫爬蟲?
2021-02-02
Python爬蟲
爬蟲（03）物件導向寫爬蟲（函式，類）2020-12-14
2020-12-14
爬蟲物件函式
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
使用JavaScript編寫的爬蟲程式
2023-11-07
JavaScript爬蟲
用Golang寫爬蟲(六) - 使用colly
2019-07-18
Golang爬蟲
工程化爬蟲的寫法
2024-10-21
爬蟲
一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單
2018-12-02
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲

寫個爬蟲唄

準備工作

分析清單

初步使用

完整程式碼

小結

相關文章