使用nodeJS寫一個簡單的小爬蟲

Saikikoko發表於2018-12-25

原文網址 : https://juejin.im/post/5c21e8c15188255e9b620f14

需要安裝的依賴：

request

使用request向需要爬取的網站發起一個請求，在回撥裡使用body接收資料

我選取百度相簿，作為本次爬取的網站

使用百度搜素二次元萌妹子，然後在位址列裡將URL複製下來

const request = require('request');

const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9",
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}
//先列印一下，看看是否抓取到了資料
request(options,(err,res,body)=>{
    console.log(err);
    console.log(res.statusCode);
    console.log(body);
})
複製程式碼

當看到控制檯輸出一大串資訊後（網頁原始碼），且沒有報錯，statusCode返回200，說明正確請求到了資料。

接著，我們需要對資料，進行處理（對返回的資料，進行分析，拿到我們想要的資料，這裡我們想要得到資料是圖片的URL地址）。

處理資料的方式：

正規表示式

作為一個程式設計師，處理字串，首先想到的當然是正則了

使用正則去匹配data-url

const request = require('request');

const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9",
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}
//先列印一下，看看是否抓取到了資料
request(options,(err,res,body)=>{
    const reg = /thumbURL":"https?:\/\/.+?&gp=0.jpg/ig;
    const urlArr = body.match(reg);
    const msgArr = [];
    urlArr.forEach(( val,idx ) => {
        const reg = /https?:\/\/.+?&gp=0.jpg/;
        msgArr.push(val.match(reg)[0]);
    })
    console.log(msgArr);
})
複製程式碼

匹配成功！！！我們試著點選一下，能否訪問

就很棒，抓到的資料，沒有問題

接著，我們嘗試著將圖片下載下來

//想要下載圖片，就必須請求圖片的地址
//訪問到圖片的靜態資源後，使用管道流儲存到檔案中
//因為I/O操作是非同步的，所以使用Promise將程式碼改寫一下
const request = require('request');
const fs = require('fs');//寫入檔案，需要匯入fs模組
const options = {
    method: "GET",
    url: "https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E4%BA%8C%E6%AC%A1%E5%85%83%E8%90%8C%E5%A6%B9",
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
}

new Promise(( res,rej ) => {
    request(options,( err,response,body ) => {
        const reg = /thumbURL":"https?:\/\/.+?&gp=0.jpg/ig;
        const urlArr = body.match(reg);
        const msgArr = [];
        urlArr.forEach(( val,idx ) => {
            const reg = /https?:\/\/.+?&gp=0.jpg/;
            msgArr.push(val.match(reg)[0]);
        })
        res(msgArr);
    })
}).then( msgArr => {
    msgArr.forEach(( val,idx ) => {
        request(val).pipe(fs.createWriteStream("./img/"+idx+".jpg"));
    })
})

複製程式碼

此時開啟資料夾，可以看到圖片已經下載成功！

使用正則，可以解析使用JS渲染的頁面，如果發起請求後，body接收的資料返回的是一個頁面結構，則可以使用以下兩個npm包：

jsdom
cheerio

jsdom可以將資料解析成DOM結構，cheerio則將資料包裝成jQuery

以百度搜尋為例，如果要抓取搜尋結果的標題內容和連結

//
const request = require("request")
const {JSDOM} = require("jsdom")
//const cheerio = require("cheerio")

const word = encodeURI("二次元萌妹")
request({
    url : "https://www.baidu.com/s?wd="+word,
    headers:{
        "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"
    }
},(err,response,body)=>{
    if(err)throw err;
    if( response.statusCode >=200 && response.statusCode<300 ){
        //JSDOM處理body
        let {window} = new JSDOM(body);
        let aDOM = window.document.querySelectorAll("h3.t a");
        [...aDOM].forEach(ele => {
            console.log(ele.text,ele.href);
        })

        //cheerio處理body
        /*let $ = cheerio.load(body);
        $("h3.t a").each((i,ele)=>{
            console.log($(ele).attr("href"));
            console.log($(ele).text());
        })*/
    }
});

複製程式碼

得到的結果

可以看到操作十分簡便，但是如果資料量大，這種方法效能不佳

nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
初探python之做一個簡單小爬蟲
2019-03-02
Python爬蟲
使用 nodejs 寫爬蟲(一): 常用模組和 js 語法
2019-04-03
NodeJS爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
python與nodejs寫爬蟲你更傾向於哪個一個？
2023-01-06
PythonNodeJS爬蟲
一個簡單的爬蟲頭部構造
2020-11-22
爬蟲
一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單
2018-12-02
Python爬蟲
編寫一個使用wreq庫的爬蟲程式
2023-11-23
爬蟲
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
使用 nodejs 寫爬蟲(二): 抓取 github 熱門專案
2019-04-05
NodeJS爬蟲Github
nodejs 爬蟲
2019-02-16
NodeJS爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
簡單的爬蟲程式
2024-03-24
爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
一個老同學的故事引發的nodejs 爬蟲
2018-08-24
NodeJS爬蟲
使用Python和requests庫的簡單爬蟲程式
2023-11-13
Python爬蟲
使用requests+BeautifulSoup的簡單爬蟲練習
2018-04-06
爬蟲
簡單例子展示爬蟲在不同思想下的寫法
2021-04-26
單例爬蟲
寫個爬蟲唄
2019-02-25
爬蟲
用 Java 拿下 HTML 分分鐘寫個小爬蟲
2020-09-21
JavaHTML爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
如何編寫一個Perl爬蟲程式
2023-11-14
爬蟲
基於 Lua 寫一個爬蟲程式
2023-11-14
爬蟲
如何自己寫一個網路爬蟲
2020-02-27
爬蟲
使用 nodejs 寫爬蟲(-): 常用模組介紹和前置JS語法
2019-04-02
NodeJS爬蟲
寫了個簡單爬蟲，分析 Boss 直聘自動駕駛崗位
2024-03-17
爬蟲自動駕駛
python最簡單的爬蟲 , 一看就會
2018-06-14
Python爬蟲
從零開始寫一個node爬蟲(一)
2019-04-09
爬蟲
使用JavaScript編寫的爬蟲程式
2023-11-07
JavaScript爬蟲
Python超簡單超基礎的免費小說爬蟲！爬蟲入門從這開始！
2020-10-23
Python爬蟲
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
NodeJs 建立一個簡單的登陸註冊
2019-02-16
NodeJS

使用nodeJS寫一個簡單的小爬蟲

相關文章