node：爬蟲爬取網頁圖片

木子先生發表於2019-02-16

原文網址 : https://flycode.co/archives/83721

前言

週末自己在家閒著沒事，刷著微信，玩著手機，發現自己的微信頭像該換了，就去網上找了一下頭像，看著圖片，自己就想著作為一個碼農，可以把這些圖片都爬取下來做成一個微信小程式，說幹就幹，瞭解一下基本都知道怎麼做了，整理分享一波給大家。

const express = require('express');
const app = express();
app.get('/index', function(req, res) {
res.end('111')
})
var server = app.listen(8081, function() {
    var host = server.address().address
    var port = server.address().port
    console.log("應用例項，訪問地址為 http://%s:%s", host, port)

})
複製程式碼

執行node demo.js簡單的服務就搭起來了，如圖：

請求我們要爬取的頁面

npm install superagent
npm install superagent-charset
npm install cheerio
複製程式碼

superagent 是用來發起請求的，是一個輕量的,漸進式的ajax api,可讀性好,學習曲線低,內部依賴nodejs原生的請求api,適用於nodejs環境下.，也可以使用http發起請求

superagent-charset防止爬取下來的資料亂碼，更改字元格式

cheerio為伺服器特別定製的，快速、靈活、實施的jQuery核心實現.。安裝完依賴就可以引入了

var superagent = require('superagent');
var charset = require('superagent-charset');
charset(superagent);
const cheerio = require('cheerio');
複製程式碼

引入之後就請求我們的地址，https://www.qqtn.com/tx/weixintx_1.html，如圖：

宣告地址變數：

const baseUrl = 'https://www.qqtn.com/'
複製程式碼

這些設定完之後就是發請求了，接下來請看完整程式碼demo.js

var superagent = require('superagent');
var charset = require('superagent-charset');
charset(superagent);
var express = require('express');
var baseUrl = 'https://www.qqtn.com/'; //輸入任何網址都可以
const cheerio = require('cheerio');
var app = express();
app.get('/index', function(req, res) {
    //設定請求頭
    res.header("Access-Control-Allow-Origin", "*");
    res.header('Access-Control-Allow-Methods', 'PUT, GET, POST, DELETE, OPTIONS');
    res.header("Access-Control-Allow-Headers", "X-Requested-With");
    res.header('Access-Control-Allow-Headers', 'Content-Type');
    //型別
    var type = req.query.type;
    //頁碼
    var page = req.query.page;
    type = type || 'weixin';
    page = page || '1';
    var route = `tx/${type}tx_${page}.html`
    //網頁頁面資訊是gb2312，所以chaeset應該為.charset('gb2312')，一般網頁則為utf-8,可以直接使用.charset('utf-8')
    superagent.get(baseUrl + route)
        .charset('gb2312')
        .end(function(err, sres) {
            var items = [];
            if (err) {
                console.log('ERR: ' + err);
                res.json({ code: 400, msg: err, sets: items });
                return;
            }
            var $ = cheerio.load(sres.text);
            $('div.g-main-bg ul.g-gxlist-imgbox li a').each(function(idx, element) {
                var $element = $(element);
                var $subElement = $element.find('img');
                var thumbImgSrc = $subElement.attr('src');
                items.push({
                    title: $(element).attr('title'),
                    href: $element.attr('href'),
                    thumbSrc: thumbImgSrc
                });
            });
            res.json({ code: 200, msg: "", data: items });
        });
});
var server = app.listen(8081, function() {

    var host = server.address().address
    var port = server.address().port

    console.log("應用例項，訪問地址為 http://%s:%s", host, port)

})
複製程式碼

執行demo.js就會返回我們拿到的資料，如圖：

一個簡單的node爬蟲就完成了。希望可以到專案上點一個 star 作為你對這個專案的認可與支援，謝謝。

專案地址：github.com/Mr-MengBo/R…

Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
蘇寧易購網址爬蟲爬取商品資訊及圖片
2021-10-12
爬蟲
Python應用開發——爬取網頁圖片
2022-09-21
Python網頁
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
《網頁爬蟲》
2018-11-26
網頁爬蟲
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
java 爬取網頁內容。標題、圖片等
2021-09-24
Java網頁
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
go語言實現簡單爬蟲獲取頁面圖片
2022-11-14
Go爬蟲
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
用Node.js寫爬蟲，擼羞羞的圖片
2018-04-03
Node.js爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
教你用Python爬取圖蟲網
2019-02-26
Python
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie

node：爬蟲爬取網頁圖片

前言

目錄

安裝node

搭建伺服器

請求我們要爬取的頁面

相關文章