node.js爬蟲中關村線上電瓶車資訊

八二年的礦泉水發表於2018-11-09

背景

最近打算買一輛電瓶車來上下班,但又不知道哪個好,網上是各說紛紜啊,於是就想著,乾脆用node.js自己寫一個小爬蟲,來爬一下中關村線上裡面電瓶車的資訊吧。

(以後完整程式碼請前往 www.yubowen2003.com 暫時還在建設中,歡迎大家提issue? 。)

簡介

該demo採用node.js作為爬蟲,為方便,有些地方使用es6語法,如有不懂,歡迎諮詢?

基礎條件

本文涉及到 cheerio(類似jQuery),fetch,async/await,Promise,Set等知識,如果不懂,可能看起來稍微有一點懵

步驟

  • 第一步,引入需要的庫
var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個類似瀏覽器端的jQuery,用來解析HTML的
// fetch 用來傳送請求
複製程式碼
  • 第二步,設定初始的爬取的入口(我身處杭州,所以地區選了杭州的?)
// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由於每個a標籤下是相對路徑,故需要一個根地址來拼接,如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url,之所以用set,是為了防止有相同的而重複爬去
var urls = new Set()
// 儲存所有資料
var data = [] 
複製程式碼

至此,我們的準備部分結束了?,接下來,開始表演了

  • 分析網頁,思考爬取的方式

node.js爬蟲中關村線上電瓶車資訊

每行4款,每頁是48款,一共16頁

思路:

  1. 每次獲取當前頁48個連結,並點進去之後,拿到該電瓶車的名稱和價格(其他資訊獲取方式一樣,自行改就好?)
  2. 第一頁的全部完成之後,翻到下一頁,繼續爬,直到最後一頁結束

首先我們定義一個函式如下

// 這是得到每個頁面的48個連結,並開始傳送請求

function ad(arg){
    // 引數 arg 先不管
    // 本地化一下需要爬取的連結
    let url2 = arg || url;
    // 請求第一頁該網頁,拿到資料之後,複製給 app
    var app = await fetch(url2).then(res=>res.text())
    // 然後假裝用jQuery解析了
    var $ = cheerio.load(app)
    // 獲取當前頁所有電瓶車的a標籤
    var ele = $("#J_PicMode a.pic")
    // 存放已經爬取過的url,防止重複爬取
    var old_urls = []
    var urlapp = []
    //拿到所有a標籤地址之後,存在陣列裡面,等會兒要開始爬的
    for (let i = 0; i < ele.length; i++) {
        old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    // 用把URL一塊丟給promise處理
    urlapp = await Promise.all(old_urls)
    // 處理完成之後,迴圈加入jQuery?
    for (let i = 0; i < urlapp.length; i++) {
        let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
        data.push({
            name:$2(".product-model__name").text(),
            price:$2(".price-type").text()
        })
    }
    // 至此,一頁的資料就爬完了
    // console.log(data);
    
    // 然後開始爬取下一頁
    var nextURL = $(".next").attr('href')
    // 判斷當前頁是不是最後一頁
    if (nextURL){
        let next = await fetch(urlRoot+nextURL).then(res=>res.text())
        // 獲取下一頁的標籤,拿到地址,走你
        ad(urlRoot+nextURL)
    }
    return data
}
ad()
複製程式碼

完整程式碼如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
    let url2 = arg || url;
    var app = await fetch(url2).then(res=>res.text())
    var $ = cheerio.load(app)
    var ele = $("#J_PicMode a.pic")
    var old_urls = []
    var urlapp = []
    for (let i = 0; i < ele.length; i++) {
        old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    urlapp = await Promise.all(old_urls)
    for (let i = 0; i < urlapp.length; i++) {
        let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
        data.push({
            name:$2(".product-model__name").text(),
            price:$2(".price-type").text()
        })
    }
    
    var nextURL = $(".next").attr('href')
    if (nextURL){
        let next = await fetch(urlRoot+nextURL).then(res=>res.text())
        ad(urlRoot+nextURL)
    }
    return data
}
ad()

複製程式碼

相關文章