node.js爬蟲中關村線上電瓶車資訊

八二年的礦泉水發表於2018-11-09

原文網址 : https://juejin.im/post/5be527886fb9a049f153b369

Node.js爬蟲中關村

背景

最近打算買一輛電瓶車來上下班，但又不知道哪個好，網上是各說紛紜啊，於是就想著，乾脆用node.js自己寫一個小爬蟲，來爬一下中關村線上裡面電瓶車的資訊吧。

（以後完整程式碼請前往 www.yubowen2003.com 暫時還在建設中，歡迎大家提issue? 。）

簡介

該demo採用node.js作為爬蟲，為方便，有些地方使用es6語法，如有不懂，歡迎諮詢?

基礎條件

本文涉及到 cheerio（類似jQuery），fetch，async/await，Promise，Set等知識，如果不懂，可能看起來稍微有一點懵

步驟

第一步，引入需要的庫

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個類似瀏覽器端的jQuery，用來解析HTML的
// fetch 用來傳送請求
複製程式碼

第二步，設定初始的爬取的入口(我身處杭州，所以地區選了杭州的?)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由於每個a標籤下是相對路徑，故需要一個根地址來拼接，如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url，之所以用set，是為了防止有相同的而重複爬去
var urls = new Set()
// 儲存所有資料
var data = [] 
複製程式碼

至此，我們的準備部分結束了?，接下來，開始表演了

分析網頁，思考爬取的方式

每行4款，每頁是48款，一共16頁

思路：

每次獲取當前頁48個連結，並點進去之後，拿到該電瓶車的名稱和價格（其他資訊獲取方式一樣，自行改就好?）
第一頁的全部完成之後，翻到下一頁，繼續爬，直到最後一頁結束

首先我們定義一個函式如下

// 這是得到每個頁面的48個連結，並開始傳送請求

function ad(arg){
    // 引數 arg 先不管
    // 本地化一下需要爬取的連結
    let url2 = arg || url;
    // 請求第一頁該網頁，拿到資料之後，複製給 app
    var app = await fetch(url2).then(res=>res.text())
    // 然後假裝用jQuery解析了
    var $ = cheerio.load(app)
    // 獲取當前頁所有電瓶車的a標籤
    var ele = $("#J_PicMode a.pic")
    // 存放已經爬取過的url，防止重複爬取
    var old_urls = []
    var urlapp = []
    //拿到所有a標籤地址之後，存在陣列裡面，等會兒要開始爬的
    for (let i = 0; i < ele.length; i++) {
        old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    // 用把URL一塊丟給promise處理
    urlapp = await Promise.all(old_urls)
    // 處理完成之後，迴圈加入jQuery?
    for (let i = 0; i < urlapp.length; i++) {
        let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
        data.push({
            name:$2(".product-model__name").text(),
            price:$2(".price-type").text()
        })
    }
    // 至此，一頁的資料就爬完了
    // console.log(data);
    
    // 然後開始爬取下一頁
    var nextURL = $(".next").attr('href')
    // 判斷當前頁是不是最後一頁
    if (nextURL){
        let next = await fetch(urlRoot+nextURL).then(res=>res.text())
        // 獲取下一頁的標籤，拿到地址，走你
        ad(urlRoot+nextURL)
    }
    return data
}
ad()
複製程式碼

完整程式碼如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
    let url2 = arg || url;
    var app = await fetch(url2).then(res=>res.text())
    var $ = cheerio.load(app)
    var ele = $("#J_PicMode a.pic")
    var old_urls = []
    var urlapp = []
    for (let i = 0; i < ele.length; i++) {
        old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
    }
    urlapp = await Promise.all(old_urls)
    for (let i = 0; i < urlapp.length; i++) {
        let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
        data.push({
            name:$2(".product-model__name").text(),
            price:$2(".price-type").text()
        })
    }
    
    var nextURL = $(".next").attr('href')
    if (nextURL){
        let next = await fetch(urlRoot+nextURL).then(res=>res.text())
        ad(urlRoot+nextURL)
    }
    return data
}
ad()

複製程式碼

ZOL中關村線上獲中關村高新技術企業認證
2022-05-08
中關村
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
python爬蟲--招聘資訊
2018-11-03
Python爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
python爬蟲小專案--飛常準航班資訊爬取variflight（上）
2019-03-23
Python爬蟲
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
網路爬蟲專案開發日誌（三）：爬蟲上線準備
2022-02-02
爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
python爬蟲，獲取中國工程院院士資訊
2021-12-04
Python爬蟲
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
最新Python爬蟲專案班(七月線上)
2019-01-08
Python爬蟲
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲入門學習線路圖2019最新版（附Python爬蟲視訊教程）
2019-01-09
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
上天的Node.js之爬蟲篇 15行程式碼爬取京東資源
2019-03-22
Node.js爬蟲行程
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
電瓶車禁入電梯管控系統
2020-10-23
爬蟲中資料清洗的選擇
2021-06-12
爬蟲
selenium 知網爬蟲之根據【關鍵詞】獲取文獻資訊
2023-10-28
爬蟲
利用爬蟲採集音訊資訊完整程式碼示例
2023-10-19
爬蟲音訊
「資料分析」2種常見的反爬蟲策略，資訊驗證和動態反爬蟲
2022-02-23
爬蟲
分分鐘教你用node.js寫個爬蟲
2018-07-18
Node.js爬蟲
用Node.js寫爬蟲，擼羞羞的圖片
2018-04-03
Node.js爬蟲
擼個爬蟲，爬取電影種子
2019-05-11
爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲

node.js爬蟲中關村線上電瓶車資訊

背景

簡介

基礎條件

步驟

相關文章