使用 Node.js 來開發一個資訊爬蟲

CoderTan發表於2018-01-06

原文網址 : https://juejin.im/post/5a506e6d51882573450156e3

最近專案需要一些資訊，因為專案是用Node.js來寫的，所以就自然地用Node.js來寫爬蟲了

專案地址：github.com/mrtanweijie… ，專案裡面爬取了Readhub、開源中國、開發者頭條、36Kr這幾個網站的資訊內容，暫時沒有對多頁面進行處理，因為每天爬蟲都會跑一次，現在每次獲取到最新的就可以滿足需求了，後期再進行完善

爬蟲流程概括下來就是把目標網站的HTML下載到本地再進行資料提取。

一、下載頁面

Node.js有很多http請求庫，這裡使用request，主要程式碼如下：

 requestDownloadHTML () {
    const options = {
      url: this.url,
      headers: {
        'User-Agent': this.randomUserAgent()
      }
    }
    return new Promise((resolve, reject) => {
      request(options, (err, response, body) => {
        if (!err && response.statusCode === 200) {
          return resolve(body)
        } else {
          return reject(err)
        }
      })
    })
  }
複製程式碼

使用Promise來進行包裝，便於後面使用的時候用上async/await。因為有很多網站是在客戶端渲染的，所以下載到的頁面不一定包含想要的HTML內容，我們可以使用Google的puppeteer來下載客戶端渲染的網站頁面。眾所周知的原因，在npm i 的時候puppeteer可能因為需要下載Chrome核心導致安裝會失敗，多試幾次就好了：）

  puppeteerDownloadHTML () {
    return new Promise(async (resolve, reject) => {
      try {
        const browser = await puppeteer.launch({ headless: true })
        const page = await browser.newPage()
        await page.goto(this.url)
        const bodyHandle = await page.$('body')
        const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
        return resolve(bodyHTML)
      } catch (err) {
        console.log(err)
        return reject(err)
      }
    })
  }
複製程式碼

當然客戶端渲染的頁面最好是直接使用介面請求的方式，這樣後面的HTML解析都不需要了，進行一下簡單的封裝，然後就可以像這樣使用了： #滑稽：）

 await new Downloader('http://36kr.com/newsflashes', DOWNLOADER.puppeteer).downloadHTML()
複製程式碼

二、HTML內容提取

HTML內容提取當然是使用神器cheerio了，cheerio暴露了和jQuery一樣的介面，用起來非常簡單。瀏覽器開啟頁面F12檢視提取的頁面元素節點，然後根據需求來提取內容即可

 readHubExtract () {
    let nodeList = this.$('#itemList').find('.enableVisited')
    nodeList.each((i, e) => {
      let a = this.$(e).find('a')
      this.extractData.push(
        this.extractDataFactory(
          a.attr('href'),
          a.text(),
          '',
          SOURCECODE.Readhub
        )
      )
    })
    return this.extractData
  }
複製程式碼

三、定時任務

cron每天跑一跑

function job () {
  let cronJob = new cron.CronJob({
    cronTime: cronConfig.cronTime,
    onTick: () => {
      spider()
    },
    start: false
  })
  cronJob.start()
}
複製程式碼

四、資料持久化

資料持久化理論上應該不屬於爬蟲關心的範圍，用mongoose，建立Model

import mongoose from 'mongoose'
const Schema = mongoose.Schema
const NewsSchema = new Schema(
  {
    title: { type: 'String', required: true },
    url: { type: 'String', required: true },
    summary: String,
    recommend: { type: Boolean, default: false },
    source: { type: Number, required: true, default: 0 },
    status: { type: Number, required: true, default: 0 },
    createdTime: { type: Date, default: Date.now }
  },
  {
    collection: 'news'
  }
)

export default mongoose.model('news', NewsSchema)

複製程式碼

基本操作

import { OBJ_STATUS } from '../../Constants'
class BaseService {
  constructor (ObjModel) {
    this.ObjModel = ObjModel
  }

  saveObject (objData) {
    return new Promise((resolve, reject) => {
      this.ObjModel(objData).save((err, result) => {
        if (err) {
          return reject(err)
        }
        return resolve(result)
      })
    })
  }
}
export default BaseService
複製程式碼

資訊

import BaseService from './BaseService'
import News from '../models/News'
class NewsService extends BaseService {}
export default new NewsService(News)
複製程式碼

愉快地儲存資料

await newsService.batchSave(newsListTem)
複製程式碼

更多內容到Github把專案clone下來看就好了

使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
node.js爬蟲中關村線上電瓶車資訊
2018-11-09
Node.js爬蟲中關村
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的
2019-05-27
爬蟲
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
python爬蟲--招聘資訊
2018-11-03
Python爬蟲
爬蟲開發技巧
2020-11-14
爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
怎麼利用Python網路爬蟲來提取資訊
2020-03-20
Python爬蟲
爬蟲實戰開發學習（一）
2021-07-06
爬蟲
分分鐘教你用node.js寫個爬蟲
2018-07-18
Node.js爬蟲
從零開始寫一個node爬蟲(一)
2019-04-09
爬蟲
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
併發爬蟲_使用motor儲存資料
2024-10-12
爬蟲
使用RCurl和R來爬蟲影片
2023-10-18
爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
編寫一個使用wreq庫的爬蟲程式
2023-11-23
爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單
2018-12-02
Python爬蟲
每天一個爬蟲-learnku
2021-06-16
爬蟲
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
PHP蜘蛛爬蟲開發文件
2021-01-12
PHP爬蟲
我爬取了爬蟲崗位薪資，分析後發現爬蟲真香
2020-12-09
爬蟲
爬蟲實戰（三）：微博使用者資訊分析
2018-07-15
爬蟲
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
全面超越Appium，使用Airtest超快速開發App爬蟲
2019-01-19
APPAI爬蟲
從零開始寫一個node爬蟲（上）—— 資料採集篇
2021-09-09
爬蟲
分享個人開源爬蟲框架
2019-03-01
爬蟲框架

使用 Node.js 來開發一個資訊爬蟲

一、下載頁面

二、HTML內容提取

三、定時任務

四、資料持久化

相關文章