node 爬蟲，使用 Google puppeteer 抓取 One一個的網頁資料

豬不樂意發表於2018-01-09

爬蟲Go網頁

node 爬蟲，使用 Google puppeteer 抓取 One一個的網頁資料

puppeteer 就不多介紹了，就是一個無介面化的谷歌瀏覽器。作者本人是前端，後端方面的知識不太擅長，感覺漏洞還是蠻多的。本教程是作者見獵心喜然後把玩了一下寫的，有不合理的地方還請包涵。

爬蟲思路

本例子是使用順序爬取，沒有用並行爬取，並設定了延時器，主要是擔心訪問頻次太高會被遮蔽訪問。

puppeteer 寫爬蟲感覺思路比別的更簡單，按視覺化的流程去走就可以。

啟動瀏覽器和開啟一個新頁面
跳轉到要抓取資料的頁面
獲取頁面上的資訊和圖片
列印資訊和儲存圖片
重複 2 ~ 4 步，直到所有頁面抓取結束
關閉瀏覽器退出程式

爬蟲程式碼

要抓取的頁面：http://wufazhuce.com/one/35

對於要抓取的資源，沒有弄複雜的邏輯，根據 URL 推斷是按ID排列的。那麼只要對頁面 ID 依次累加就行了成功就抓取，錯誤就跳過。

const puppeteer = require('puppeteer');
const fs = require('fs');
const request = require('request');

// 延時器
let timeout = function (delay) {
  console.log('延遲函式：', `延遲 ${delay} 毫秒`)
  return new Promise((resolve, reject) => {
    setTimeout(() => {
      try {
        resolve(1)
      } catch (error) {
        reject(error)
      }
    }, delay);
  })
}

/**
 * One 爬蟲類
 */
class OnePaChong {
  constructor () {
    // 最大索引
    this.maxIndex = 40
    // 初始化
    this.init()
  }
  // 初始化函式
  async init () {
    console.log('正在啟動瀏覽器...')
    this.browser = await puppeteer.launch();
    console.log('正在開啟新頁面...')
    this.page = await this.browser.newPage();
    // 順序爬取頁面
    for (let i = 30; i < this.maxIndex; i++) {
      await this.getPageInfo(i)
    }
    this.closeBrowser()
  }
  // 抓取頁面內容
  async getPageInfo (actPage) {
    // 延時 1000 毫秒
    await timeout(1000);
    let page = this.page
    await page.goto(`http://wufazhuce.com/one/${actPage}`);
    // 獲取資訊
    try {
      // 獲取文字
      let sText = await page.$eval('.one-cita', el => el.innerText);
      // 獲取圖片描述，清除空格和特殊字元 & 和 /
      let sImgName = await page.$eval('.one-imagen-leyenda', el => {
        let str = el.innerText
        str = str.replace(/^\s+|\s+$/g, '')
        str = str.replace(/\&+|\/+/g, '-')
        return str;
      });
      // 獲取圖片URL
      let sImgURL = await page.$eval('.one-imagen img', el => el.src);

      console.log('-------------------------------------------- start')
      console.log('頁面頁碼：', actPage);
      console.log('採集狀態：', '成功');
      console.log('標題句子：', sText);
      console.log('圖片描述：', sImgName);
      console.log('圖片地址：', sImgURL);
      console.log('-------------------------------------------- end')
      
      // 儲存圖片
      await request(sImgURL).pipe(fs.createWriteStream(`data/${sImgName}.png`));
    
    } catch (error) {
      console.log('-------------------------------------------- start')
      console.log('頁面頁碼：', actPage);
      console.log('採集狀態：', '失敗');
      console.log('錯誤資訊：', error)
      console.log('-------------------------------------------- end')
    }
  }
  // 關閉瀏覽器
  async closeBrowser () {
    console.log('正在關閉瀏覽器...')
    await this.browser.close()
  }
}

// 啟用爬蟲
new OnePaChong()
複製程式碼

[網路爬蟲]使用node.js cheerio抓取網頁資料
2014-12-10
爬蟲Node.js網頁
node爬蟲-使用puppeteer
2018-04-02
爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python爬蟲: 抓取One網頁上的每日一話和圖
2016-04-06
Python爬蟲網頁
Puppeteer爬取網頁資料
2019-03-22
網頁
Python爬蟲使用代理proxy抓取網頁
2016-11-01
Python爬蟲網頁
wget 網頁爬蟲,網頁抓取工具
2017-11-08
wget網頁爬蟲
Google 爬蟲如何抓取 JavaScript 的？
2015-06-07
Go爬蟲JavaScript
爬取網頁後的抓取資料_3種抓取網頁資料方法
2017-05-19
網頁
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
網路爬蟲：使用Scrapy框架編寫一個抓取書籍資訊的爬蟲服務
2016-09-05
爬蟲框架
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
使用puppeteer爬蟲，檢查頁面靜態資源丟失
2019-02-16
爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
「譯」如何用 Node.Js 和 Puppeteer 爬取網頁
2019-03-03
Node.js網頁
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
例項：使用puppeteer headless方式抓取JS網頁
2018-05-08
JS網頁
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
網路爬蟲（一）：抓取網頁的含義和URL基本構成
2014-09-16
爬蟲網頁
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
puppeteer爬蟲的奇妙之旅
2018-11-16
爬蟲
資料從業者必讀：抓取了一千億個網頁後我才明白，爬蟲一點都不簡單
2018-09-07
網頁爬蟲
puppeteer介紹（一）爬蟲，效能，注入
2019-02-28
爬蟲
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
我常用的puppeteer爬蟲api
2018-05-25
爬蟲API
IPIDEA大盤點，藉助網路爬蟲抓取資料的作用？
2023-04-27
Idea爬蟲
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
puppeteer+mysql—爬蟲新方法！抓取新聞&評論so easy！
2018-09-17
MySql爬蟲
Node: Puppeteer + 影象識別實現百度指數爬蟲
2018-02-13
爬蟲
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
使用 Node.js 來開發一個資訊爬蟲
2018-01-06
Node.js爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲

node 爬蟲，使用 Google puppeteer 抓取 One一個 的網頁資料

爬蟲思路

爬蟲程式碼

相關文章

node 爬蟲，使用 Google puppeteer 抓取 One一個的網頁資料