nodeJS 爬蟲，通過Puppeteer實現滾動載入

NaiveHa發表於2018-09-19

原文網址 : https://juejin.im/post/5ba1e99e6fb9a05d2b6db2eb

NodeJS爬蟲

最近在研究爬蟲，所以用自己熟悉的node簡單寫了一個。

開始用的是phantomjs來獲取HTML，但是看了文件之後發現很久沒有維護了，所以就放棄了。

後來尋尋覓覓發現了 Puppeteer，看了下是Google開發的，所以果斷上手試了試，感覺比phantom不知道高到哪裡去了。

B話少說，直接貼專案地址。

github.com/Huoshendame…

專案簡介

技術棧

node、puppeteer、cheerio（雖然puppeteer整合了Jq，但是既然已經裝了就用一下吧）

安裝注意事項

在執行npm install 在安裝 puppeteer的時候會報錯，因為node下載chrome（puppeteer依賴chrome瀏覽器）會報錯。所以先忽略掉chrome

npm install puppeteer --ignore-scripts
複製程式碼

安裝成功之後，在去執行

npm install複製程式碼

裝好之後，手動吧專案裡的 chrome-win 資料夾放到D盤根目錄。

PS：或者你自己放到自己的指定目錄，但是在專案裡的reptile.js裡面 puppeteer.launch的時候需要指定絕對定位的地址

功能介紹

1.通過Puppeteer開啟頭條新聞頁面 https://www.toutiao.com/ch/news_game/。

2.獲取page例項，通過注入js來實現頁面滾動

3.在通過cheerio，分析dom結構，獲取標題、圖片及連結地址。

4.儲存到本地檔案。（也可以放到DB裡，我這裡是直接介面返回了獲取的資料，並且順手存到了本地檔案）

原始碼

/* 引入相關 工具 */
const fs = require('fs')
const cheerio = require('cheerio')
const puppeteer = require('puppeteer')

/* 定義函式 */
let getListData = async function(Category) {
 /* 初始化 puppeteer*/
 const browser = await puppeteer.launch({
  executablePath: 'D:\\chrome-win\\chrome.exe',//把專案中的這個chrome-win資料夾放到D盤根目錄
  headless: false //這個是 是否開啟chrome視覺化視窗 true是不開啟 false是開啟
 })
 //獲取page例項
 const page = await browser.newPage()
 //我這裡是通過 入參傳過來的 分類來判斷抓取相應頁面的資料
 let url = ''
 switch (Category) {
  case '0':
   url = 'https://www.toutiao.com/ch/news_game/'
   break;
  case '1':
   url = 'https://www.toutiao.com/ch/news_entertainment/'
   break;
  case '2':
   url = 'https://www.toutiao.com/ch/news_history/'
   break;
  case '3':
   url = 'https://www.toutiao.com/ch/news_finance/'
   break;
 }
 //開啟頁面
 await page.goto(url)
 //定義頁面內容及Jquery
 var content , $
 /* 頁面滾動方法 */
 async function scrollPage(i) {
  content = await page.content();
  $ = cheerio.load(content);
  /*執行js程式碼（滾動頁面）*/
  await page.evaluate(function () {
   /* 這裡做的是漸進滾動，如果一次性滾動則不會觸發獲取新資料的監聽 */
   for (var y = 0; y <= 1000*i; y += 100) {
    window.scrollTo(0,y)
   }
  })
  // 獲取資料列表
  const li = $($('.feedBox').find('ul')[0]).find('li')
  return li
 }
 let i = 0
 let li = await scrollPage(++i)
 //如果資料列表 不夠30 則一直獲取
 while (li.length < 30) {
  li = await scrollPage(++i)
 }
 let data = {
   list: []
 }
 /* 封裝返回的資料*/
 li.map(function (index,item) {
  $(item).find('img').attr('src') != undefined ?
   data.list.push({
    src: $(item).find('img').attr('src'),
    title: $($(item).find('.title')).text(),
    source:$($(item).find('.source')).text(),
    href:$($(item).find('.title')).attr('href')
   }):''
 })
 //順手存入本地檔案
 fs.writeFileSync('tt.JSON',JSON.stringify(data))
 fs.writeFileSync('tt.html',content)
 /* 關閉 puppeteer*/
 await browser.close()
  return data
}
module.exports = getListData複製程式碼

Puppeteer爬蟲實戰(三)
2020-07-21
爬蟲
nodejs + koa2 實現爬蟲
2019-02-16
NodeJS爬蟲
node爬蟲-使用puppeteer
2018-04-02
爬蟲
滾動載入圖片（懶載入）實現原理
2019-04-06
nodejs 爬蟲
2019-02-16
NodeJS爬蟲
puppeteer爬蟲的奇妙之旅
2018-11-16
爬蟲
angular 監聽 Windows 滾動事件實現頁面滾動載入
2018-11-14
AngularWindows事件
使用 puppeteer + nodejs 爬取喜歡的動漫資源
2022-06-11
NodeJS
我常用的puppeteer爬蟲api
2018-05-25
爬蟲API
使用Python爬蟲實現自動下載圖片
2021-09-11
Python爬蟲
移動端無限滾動載入 js實現原理
2019-04-06
JS
單步除錯理解webpack裡通過require載入nodejs原生模組實現原理
2018-10-21
除錯WebUINodeJS
puppeteer介紹（一）爬蟲，效能，注入
2019-02-28
爬蟲
騰訊動漫爬蟲與動態隨機載入反爬
2018-04-24
爬蟲隨機
一起來實現圖片滾動懶載入
2019-03-01
Vue完美記住滾動條和實現下拉載入
2020-07-21
Vue
線上直播系統原始碼，實現翻頁載入、下拉滾動載入
2021-12-09
原始碼
js實現 web頁面的滾動條下拉時載入更多
2018-08-29
JSWeb
[譯] 使用 Angular 和 RxJS 實現的無限滾動載入
2018-03-19
AngularJS
hanson影院全棧開發日誌之Puppeteer爬蟲實踐
2019-03-17
全棧爬蟲
uniapp專案實踐總結(十七)實現滾動觸底載入
2023-09-25
APP
nodejs 實現磁力連結資源搜尋 BT磁力連結爬蟲
2019-02-16
NodeJS爬蟲
如何用Python爬蟲實現百度圖片自動下載？
2019-03-01
Python爬蟲
Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
Python《成功破解簡單的動態載入的爬蟲》
2020-12-20
Python爬蟲
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
nodejs eggjs框架爬蟲 readhub.me
2018-11-29
NodeJS框架爬蟲
爬蟲可以通過代理ip收集哪些資料？
2022-05-21
爬蟲
JavaScript爬蟲程式實現自動化爬取tiktok資料教程
2023-10-18
JavaScript爬蟲
Laravel 後臺與爬蟲互動-通過 Redis 的頻道訂閱來通訊
2019-11-04
Laravel爬蟲Redis
nodejs爬蟲記憶體洩露排查
2019-04-02
NodeJS爬蟲記憶體洩露
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
【動圖詳解】通過 User-Agent 識別爬蟲的原理、實踐與對應的繞過方法
2018-11-04
爬蟲
NodeJs 入門到放棄 — 常用模組及網路爬蟲(二)
2021-03-03
NodeJS爬蟲
爬蟲入門
2024-04-13
爬蟲
如何學習 Python 包並實現基本的爬蟲過程
2023-11-28
Python爬蟲
爬蟲程式實現過程中的一些建議
2021-08-12
爬蟲
第一彈：puppeteer爬蟲小demo —— 網易雲音樂
2018-05-27
爬蟲

nodeJS 爬蟲，通過Puppeteer實現滾動載入

專案簡介

技術棧

安裝注意事項

功能介紹

原始碼

相關文章