基於 Electron 的爬蟲框架 Nightmare

iKcamp發表於2017-09-12

原文網址 : https://juejin.im/post/59b7b5a36fb9a00a6b6e477c

作者：William 本文為原創文章，轉載請註明作者及出處

Electron 可以讓你使用純 JavaScript 呼叫 Chrome 豐富的原生的介面來創造桌面應用。你可以把它看作一個專注於桌面應用的 Node.js 的變體，而不是 Web 伺服器。其基於瀏覽器的應用方式可以極方便的做各種響應式的互動，接下來介紹下關於 Electron 上衍生出的框架 Nightmare。

Nightmare 是一個基於 Electron 的框架，針對 Web 自動化測試和爬蟲(其實爬蟲這個是大家自己給這個框架加的功能XD)，因為其具有跟 PlantomJS 一樣的自動化測試的功能可以在頁面上模擬使用者的行為觸發一些非同步資料載入，也可以跟 Request 庫一樣直接訪問 URL 來抓取資料，並且可以設定頁面的延遲時間，所以無論是手動觸發指令碼還是行為觸發指令碼都是輕而易舉的(這邊注意，如果事件具備 isTrusted 的檢查的話，就無法觸發了)。

使用 Nightmare

為了更快速使用 NPM 下載，可以使用淘寶的映象地址。直接 NPM 安裝Nightmare 就完成安裝了(二進位制的 Electron 依賴有點大，安裝時間可能比較長)。

寫一個簡單的啟動 app.js；

const Nightmare = require('nightmare')
const nightmare = new Nightmare({
     show: true,
     openDevTools: {
         mode: 'detach'
     }
 })

 nightmare.goto('https://www.hujiang.com')
   .evaluate(function() {
       // 該環境中能使用瀏覽器中的任何物件window/document，並且返回一個promise
     console.log('hello nightmare')
     console.log('5 second close window')
   })
   .wait(5000)
   .end()
   .then(()=> {
     console.log('close nightmare')
   })
複製程式碼

這個指令碼會在開啟的瀏覽器的除錯控制檯中列印出 hello nightmare 並且在5秒後關閉，隨後在執行的該指令碼的中輸出 close nightmare。

Nightmare原理

利用了 Electron 提供的 Browser 的環境，同時具備了 Node.js 的 I/O 能力，所以可以很方便實現一個爬蟲應用。Nightmare 的官網有更詳細的介紹：

大致操作：

瀏覽器事件: goto,back,forward,refresh,
使用者事件: click,mousedown,mouseup,mouseover,type,insert,select,check,uncheck,selectscrollTo
向網頁注入指令碼: .js .css的檔案型別原理是跟油猴差不多，可以編寫自己的js程式碼注入十分方便
wait 函式可以按照延遲時間或者一個 dom 元素的出現
evaluate 以瀏覽器的環境執行的指令碼函式，然後返回一個 promise 函式

一個完整的nightmare爬蟲應用

我們以抓取知乎上的話題的為應用場景，需要的資料是知乎的話題資訊包含以下欄位話題名稱/話題的圖片/關注者數量/話題數量/精華話題數量，但是因為後三者只能在其父親話題中包含，所以必須先抓父話題才能抓取子話題，而且這些子話題是以 hover 的形式在父話題中非同步載入的，如果用Request/Superagent 需要 HTTP 傳遞其解析過的id才能獲取，但是用Nightmare 可以直接呼叫其 hover 事件觸發資料的載入。

第一步獲取需要抓取的話題深度，預設的根是現在知乎的根話題；

/** 
* 抓取對應的話題頁面的url和對應的深度儲存到指定的檔名中
* @param {string} rootUrl - 頂層的url 
* @param {int} deep - 抓取頁面的深度 
* @param {string} toFile - 儲存的檔名
* @param {Function} cb - 完成後的回撥 
*/
async function crawlerTopicsFromRoot (rootUrl, deep, toFile, cb) {
  rootUrl = rootUrl ||'https://www.zhihu.com/topic/19776749/hot'
  toFile = toFile || './topicsTree.json'
  console.time()
  const result = await interactive
      .iAllTopics(rootUrl, deep)
  console.timeEnd()
  util.writeJSONToFile(result['topics'], toFile, cb)
}

crawlerTopicsFromRoot('', 2, '', _ => {
  console.log('完成抓取')
})
複製程式碼

然後進行互動函式的核心函式,注意在開始抓取前，要去看看知乎的 robots.txt 檔案看看哪些能抓和抓取的間隔不然很容易 timeout 的錯誤。

// 獲取對應的話題的資訊
const cntObj = queue.shift()
const url = `https://www.zhihu.com/topic/${cntObj['id']}/hot`
const topicOriginalInfo = await nightmare
  .goto(url)
  .wait('.zu-main-sidebar') // 等待該元素的出現
  .evaluate(function () {
   // 獲取這塊資料
      return document.querySelector('.zu-main-sidebar').innerHTML
  })
// .....若干步的操作後
// 獲取其子話題的數值資訊
const hoverElement = `a.zm-item-tag[href$='${childTopics[i]['id']}']`
const waitElement = `.avatar-link[href$='${childTopics[i]['id']}']`
const topicAttached = await nightmare
  .mouseover(hoverElement) // 觸發hover事件
  .wait(waitElement)
  .evaluate(function () {
      return document.querySelector('.zh-profile-card').innerHTML
  })
  .then(val => {
      return parseRule.crawlerTopicNumbericalAttr(val)
  })
  .catch(error => {
      console.error(error)
  })
複製程式碼

cheerio 是一個 jQuery 的 selector 庫，可以應用於 HTML 片段並且獲得對應的DOM 元素，然後我們就可以進行對應的 DOM 操作->增刪改查都可以,這邊主要用來查詢 DOM 和獲取資料。

const $ = require('cheerio')
/** *抓取對應話題的問題數量/精華話題數量/關注者數量 */
const crawlerTopicNumbericalAttr = function (html) {
  const $ = cheerio.load(html)
  const keys = ['questions', 'top-answers', 'followers']
  const obj = {}
  obj['avatar'] = $('.Avatar.Avatar--xs').attr('src')
  keys.forEach(key => {
      obj[key] = ($(`div.meta a.item[href$=${key}] .value`).text() || '').trim()
  })
  return obj
}
/** * 抓取話題的資訊 */
const crawlerTopics = function (html) {
  const $ = cheerio.load(html)
  const  obj = {}
  const childTopics = crawlerAttachTopic($, '.child-topic')  
  obj['desc'] = $('div.zm-editable-content').text() || ''
  if (childTopics.length > 0) {
      obj['childTopics'] = childTopics
  }
  return obj
}

/** * 抓取子話題的資訊id/名稱 */
const crawlerAttachTopic = function ($, selector) {
  const topicsSet = []
  $(selector).find('.zm-item-tag').each((index, elm) => {
      const self = $(elm)
      const topic = {}
      topic['id'] = self.attr('data-token')
      topic['value'] = self.text().trim()
      topicsSet.push(topic)
  })
  return topicsSet
}
複製程式碼

然後一個簡單的爬蟲就完成了，最終獲得部分資料格式如何：

{
  "value": "rootValue",
  "id": "19776749",
  "fatherId": "-1",
  "desc": "知乎的全部話題通過父子關係構成一個有根無迴圈的有向圖。「根話題」即為所有話題的最上層的父話題。話題精華即為知乎的 Top1000 高票回答。請不要在問題上直接繫結「根話題」。這樣會使問題話題過於寬泛。",
  "cids": [
      "19778317",
      "19776751",
      "19778298",
      "19618774",
      "19778287",
      "19560891"
  ]
},
{
  "id": "19778317",
  "value": "生活、藝術、文化與活動",
  "avatar": "https://pic4.zhimg.com/6df49c633_xs.jpg",
  "questions": "3.7M",
  "top-answers": "1000",
  "followers": "91K",
  "fid": "19776749",
  "desc": "以人類集體行為和人類社會文明為主體的話題，其內容主要包含生活、藝術、文化、活動四個方面。",
  "cids": [
      "19551147",
      "19554825",
      "19550453",
      "19552706",
      "19551077",
      "19550434",
      "19552266",
      "19554791",
      "19553622",
      "19553632"
  ]
},
複製程式碼

總結

Nightmare 作為爬蟲的最大優勢是隻需要知道資料所在頁面的 URL 就可以獲取對應的同步/非同步資料，並不需要詳細的分析 HTTP 需要傳遞的引數。只需要知道進行哪些操作能使得網頁頁面資料更新，就能通過獲取更新後的 HTML 片段獲得對應的資料，在 Demo 中的 Nightmare 是開啟了 chrome-dev 進行操作的，但是實際執行的時候是可以關閉的，關閉了之後其操作的速度會有一定的上升。下面的專案中還包含了另外一個爬取的知乎的動態。

Demo原始碼地址: github.com/williamstar…

iKcamp原創新書《移動Web前端高效開發實戰》已在亞馬遜、京東、噹噹開售。

>> 滬江Web前端上海團隊招聘【Web前端架構師】，有意者簡歷至：zhouyao@hujiang.com <<

報名地址：www.huodongxing.com/event/44047…

2019年，iKcamp原創新書《Koa與Node.js開發實戰》已在京東、天貓、亞馬遜、噹噹開售啦！

基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
SWCJ爬蟲框架
2022-01-26
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
基於asyncio、aiohttp、xpath的非同步爬蟲
2019-02-16
AIHTTP非同步爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
爬蟲框架如何搭建
2023-11-27
爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
一個基於 golang 的爬蟲電影站
2020-03-20
Golang爬蟲
基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
爬蟲資料儲存--基於MonogoDB
2018-04-09
爬蟲MonoGo
基於 Lua 寫一個爬蟲程式
2023-11-14
爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
基於vite2+electron12後臺管理模板|Electron後臺框架系統
2021-05-03
Vite框架
爬蟲基礎
2019-03-30
爬蟲
10個高效的Python爬蟲框架
2024-09-27
Python爬蟲框架
基於bs4+requests的python爬蟲偽裝
2018-07-20
Python爬蟲
記一次基於Cloudflare服務的爬蟲
2019-07-06
Cloud爬蟲
基於 ZooKeeper 實現爬蟲叢集的監控
2021-09-09
爬蟲
WebMagic 爬蟲框架淺析
2019-02-13
Web爬蟲框架
常用python爬蟲框架整理
2018-07-16
Python爬蟲框架
六種高效爬蟲框架
2022-06-07
爬蟲框架
基於nodejs網站爬蟲程式開發
2021-09-09
NodeJS網站爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
什麼是Python爬蟲？Python爬蟲常用框架有哪些？
2020-12-24
Python爬蟲框架
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
基於Node.js的裁判文書網爬蟲分析
2018-10-06
Node.js爬蟲
基於Scrapy分散式爬蟲的開發與設計
2018-04-27
分散式爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
8個高效的Python爬蟲框架分享！
2021-12-08
Python爬蟲框架
【推薦】最高效的Python爬蟲框架！
2021-05-25
Python爬蟲框架

基於 Electron 的爬蟲框架 Nightmare

使用 Nightmare

Nightmare原理

一個完整的nightmare爬蟲應用

總結

相關文章