Nodejs 爬蟲框架，支援佇列

wl879發表於2017-12-04

原文網址 : https://juejin.im/post/5a23b265518825619a028101

介紹一個簡單的爬蟲框架，重點就是簡單，那就直接來試一下吧。

開始

[此處有圖片，載入有點慢]

我們來慢動作看一下都發生了什麼。

  ~ $ npm install crawl-pet -g複製程式碼

安裝 crawl-pet

  ~ $ cd /Volumes/M/download複製程式碼

進入到你想要新建專案的目錄

  download $ crawl-pet new複製程式碼

新建專案，根據提示填寫引數

  ctrl + c複製程式碼

如果爬取的規則需要自定義，先退出，篇輯專案下的 crawler.js 檔案

  module.exports = {
      /****************
       * Info part
       ****************/
      projectDir: __dirname,
      url : "https://imgur.com/r/funny",
      outdir : "/Volumes/M/download/imgur.com",
      saveMode : "group",
      keepName : true,
      limits : 5,
      timeout : 60000,
      limitWidth : 400,
      limitHeight : 400,
      proxy : "http://127.0.0.1:1087",
      userAgent : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36",
      cookies : null,
      fileTypes : "png|gif|jpg|jpeg|svg|xml|mp3|mp4|pdf|torrent|zip|rar",
      sleep : 1000,
      crawl_data : {},
  
      // crawl_js : "./parser.js",
  
      /****************
       * Crawler part
       *****************/
      // init(queen) {},
      prep(queen) {
          let url = queen.head.url;
          let m = url.match(/^(https?:\/\/)?(([\w\-]\.)?imgur.com)\/*/i);
          if (m) {
              url = (!m[1] ? 'https://' : '') + url.replace(/\/page(\/\d+(\/hit\.json)?)?$|\/+$/i, '');
              if (!/\/(new|top|hot)$/i.test(url)) {
                  url += '/new';
              }
              queen.head.url = url + '/page/0/hit.json';
              queen.save('api_url', url);
              queen.save('page_offset', 0);
          }
      },
      // start(queen) {},
      // filter(url) {},
      // filterDownload(url) {},
      // willLoad(request) {},
      loaded(body, links, files, crawler) {
          if (!/hit\.json/i.test(crawler.url)) {
              return;
          }
          try {
              let json = JSON.parse(body);
              let data = json.data;
              if (!data || data.length === 0) {
                  return;
              }
              let add_down = 0;
              for (let pic of data) {
                  if (crawler.appendDownload('https://i.imgur.com/' + pic.hash + pic.ext)) {
                      add_down += 1;
                  }
              }
              if (add_down) {
                  let api_url = crawler.read('api_url');
                  let offset = crawler.read('page_offset');
                  let add = 5;
                  while (add-- > 0) {
                      offset++;
                      crawler.appendPage(api_url + '/page/' + offset + '/hit.json');
                  }
                  crawler.save('page_offset', offset);
              }
          } catch (err) {
              // PASS
          }
      },
      // browser(crawler) {}
  }複製程式碼

說明一下，這裡重寫了兩個函式，prep(queen) / loaded(body, links, files, crawler) , 檢視更多點這裡。

prep(queen) 是預處理，專案的第一次執行，與重置後第一次執行，會呼叫這個函式。這裡，根據 Imgur 的api，對啟始連結做了一些修改。

Imgur 的地址結構是：

  https://imgur.com/ 分類 / 排序方法 / page/ 頁數 /hit.json 
複製程式碼

loaded(body, links, files, crawler) 是每當頁面載入後會呼叫這個函式。

body 是頁面的文字，crawler 就是爬蟲了，可能通過 crawler.appendPage(url) 與 crawler.appendDownload(url) 新增要爬取的址

這個例子中，因為請求的頁面都是json 的，所以需要先把文字解成 json，然後用appendDownload 將圖片的 url 新增到下載佇列，如果返回 false，說明圖片重複已下載過了，如果有新的圖片可以下載，就再生成 5 個新的頁面，appendPage 新增到佇列。

介紹一個實用命令

可以通過本地的檔名，查詢到下載的連結地址

  $ crawl-pet -f local "CstcePq.png"複製程式碼

更多命令請檢視幫助

  ~ $ crawl-pet -h複製程式碼

-------------------------------------------------------------------

GIthub 地址：github.com/wl879/crawl…

專案裡的 crawlers 資料夾中有一些示例，有福利啊。

nodejs eggjs框架爬蟲 readhub.me
2018-11-29
NodeJS框架爬蟲
nodejs 爬蟲
2019-02-16
NodeJS爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
SWCJ爬蟲框架
2022-01-26
爬蟲框架
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
nodejs + koa2 實現爬蟲
2019-02-16
NodeJS爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
爬蟲框架如何搭建
2023-11-27
爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
nodejs爬蟲記憶體洩露排查
2019-04-02
NodeJS爬蟲記憶體洩露
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
WebMagic 爬蟲框架淺析
2019-02-13
Web爬蟲框架
常用python爬蟲框架整理
2018-07-16
Python爬蟲框架
六種高效爬蟲框架
2022-06-07
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
golang實現併發爬蟲三(用佇列排程器實現）
2020-04-24
Golang爬蟲佇列
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
什麼是Python爬蟲？Python爬蟲常用框架有哪些？
2020-12-24
Python爬蟲框架
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
基於nodejs網站爬蟲程式開發
2021-09-09
NodeJS網站爬蟲
Python微型非同步爬蟲框架
2019-02-16
Python非同步爬蟲框架
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
一款分散式爬蟲管理平臺，支援多種語言和框架
2024-06-27
分散式爬蟲框架
Reactjs前端、Python爬蟲、Nodejs後臺開發招聘
2018-11-09
React前端Python爬蟲NodeJS
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Golang 網路爬蟲框架gocolly/colly
2019-01-15
Golang爬蟲框架
分享個人開源爬蟲框架
2019-03-01
爬蟲框架
網路爬蟲開發常用框架
2019-02-27
爬蟲框架
高效率爬蟲框架之 pyspider
2018-07-06
爬蟲框架IDE
looter——超輕量級爬蟲框架
2019-04-27
爬蟲框架
10個高效的Python爬蟲框架
2024-09-27
Python爬蟲框架
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE

Nodejs 爬蟲框架，支援佇列

開始

介紹一個實用命令

相關文章