基於node的微小爬蟲——扒了一下知乎

Annn發表於2017-06-16

原文網址 : https://juejin.im/post/5943526fac502e006c71c242

爬蟲

寫在最前

近期讀到了alsotang的node教程，對一些基礎知識又有了些新認識，故重新梳理了一下，分享出來。這裡是教程地址。

本次使用了superagent、cheerio來爬取知乎的發現頁文章列表，通過async來控制併發數來動態獲取延時載入的文章。原始碼地址，以及作者的blog歡迎關注，不定期更新中——

實現步驟

搭建http服務
通過superagent獲取頁面html
使用cheerio提取html相應欄位
使用async第三方庫進行併發控制

搭建http服務

// Spider.js
var http = require('http')
const server = http.createServer((req, res) => {
  ...
}).listen(9090)複製程式碼

nodejs封裝了HTTP模組可以讓我們快速的搭建一個基礎服務，由上面程式碼可以看出其實一句話就可以解決問題。至於想深入HTTP模組可參照文件。至此我們可以通過

node Spider.js複製程式碼

來開啟伺服器，這裡推薦使用nodemon其自動監聽程式碼修改並自啟動還是很方便的。

通過superagent獲取頁面html

var baseUrl = 'http://www.zhihu.com/node/ExploreAnswerListV2'
superagent.get(baseUrl)
          .set({
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referrer': 'www.baidu.com'
          })
          .query({
            params: JSON.stringify(params)
          })
          .end(function(err, obj) {
            if(err) return null
            res.end(JSON.stringify(obj)) 
            //res是一個可寫流裡面傳遞的引數型別為string或buffer
            //故使用JSON.stringify()
          })複製程式碼

superagent採用了鏈式呼叫的形式其API用法一目瞭然。我們都知道現在的大列表都會實行懶載入，即使用者下拉到一定程度再去請求新的列表，所以我們的爬蟲也應該用某種規則來獲取那些一開始進入頁面沒有獲取到的文章列表。我們來看下知乎發現頁下的network，當頁面向下滾動的時候會載入新的文章，這個時候會發一個新的請求：

首先可以看到這是一個get請求，請求的key為params，後面攜帶了一個物件。作者多拉了幾次頁面發現了其中載入規律，每次載入都會是5篇文章。同時offset為0、5、10...由此我們可以通過動態生成offset拼接引數來請求，就可以理論上拿到n多的文章資訊。在此作者犯了個小錯誤，一開始書寫引數的時候作者是這麼寫的：

offset = 0、5、10...
var params = {
      'offset':offset,
      'type':'day'
    }
    superagent.get(baseUrl)
          .query({
            params: params
          })
          .end(function(err, obj) {
            ...
          })
  };複製程式碼

這樣寫在請求中會變成什麼情況呢？

是不是哪裡怪怪的？我們發現這麼寫的話瀏覽器會解析這個引數。。本身的樣子應該是：

這個物件轉變成了字串，也就是呼叫了JSON.stringify()方法來將物件進行變換。我知道作者比較愚鈍，以後不會再犯這種低階。。特此分享！

使用cheerio提取html相應欄位

const cheerio = require('cheerio')
...
const server = http.createServer((req, res) => {
  ...
  superagent.get(baseUrl)
    ...
    .end(function(err, obj) {
            if(err) return null
            var $ = cheerio.load(obj.text)
            //有興趣可以列印obj看看裡面都有什麼；
            //text屬性中有著html資訊；
            var items = []
            var baseUrl = 'https://www.zhihu.com'
            $('.explore-feed').each(function (index, el) {
              var $el = $(el)
              var tittle = $el.find('h2 a').text().replace(/[\r\n]/g, '')
              var href = url.resolve(baseUrl, $el.find('h2 a').attr('href'))
              var author = $el.find('.author-link').text()
              items.push({
                title: tittle,
                href: href,
                author: author
              })
            })
            res.end(JSON.stringify(items))
          })
}).listen(9090)複製程式碼

通過cheerio.load()方法將返回的html封裝為jQ形式，之後就可以使用jQ的語法對立面的html操作了，whatever u want.

使用async第三方庫進行併發控制

現在的需求是我們希望可以動態的爬取頁面資訊，那麼肯定就要發很多請求。在這裡有兩種選擇。我們可以一次性去請求，也可以控制請求數來執行。在這裡我們採用控制併發數的方式進行請求。原因主要在於瀏覽器通常會有安全限制不會允許對同一域名有過大的併發數畢竟早期伺服器受不了這種操作，很脆弱；再由於有些網站會檢測你的請求，如果併發數過多會覺得是惡意爬蟲啥的之類的把你的IP封掉，所以乖乖的控制下併發數吧。

async

本次使用了這個為解決非同步程式設計的弊端即回撥地獄所推出的一個流程控制庫，讓開發人員可以有著同步程式設計的體驗來進行非同步開發，這樣也順應了人的思維模式。這裡推薦一個github倉庫這裡面有著對async庫使用的demo，簡直好用到爆炸？借用其中一個例子：

var arr = [{name:'Jack', delay:200}, {name:'Mike', delay: 100}, {name:'Freewind', delay:300}, {name:'Test', delay: 50}];
async.mapLimit(arr,2, function(item, callback) {
    log('1.5 enter: ' + item.name);
    setTimeout(function() {
        log('1.5 handle: ' + item.name);
        if(item.name==='Jack') callback('myerr');
        else callback(null, item.name+'!!!');
    }, item.delay);
}, function(err, results) {
    log('1.5 err: ', err);
    log('1.5 results: ', results);
});
//57.797> 1.5 enter: Jack
//57.800> 1.5 enter: Mike
//57.900> 1.5 handle: Mike
//57.900> 1.5 enter: Freewind
//58.008> 1.5 handle: Jack
//58.009> 1.5 err: myerr
//58.009> 1.5 results: [ undefined, 'Mike!!!' ]
//58.208> 1.5 handle: Freewind
//58.208> 1.5 enter: Test
//58.273> 1.5 handle: Test複製程式碼

可以看出mapLimit核心的操作就是先放入需要非同步操作的資料，再設定併發數；然後在第一個func中對其進行遍歷執行，當執行完成後呼叫callback，最後所有callback會彙總到第二個func中。有興趣的同學可以去閱讀文件，async對非同步操作的封裝還是很完善的。

完整程式碼

var superagent = require('superagent')
var cheerio = require('cheerio')
var http = require('http')
var url = require('url');
var async = require('async')
const server = http.createServer((req, res) => {
  var count = 0;
  var fetchUrl = function (offset, callback) {
    count++;
    console.log('當前併發數：', count) //測試併發數
    var baseUrl = 'http://www.zhihu.com/node/ExploreAnswerListV2'
    var params = {
      'offset':offset,
      'type':'day'
    }
    superagent.get(baseUrl)
          .set({
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referrer': 'www.baidu.com'
          })
          .query({
            params: params
          })
          .end(function(err, obj) {
            if(err) return null
            var $ = cheerio.load(obj.text)
            var items = []
            var baseUrl = 'https://www.zhihu.com'
            $('.explore-feed').each(function (index, item) {
              // item = this, $(this)轉換為jq物件
              var tittle = $(this).find('h2 a').text().replace(/[\r\n]/g, '') //去掉空格
              var href = url.resolve(baseUrl, $(this).find('h2 a').attr('href'))
              var author = $(this).find('.author-link').text()
              items.push({
                title: tittle,
                href: href,
                author: author
              })
            })
            count--
            console.log('釋放了併發數後，當前併發數：', count)
            callback(null, JSON.stringify(items))
          })
  };
  var offsets = [];
  for(var i = 0; i < 13; i++) {
    offsets.push(i * 5); //生成很多offset引數值
  }
  async.mapLimit(offsets, 5, function (offset, callback) {
    fetchUrl(offset, callback);
  }, function (err, result) {
    res.writeHead(200, { 'Content-Type': 'text/plain; charset=utf8' });
    //記得加上編碼utf-8 有亂碼別找我
    res.end(JSON.stringify(result))
  });
}).listen(9090)複製程式碼

再看下後端console下對併發數的檢測：

以及爬取到的文章列表：

一直希望可以學好node，但總是由於各種原因被阻撓，現在準備開始細細學習一下原生的API(至於怎麼實現的。。對不起這輩子註定無緣c++。腦子真的不夠)，以後會不定期更新到blog中對於一些node基礎知識的理解。基礎真的很重要。慣例：作者的部落格歡迎不定時關注——

python爬蟲如何爬知乎的話題？
2019-02-16
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
基於Node.js的裁判文書網爬蟲分析
2018-10-06
Node.js爬蟲
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
爬蟲基礎知識
2023-03-15
爬蟲
python爬蟲專案（新手教程）之知乎（requests方式）
2018-06-13
Python爬蟲
node基金爬蟲，自導自演瞭解一下？
2018-05-07
爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
大知乎（基於ThinkPHP開發）
2019-05-11
PHP
基於微信小程式的知乎介面
2020-11-23
微信小程式
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
node爬蟲-使用puppeteer
2018-04-02
爬蟲
Python 爬蟲 + 人臉檢測 —— 知乎高顏值圖片抓取
2020-12-21
Python爬蟲
Python網路爬蟲實戰：爬取知乎話題下 18934 條回答資料
2019-01-17
Python爬蟲
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
基於 go + xpath 爬蟲小案例
2021-07-11
Go爬蟲
基於asyncio、aiohttp、xpath的非同步爬蟲
2019-02-16
AIHTTP非同步爬蟲
知乎 node事件機制轉載
2018-04-05
事件
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
一個基於 golang 的爬蟲電影站
2020-03-20
Golang爬蟲
基於Python的簡單天氣爬蟲程式
2018-03-26
Python爬蟲
爬蟲資料儲存--基於MonogoDB
2018-04-09
爬蟲MonoGo
基於 Lua 寫一個爬蟲程式
2023-11-14
爬蟲
爬蟲開發知識入門基礎（1）
2020-06-22
爬蟲
[Python]爬蟲獲取知乎某個問題下所有圖片並去除水印
2021-09-20
Python爬蟲
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
爬蟲基礎
2019-03-30
爬蟲
基於bs4+requests的python爬蟲偽裝
2018-07-20
Python爬蟲
記一次基於Cloudflare服務的爬蟲
2019-07-06
Cloud爬蟲
基於 ZooKeeper 實現爬蟲叢集的監控
2021-09-09
爬蟲
用Node寫頁面爬蟲的工具集
2018-10-24
爬蟲
一隻node爬蟲的升級打怪之路
2019-03-03
爬蟲
基於nodejs網站爬蟲程式開發
2021-09-09
NodeJS網站爬蟲