用 Node 抓站（二）：Promise 使程式碼更優雅

三水清發表於2019-03-03

原文網址 : https://flycode.co/archives/285804

本文主要目的是通過抓取「電影天堂」的最新電影名稱和下載地址，展現如何抓取列表之後，繼續抓取正文內容

使用《用Node抓站（一）》（沒看過的可以翻看下本公眾號的歷史文章）當中寫的spider.js 程式碼可以直接用下面的程式碼把列表抓出來：

var spider = require('../lib/spider')

spider({
  url: 'http://www.dytt8.net/index.htm',
  decoding: 'gb2312'
}, (err, data, body, req) => {
  if (!err) {
    console.log(data)
  }
}, {
  items: {
    selector: '.co_area2 .co_content2 ul a!attr:href'
  }
})複製程式碼

這裡不同的是涉及到一個編碼問題，「電影天堂」用的是gb2312編碼，需要轉成utf8，不然抓的內容會亂碼。我擴充套件了request模組的引數增加了decoding：因為encoding被佔用了，而且為了轉碼方便，我將encoding設為null，這樣出來的資料就是Buffer，可以直接用iconv-lite之類的進行轉碼，涉及到編碼問題不是本文討論內容，就不多說了。

抓取列表後，發現title是被截斷的，也要在正文頁面抓取一下；繼續寫抓取下載地址和電影title的程式碼：

spider({
  url: 'http://www.dytt8.net/index.htm',
  decoding: 'gb2312'
}, (err, data, body, req) => {
  if (!err) {
    if (data && data.items) {
      var urls = data.items
      urls.forEach(function (url) {
        url = 'http://www.dytt8.net' + url
        spider({url: url, decoding: 'gb2312'}, (e, d) => {
          if (!e) {
            console.log(d)
          }
        }, {
          url: {
            selector: '#Zoom table td a!text'
          },
          title: {
            selector: '.title_all h1!text'
          }
        })
      })
    }
  }
}, {
  items: {
    selector: '.co_area2 .co_content2 ul a!attr:href'
  }
})複製程式碼

看上去挺簡單的，但是回撥好多啊。。。

處理這種非同步回撥可以使用Promise！

Promise

Promise是CommonJS提出來的這一種規範，有多個版本，在ES6當中已經納入規範，原生支援Promise 物件，非ES6環境可以用類似Bluebird、Q這類庫來支援。

Promise可以將回撥變成鏈式呼叫寫法，流程更加清晰，程式碼更加優雅。

簡單歸納下Promise：三個狀態、兩個過程、一個方法，3-2-1

三個狀態：pending、fulfilled、rejected
兩個過程：
- pending→fulfilled（resolve）
- pending→rejected（reject）
一個方法：then

當然還有其他概念，比如：catch、Promise.all/race這裡就不展開了。

程式碼的Promise改造

瞭解了Promise之後，先把spider.js改成Promise的

return new Promise((resolve, reject) => {
  opts.callback = function (error, response, body) {
    if (!error) {
      body = iconv.decode(body, opts.decoding || 'utf8')
      // 處理json
      try {
        body = JSON.parse(body)
      } catch (e) {
      }
      var data = parser(body, handlerMap)
      callback(error, data, response)
      resolve(data, response)
    } else {
      callback(error, body, response)
      reject(error)
    }
  }
  request(opts)
})複製程式碼

這裡Promise是個類，接受一個函式，函式引數是兩個函式：resolve和reject，當成功的時候resolve(結果)，當失敗的時候reject(原因)

完成spider.js改造之後，使用spider抓取程式碼變成了下面這樣：

spider({
  url: 'http://www.dytt8.net/index.htm',
  decoding: 'gb2312'
}, {
  items: {
    selector: '.co_area2 .co_content2 ul a!attr:href'
  }
}).then(function (data) {
  // 第一頁成功
  if (data && data.items) {
    var urls = data.items
    urls.forEach(function (url) {
      url = 'http://www.dytt8.net' + url
      // 遍歷開始抓取第二頁面
      spider({url: url, decoding: 'gb2312'}, {
        url: {
          selector: '#Zoom table td a!text'
        },
        title: {
          selector: '.title_all h1!text'
        }
      }).then((d) => {
        console.log(d)
      })
    })
  }
})複製程式碼

上面的程式碼能夠實現需求，但是沒有充分利用Promise的鏈式寫法，還是出現了回撥，沒有專注程式流程，看上去還是亂糟糟的。

`Promise`的鏈式呼叫

提到鏈式呼叫，最多的是jQuery的寫法：$(document).click(handler).addClass()….。

這裡簡單程式碼實現一個可以鏈式呼叫的類，方便大家舉一反三：


class M {
  constructor (number) {
    this.number = number
  }
  add (n) {
    this.number += n
    return this
  }
  sub (n) {
    this.number -= n
    return this
  }
  result () {
    return this.number
  }
}

var m = new M(1)
m.add(2).sub(3).result()複製程式碼

在Promise中，每個then或者catch 返回的都是一個Promise物件，所以可以繼續用then/catch，而且每次then都是上一次then的return結果，如果沒有return那麼就是undefined，例如下面：

var resolve = Promise.resolve(1)

resolve.then((d) => {
  console.log(`第1個：${d}`) // 1
}).then((d) => {
  console.log(`第2個：${d}`) // undefined
})複製程式碼

而如果return 則是return後的結果：

var resolve = Promise.resolve(1)

resolve.then((d) => {
  console.log(`第1個：${d}`) // 1
  return 2 // 2
}).then((d) => {
  console.log(`第2個：${d}`) //2
})複製程式碼

上面的程式碼和下面的程式碼實現一樣，建議每個then都返回一個Promise物件

var resolve = Promise.resolve(1)

resolve.then((d) => {
  console.log(`第1個：${d}`)
  return Promise.resolve(2)
}).then((d) => {
  console.log(`第2個：${d}`)
})複製程式碼

瞭解了上面的知識之後，我將整個流程劃分為三部分：獲取列表fetchList，處理列表資料dealListData和獲取正文內容fetchContents

然後將三個相互關聯序列的流程，通過then串聯起來：

fetchList().then(dealListData).then(fetchContents).then((d) => {
  console.log(d, d.length)
}).catch((e) => {
  console.log(e)
})複製程式碼

再來看下特殊處理的fetchContents，因為傳進來的是一堆需要抓取的正文頁面的url，如果我們使用Promise.all這個方法，其中一個正文頁面抓取失敗，就會導致Promise都rejected，則後續then都失敗，Promise狀態只會改變一次，而且回撥只會執行一次。我們的需求是正文頁面一個抓取失敗不要緊，其他的頁面繼續抓取。所以特殊處理下：

function fetchContents (urls) {
  return new Promise((resolve, reject) => {
    var count = 0
    var len = urls.length
    var results = []
    while (len--) {
      var url = urls[len]
      count++
      spider({url: url, decoding: 'gb2312'}, {
        url: {
          selector: '#Zoom table td a!text'
        },
        title: {
          selector: '.title_all h1!text'
        }
      }).then((d) => {
        results.push(d)
      }).finally(() => {
        count--
        if (count === 0) {
          resolve(results)
        }
      })
    }
  })
}複製程式碼

總結

本文通過抓取「電影天堂」下載地址的例項，粗略的講解了Promise的使用方法。後面抓取系列文章還會介紹怎麼避免封IP等知識，敬請關注本公眾號後續文章。

本文的完整程式碼，在github/ksky521/mpdemo/ 對應文章名資料夾下可以找到

-eof-
@三水清
未經允許，請勿轉載，不用打賞，喜歡請轉發和關注

感覺有用，歡迎關注我的公眾號，每週一篇原創技術文章

使用Async，讓你的Node.js程式碼更優雅
2021-09-09
Node.js
通過facade（尤其是realtime facade）來使程式碼更優雅
2019-02-16
編寫更優雅的 JavaScript 程式碼
2018-09-05
JavaScript
用 Node 抓站（一）：怎麼寫出自己滿意的程式碼
2019-02-11
PHPer這樣寫程式碼也許更優雅
2018-06-21
PHP
看promise教你如何優雅的寫js非同步程式碼
2018-05-20
PromiseJS非同步
用Assert(斷言)封裝異常，讓程式碼更優雅(附專案原始碼)
2022-03-07
封裝原始碼
Go Interface 的優雅使用，讓程式碼更整潔更容易測試
2020-10-20
Go
一些技巧讓你的 Laravel 程式碼更優雅
2018-06-06
Laravel
優雅的程式碼
2021-07-01
用proxy實現一個更優雅的vue
2019-03-04
Vue
帶引數的 Python 裝飾器讓你的程式碼更優雅
2024-11-10
Python
【優雅寫程式碼系統】springboot+mybatis+pagehelper+mybatisplus+druid教你如何優雅寫程式碼
2020-06-11
Spring BootMyBatisUI
【程式碼鑑賞】簡單優雅的JavaScript程式碼片段（二）：流控和重試
2021-11-07
JavaScript
如何寫出優雅的程式碼？
2019-04-10
寫出優雅的js程式碼
2018-11-28
JS
如何優雅的打包前端程式碼
2019-10-30
前端
【庫】Promise的簡便實現，15行程式碼優雅解決非同步巢狀
2019-02-27
Promise行程非同步巢狀
讓你的程式碼更優雅—去掉Xcode工程中某種型別的警告
2019-02-15
XCode型別
更優雅地實現策略模式
2022-03-28
模式
優雅地除錯線上程式碼
2020-04-17
除錯
如何用 SpringBoot 優雅的寫程式碼
2018-04-05
Spring Boot
更優雅的 node.js 框架：nestjs 5.1 釋出，支援非同步動態 modules 。
2019-02-16
Node.js框架非同步
如何提高Java程式碼質量-優雅的寫程式碼
2018-08-28
Java
使用解構賦值與擴充套件運算子，讓你的程式碼更優雅
2019-01-10
賦值套件
幾個簡單的技巧讓你寫出的vue.js程式碼更優雅
2018-12-04
Vue.js
9條消除if...else的錦囊妙計，助你寫出更優雅的程式碼
2021-01-31
Springboot -- 用更優雅的方式發HTTP請求(RestTemplate詳解)
2018-08-31
Spring BootHTTPREST
如何更優雅地切換 Git 分支
2019-02-13
Git
更優雅的在 mpvue 中使用 canvas
2018-08-09
VueCanvas
你的 JS 程式碼本可以更加優雅
2018-12-02
JS
那些優雅靈性的JS程式碼片段
2018-04-10
JS
如何寫出優雅耐看的JavaScript程式碼
2019-09-20
JavaScript
編寫優雅程式碼的最佳實踐
2018-04-24
如何優雅地管理複雜前端程式碼
2018-04-12
前端
【優雅程式碼】07-spring下的優秀工具類
2022-01-05
Spring
如何寫出更優質的程式碼
2023-02-11
[譯]ES6提示和技巧，使您的程式碼更清晰，更短，更容易閱讀
2018-09-28

用 Node 抓站（二）：Promise 使程式碼更優雅

Promise

程式碼的Promise改造

Promise的鏈式呼叫

總結

相關文章

`Promise`的鏈式呼叫