NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結，附帶對應的React+ Redux 前端和 Koa2服務端程式碼

fanyang發表於2017-12-24

前言

之前研究資料，零零散散的寫過一些資料抓取的爬蟲，不過寫的比較隨意。有很多地方現在看起來並不是很合理這段時間比較閒，本來是想給之前的專案做重構的。後來利用這個週末，索性重新寫了一個專案，就是本專案 guwen-spider。目前這個爬蟲還是比較簡單的型別的，直接抓取頁面，然後在頁面中提取資料，儲存資料到資料庫。通過與之前寫的對比，我覺得難點在於整個程式的健壯性，以及相應的容錯機制。在昨天寫程式碼的過程中其實也有反映，真正的主體程式碼其實很快就寫完了，花了大部分時間是在做穩定性的除錯，以及尋求一種更合理的方式來處理資料與流程控制的關係。

NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結，附帶對應的React+ Redux 前端和 Koa2服務端程式碼

背景

專案的背景是抓取一個一級頁面是目錄列表，點選一個目錄進去是一個章節及篇幅列表，點選章節或篇幅進入具體的內容頁面。

概述

本專案github地址 : guwen-spider （PS:最後面還有彩蛋 ~~逃

專案技術細節

專案大量用到了 ES7 的async 函式, 更直觀的反應程式了的流程。為了方便，在對資料遍歷的過程中直接使用了著名的async這個庫，所以不可避免的還是用到了回撥promise ，因為資料的處理髮生在回撥函式中，不可避免的會遇到一些資料傳遞的問題，其實也可以直接用ES7的async await 寫一個方法來實現相同的功能。這裡其實最讚的一個地方是使用了 Class 的 static 方法封裝對資料庫的操作， static 顧名思義靜態方法就跟 prototype 一樣，不會佔用額外空間。專案主要用到了

1 ES7的 async await 協程做非同步有關的邏輯處理。
2 使用 npm的 async庫來做迴圈遍歷，以及併發請求操作。
3 使用 log4js 來做日誌處理
4 使用 cheerio 來處理dom的操作。
5 使用 mongoose 來連線mongoDB 做資料的儲存以及操作。

目錄結構

├── bin              // 入口
│   ├── booklist.js         // 抓取書籍邏輯
│   ├── chapterlist.js      // 抓取章節邏輯
│   ├── content.js          // 抓取內容邏輯
│   └── index.js            // 程式入口
├── config             // 配置檔案
├── dbhelper           // 資料庫操作方法目錄
├── logs             // 專案日誌目錄
├── model         // mongoDB 集合操作例項
├── node_modules         
├── utils         // 工具函式
├── package.json

專案實現方案分析

專案是一個典型的多級抓取案例，目前只有三級，即書籍列表，書籍項對應的章節列表，一個章節連結對應的內容。抓取這樣的結構可以採用兩種方式，一是直接從外層到內層內層抓取完以後再執行下一個外層的抓取，還有一種就是先把外層抓取完成儲存到資料庫，然後根據外層抓取到所有內層章節的連結，再次儲存，然後從資料庫查詢到對應的連結單元對之進行內容抓取。這兩種方案各有利弊，其實兩種方式我都試過，後者有一個好處，因為對三個層級是分開抓取的，這樣就能夠更方便，儘可能多的儲存到對應章節的相關資料。可以試想一下，如果採用前者按照正常的邏輯對一級目錄進行遍歷抓取到對應的二級章節目錄，再對章節列表進行遍歷抓取內容，到第三級內容單元抓取完成需要儲存時，如果需要很多的一級目錄資訊，就需要這些分層的資料之間進行資料傳遞，想想其實應該是比較複雜的一件事情。所以分開儲存資料一定程度上避開了不必要的複雜的資料傳遞。

目前我們考慮到其實我們要抓取到的古文書籍數量並不多，古文書籍大概只有180本囊括了各種經史。其和章節內容本身是一個很小的資料，即一個集合裡面有180個文件記錄。這180本書所有章節抓取下來一共有一萬六千個章節，對應需要訪問一萬六千個頁面爬取到對應的內容。所以選擇第二種應該是合理的。

專案實現

主程有三個方法 bookListInit ,chapterListInit,contentListInit, 分別是抓取書籍目錄，章節列表，書籍內容的方法對外公開暴露的初始化方法。通過async 可以實現對這三個方法的執行流程進行控制，書籍目錄抓取完成將資料儲存到資料庫，然後執行結果返回到主程式，如果執行成功主程式則執行根據書籍列表對章節列表的抓取，同理對書籍內容進行抓取。

專案主入口

/**
 * 爬蟲抓取主入口
 */
const start = async() => {
    let booklistRes = await bookListInit();
    if (!booklistRes) {
        logger.warn('書籍列表抓取出錯，程式終止...');
        return;
    }
    logger.info('書籍列表抓取成功，現在進行書籍章節抓取...');

    let chapterlistRes = await chapterListInit();
    if (!chapterlistRes) {
        logger.warn('書籍章節列表抓取出錯，程式終止...');
        return;
    }
    logger.info('書籍章節列表抓取成功，現在進行書籍內容抓取...');

    let contentListRes = await contentListInit();
    if (!contentListRes) {
        logger.warn('書籍章節內容抓取出錯，程式終止...');
        return;
    }
    logger.info('書籍內容抓取成功');
}
// 開始入口
if (typeof bookListInit === 'function' && typeof chapterListInit === 'function') {
    // 開始抓取
    start();
}

複製程式碼

引入的 bookListInit ,chapterListInit,contentListInit, 三個方法

booklist.js

/**
 * 初始化方法 返回抓取結果 true 抓取成果 false 抓取失敗
 */
const bookListInit = async() => {
    logger.info('抓取書籍列表開始...');
    const pageUrlList = getPageUrlList(totalListPage, baseUrl);
    let res = await getBookList(pageUrlList);
    return res;
}

複製程式碼

chapterlist.js

/**
 * 初始化入口
 */
const chapterListInit = async() => {
    const list = await bookHelper.getBookList(bookListModel);
    if (!list) {
        logger.error('初始化查詢書籍目錄失敗');
    }
    logger.info('開始抓取書籍章節列表，書籍目錄共：' + list.length + '條');
    let res = await asyncGetChapter(list);
    return res;
};
複製程式碼

content.js

/**
 * 初始化入口
 */
const contentListInit = async() => {
    //獲取書籍列表
    const list = await bookHelper.getBookLi(bookListModel);
    if (!list) {
        logger.error('初始化查詢書籍目錄失敗');
        return;
    }
    const res = await mapBookList(list);
    if (!res) {
        logger.error('抓取章節資訊，呼叫 getCurBookSectionList() 進行序列遍歷操作，執行完成回撥出錯，錯誤資訊已列印，請檢視日誌!');
        return;
    }
    return res;
}

複製程式碼

內容抓取的思考

書籍目錄抓取其實邏輯非常簡單，只需要使用async.mapLimit做一個遍歷就可以儲存資料了,但是我們在儲存內容的時候簡化的邏輯其實就是遍歷章節列表抓取連結裡的內容。但是實際的情況是連結數量多達幾萬我們從記憶體佔用角度也不能全部儲存到一個陣列中，然後對其遍歷，所以我們需要對內容抓取進行單元化。普遍的遍歷方式是每次查詢一定的數量，來做抓取，這樣缺點是隻是以一定數量做分類，資料之間沒有關聯，以批量方式進行插入，如果出錯則容錯會有一些小問題，而且如果我們想要把一本書作為一個集合單獨儲存會遇到問題。因此我們採用第二種就是以一個書籍單元進行內容抓取和儲存。這裡使用了 async.mapLimit(list, 1, (series, callback) => {})這個方法來進行遍歷，不可避免的用到了回撥，感覺很噁心。async.mapLimit()的第二個引數可以設定同時請求數量。

 /* 
 * 內容抓取步驟：
 * 第一步得到書籍列表， 通過書籍列表查到一條書籍記錄下 對應的所有章節列表， 
 * 第二步 對章節列表進行遍歷獲取內容儲存到資料庫中 
 * 第三步 儲存完資料後 回到第一步 進行下一步書籍的內容抓取和儲存
 */

/**
 * 初始化入口
 */
const contentListInit = async() => {
    //獲取書籍列表
    const list = await bookHelper.getBookList(bookListModel);
    if (!list) {
        logger.error('初始化查詢書籍目錄失敗');
        return;
    }
    const res = await mapBookList(list);
    if (!res) {
        logger.error('抓取章節資訊，呼叫 getCurBookSectionList() 進行序列遍歷操作，執行完成回撥出錯，錯誤資訊已列印，請檢視日誌!');
        return;
    }
    return res;
}
/**
 * 遍歷書籍目錄下的章節列表
 * @param {*} list 
 */
const mapBookList = (list) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(list, 1, (series, callback) => {
            let doc = series._doc;
            getCurBookSectionList(doc, callback);
        }, (err, result) => {
            if (err) {
                logger.error('書籍目錄抓取非同步執行出錯!');
                logger.error(err);
                reject(false);
                return;
            }
            resolve(true);
        })
    })
}

/**
 * 獲取單本書籍下章節列表 呼叫章節列表遍歷進行抓取內容
 * @param {*} series 
 * @param {*} callback 
 */
const getCurBookSectionList = async(series, callback) => {

    let num = Math.random() * 1000 + 1000;
    await sleep(num);
    let key = series.key;
    const res = await bookHelper.querySectionList(chapterListModel, {
        key: key
    });
    if (!res) {
        logger.error('獲取當前書籍: ' + series.bookName + ' 章節內容失敗，進入下一部書籍內容抓取!');
        callback(null, null);
        return;
    }
    //判斷當前資料是否已經存在
    const bookItemModel = getModel(key);
    const contentLength = await bookHelper.getCollectionLength(bookItemModel, {});
    if (contentLength === res.length) {
        logger.info('當前書籍：' + series.bookName + '資料庫已經抓取完成，進入下一條資料任務');
        callback(null, null);
        return;
    }
    await mapSectionList(res);
    callback(null, null);
}


複製程式碼

資料抓取完了怎麼儲存是個問題

這裡我們通過key 來給資料做分類，每次按照key來獲取連結，進行遍歷，這樣的好處是儲存的資料是一個整體，現在思考資料儲存的問題

1 可以以整體的方式進行插入

優點 : 速度快資料庫操作不浪費時間。

缺點 : 有的書籍可能有幾百個章節也就意味著要先儲存幾百個頁面的內容再進行插入，這樣做同樣很消耗記憶體，有可能造成程式執行不穩定。
2可以以每一篇文章的形式插入資料庫。

優點 : 頁面抓取即儲存的方式使得資料能夠及時儲存，即使後續出錯也不需要重新儲存前面的章節，

缺點 : 也很明顯就是慢，仔細想想如果要爬幾萬個頁面做幾萬次*N 資料庫的操作這裡還可以做一個快取器一次性儲存一定條數當條數達到再做儲存這樣也是一個不錯的選擇。

/**
 * 遍歷單條書籍下所有章節 呼叫內容抓取方法
 * @param {*} list 
 */
const mapSectionList = (list) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(list, 1, (series, callback) => {
            let doc = series._doc;
            getContent(doc, callback)
        }, (err, result) => {
            if (err) {
                logger.error('書籍目錄抓取非同步執行出錯!');
                logger.error(err);
                reject(false);
                return;
            }
            const bookName = list[0].bookName;
            const key = list[0].key;

            // 以整體為單元進行儲存
            saveAllContentToDB(result, bookName, key, resolve);

            //以每篇文章作為單元進行儲存
            // logger.info(bookName + '資料抓取完成，進入下一部書籍抓取函式...');
            // resolve(true);

        })
    })
}

複製程式碼

兩者各有利弊，這裡我都做了嘗試。準備了兩個錯誤儲存的集合,errContentModel, errorCollectionModel,在插入出錯時分別儲存資訊到對應的集合中，二者任選其一即可。增加集合來儲存資料的原因是便於一次性檢視以及後續操作，不用看日誌。

（PS ，其實完全用 errorCollectionModel 這個集合就可以了，errContentModel這個集合可以完整儲存章節資訊）

//儲存出錯的資料名稱
const errorSpider = mongoose.Schema({
    chapter: String,
    section: String,
    url: String,
    key: String,
    bookName: String,
    author: String,
})
// 儲存出錯的資料名稱 只保留key 和 bookName資訊
const errorCollection = mongoose.Schema({
    key: String,
    bookName: String,
})

複製程式碼

我們將每一條書籍資訊的內容放到一個新的集合中，集合以key來進行命名。

總結

寫這個專案其實主要的難點在於程式穩定性的控制，容錯機制的設定，以及錯誤的記錄，目前這個專案基本能夠實現直接執行一次性跑通整個流程。但是程式設計也肯定還存在許多問題，歡迎指正和交流。

彩蛋

寫完這個專案做了一個基於React開的前端網站用於頁面瀏覽和一個基於koa2.x開發的服務端, 整體技術棧相當於是 React + Redux + Koa2 ,前後端服務是分開部署的，各自獨立可以更好的去除前後端服務的耦合性，比如同一套服務端程式碼，不僅可以給web端還可以給移動端，app 提供支援。目前整個一套還很簡陋，但是可以滿足基本的查詢瀏覽功能。希望後期有時間可以把專案變得更加豐富。

本專案地址地址 : guwen-spider
對應前端 React + Redux + semantic-ui 地址 : guwen-react
對應Node端 Koa2.2 + mongoose 地址 : guwen-node

專案挺簡單的，但是多了一個學習和研究從前端到服務端的開發的環境。

以上です

nodejs + koa2 實現爬蟲
2019-02-16
NodeJS爬蟲
編寫web2.0爬蟲——頁面抓取部分
2020-10-09
Web爬蟲
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
爬蟲個人總結
2021-08-08
爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
服務端使用 nodejs 獲取帶參微信小程式碼圖片
2019-04-20
服務端NodeJS微信小程式
Zabbix 5.0：服務端程式總結
2022-03-03
服務端
使用 nodejs 寫爬蟲(二): 抓取 github 熱門專案
2019-04-05
NodeJS爬蟲Github
Flutter 全棧開發體驗——爬蟲與服務端
2019-06-15
Flutter全棧爬蟲服務端
nodejs 爬蟲
2019-02-16
NodeJS爬蟲
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
動態換ip軟體帶你看：爬蟲常見的抓取策略
2019-01-09
爬蟲
分散式爬蟲總結和使用
2018-12-09
分散式爬蟲
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
單頁應用SEO優化非Nodejs服務端渲染的處理方案
2018-05-30
優化NodeJS服務端
Java 月薪25K的爬蟲工程師對爬蟲的流程做了一個非常全面的總結！
2018-08-21
Java爬蟲工程師
Python-爬蟲工程師-面試總結
2019-02-16
Python爬蟲工程師面試
我的第一個Python爬蟲——談心得
2018-03-30
Python爬蟲
從原始碼理解Redux和Koa2的中介軟體機制
2018-05-15
原始碼Redux
計算機程式設計心得總結
2020-04-06
計算機程式設計
nodejs面試總結
2019-03-15
NodeJS面試
Node.js爬取科技新聞網站cnBeta（附前端及服務端原始碼）
2018-12-16
Node.js網站前端服務端原始碼
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲
【總結】Python爬蟲面試題及答案(二)
2021-06-15
Python爬蟲面試題
一個三年Java程式設計師的面試總結！絕對會對你有所幫助！
2019-01-05
Java程式設計師面試
反爬蟲的應對措施
2022-05-16
爬蟲
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
Redis面試總結 (附帶答案)
2018-08-13
Redis面試
nodejs爬蟲記憶體洩露排查
2019-04-02
NodeJS爬蟲記憶體洩露
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
Reactjs前端、Python爬蟲、Nodejs後臺開發招聘
2018-11-09
React前端Python爬蟲NodeJS
前端：你要懂的單頁面應用和多頁面應用
2019-03-04
前端
爬蟲專案總結
2020-08-31
爬蟲
爬蟲細節總結
2018-12-30
爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲

NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結，附帶對應的React+ Redux 前端 和 Koa2服務端程式碼

前言

背景

概述

總結

彩蛋

相關文章

NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結，附帶對應的React+ Redux 前端和 Koa2服務端程式碼