Node.js爬取科技新聞網站cnBeta（附前端及服務端原始碼）

Dante_Hu發表於2018-12-16

原文網址 : https://juejin.im/post/5c163e97f265da614171787a

前言

一直很喜歡看科技新聞，多年來一直混跡於cnBeta，以前西貝的評論區是匿名的，所以評論區非常活躍，各種噴子和段子，不過也確實很歡樂，可以說那是西貝人氣最旺的時候。然而自從去年網信辦出臺了《網際網路跟帖評論服務管理規定》，要求只有實名認證的使用者，才能進行留言、評論之後，往日的活躍的的評論區瞬間淪陷，人氣大跌。其實說到底，還是西貝沒有跟上移動網際網路的潮流，至今還止步於PC網際網路時代，網頁廣告太多，而移動應用質量堪憂，體驗極差，雖然有不少第三方的應用，但由於沒有官方的支援，體驗上還是不夠好，例如如果官方釋出一些改版，第三方的應用基本都會掛掉。

所以為了方便平時閱讀cnBeta的新聞，就打算通過爬蟲把cnBeta的新聞爬下來，自建一個m站，這樣體驗可控，並且沒有廣告(｀∀´)Ψ。其實專案很早就完成了，只是現在才有空（閒情）寫一篇分享出來。

概述

本專案爬蟲及服務端github地址：github.com/hudingyu/cn…

前端github地址：github.com/hudingyu/cn…

技術細節

使用 async await 做非同步邏輯的處理。
使用 async庫來做迴圈遍歷，以及併發請求操作。
使用 log4js 來做日誌處理
使用 cheerio 來做新聞詳情頁的分析抓取。
使用 mongoose 來連線mongoDB 做資料的儲存以及操作。

目錄結構

├── bin              // 入口
│   ├── article-list.js      // 抓取新聞列表邏輯
│   ├── content.js          // 抓取新聞內容邏輯
│   ├── server.js      // 服務端程式入口
│   └── spider.js      // 爬蟲程式入口
├── config             // 配置檔案
├── dbhelper           // 資料庫操作方法目錄
├── middleware      // koa2 中介軟體
├── model          // mongoDB 集合操作例項
├── router         // koa2 路由檔案
├── utils         // 工具函式
├── package.json       
複製程式碼

方案分析

首先看爬蟲程式入口檔案，整體邏輯其實很簡單，先抓取新聞列表，存入MongoDB資料庫，每十分鐘抓取一次。新聞列表抓取之後，在資料庫查詢列表中沒有新聞內容的新聞，開始抓取新聞詳情，然後更新到資料庫。

const articleListInit = require('./article-list');
const articleContentInit = require('./content');
const logger = require('../config/log');

const start = async() => {
    let articleListRes = await articleListInit();
    if (!articleListRes) {
        logger.warn('news list update failed...');
    } else {
        logger.info('news list update succeed！');
    }

    let articleContentRes = await articleContentInit();
    if (!articleContentRes) {
        logger.warn('article content grab error...');
    } else {
        logger.info('article content grab succeed！');
    }
};

if (typeof articleListInit === 'function') {
    start();
}
setInterval(start, 600000);
複製程式碼

接著看抓取新聞列表的邏輯，因為可以獲取到新聞列表的Ajax介面，所以直接呼叫介面獲取列表資訊。但是也有個問題，cnBeta新聞列表的縮圖以及文章裡的的圖片是有防盜鏈的，所以你在自己的網站是沒法直接使用它的圖片的，所以我是直接把cnBeta的圖片檔案爬下來存到自己的伺服器上。

/**
 * 初始化方法 抓取文章列表
 * @returns {Promise.<*>}
 */
const articleListInit = async() => {
    logger.info('grabbing article list starts...');
    const pageUrlList = getPageUrlList(listBaseUrl, totalPage);
    if (!pageUrlList) {
        return;
    }
    let res = await getArticleList(pageUrlList);
    return res;
}

/**
 * 利用分頁介面獲取文章列表
 * @param pageUrlList
 * @returns {Promise}
 */
const getArticleList = (pageUrlList) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(pageUrlList, 1, (pageUrl, callback) => {
            getCurPage(pageUrl, callback);
        }, (err, result) => {
            if (err) {
                logger.error('get article list error...');
                logger.error(err);
                reject(false);
                return;
            }
            let articleList = _.flatten(result);
            downloadThumbAndSave(articleList, resolve);
        })
    })
};

/**
 * 獲取當前頁面的文章列表
 * @param pageUrl
 * @param callback
 * @returns {Promise.<void>}
 */
const getCurPage = async(pageUrl, callback) => {
    let num = Math.random() * 1000 + 1000;
    await sleep(num);
    request(pageUrl, (err, response, body) => {
        if (err) {
            logger.info('current url went wrong，url address:' + pageUrl);
            callback(null, null);
            return;
        } else {
            let responseObj = JSON.parse(body);
            if (responseObj.result && responseObj.result.list) {
                let newsList = parseObject(articleModel, responseObj.result.list, {
                    pubTime: 'inputtime',
                    author: 'aid',
                    commentCount: 'comments',
                });
                callback(null, newsList);
                return;
            }
            console.log("出錯了");
            callback(null, null);
        }
    });
};

const downloadThumbAndSave = (list, resolve) => {
    const host = 'https://static.cnbetacdn.com';
    const basepath = './public/data';
    if (list.indexOf(null) > -1) {
        resolve(false);
    } else {
        try {
            async.eachSeries(list, (item, callback) => {
                let thumb_url = item.thumb.replace(host, '');
                item.thumb = thumb_url;
                if (!fs.exists(thumb_url)) {
                    mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {
                        request
                            .get({
                                url: host + thumb_url,
                            })
                            .pipe(fs.createWriteStream(path.join(basepath, thumb_url)))
                            .on('error', (err) => {
                                console.log("pipe error", err);
                            });
                        callback(null, null);
                    });
                }
            }, (err, result) => {
                if (!err) {
                    saveDB(list, resolve);
                }
            });
        }
        catch(err) {
            console.log(err);
        }
    }
};

/**
 * 將文章列表存入資料庫
 * @param result
 * @param callback
 * @returns {Promise.<void>}
 */
const saveDB = async(result, callback) => {
    //console.log(result);
    let flag = await dbHelper.insertCollection(articleDbModel, result).catch(function (err){
        logger.error('data insert falied');
    });
    if (!flag) {
        logger.error('news list save failed');
    } else {
        logger.info('list saved！total：' + result.length);
    }
    if (typeof callback === 'function') {
        callback(true);
    }
};
複製程式碼

再來看抓取新聞內容的邏輯，這裡是直接根據新聞的sid得到新聞內容頁的html，然後利用cheerio庫分析獲取我們需要的新聞內容。當然這裡也是要把文章中的圖片爬下來存入伺服器，並且把存入資料庫的新聞內容中圖片連結替換成自己伺服器中的URL。

/**
 * 抓取正文程式入口
 * @returns {Promise.<*>}
 */
const articleContentInit = async() => {
    logger.info('grabbing article contents starts...');
    let uncachedArticleSidList = await getUncachedArticleList(articleDbModel);
    // console.log('未快取的文章：'+ uncachedArticleSidList.join(','));
    const res = await batchCrawlArticleContent(uncachedArticleSidList);
    if (!res) {
        logger.error('grabbing article contents went wrong...');
    }
    return res;
};

/**
 * 查詢新聞列表獲取sid列表
 * @param Model
 * @returns {Promise.<void>}
 */
const getUncachedArticleList = async(Model) => {
    const selectedArticleList = await dbHelper.queryDocList(Model).catch(function (err){
        logger.error(err);
    });
    return selectedArticleList.map(item => item.sid);
    // return selectedArticleList.map(item => item._doc.sid);
};

/**
 * 批量抓取新聞詳情內容
 * @param list
 * @returns {Promise}
 */
const batchCrawlArticleContent = (list) => {
    return new Promise((resolve, reject) => {
        async.mapLimit(list, 3, (sid, callback) => {
            getArticleContent(sid, callback);
        }, (err, result) => {
            if (err) {
                logger.error(err);
                reject(false);
                return;
            }
            resolve(true);
        });
    });
};

/**
 * 抓取單篇文章內容
 * @param sid
 * @param callback
 * @returns {Promise.<void>}
 */
const getArticleContent = async(sid, callback) => {
    let num = Math.random() * 1000 + 1000;
    await sleep(num);
    let url = contentBaseUrl + sid + '.htm';
    request(url, (err, response, body) => {
        if (err) {
            logger.error('grabbing article content went wrong，article url:' + url);
            callback(null, null);
            return;
        }
        const $ = cheerio.load(body, {
            decodeEntities: false
        });
        const serverAssetPath = `${serverIp}:${serverPort}/data`;
        let domainReg = new RegExp('https://static.cnbetacdn.com','g');
        let article = {
            sid,
            source: $('.article-byline span a').html() || $('.article-byline span').html(),
            summary: $('.article-summ p').html(),
            content: $('.articleCont').html().replace(styleReg.reg, styleReg.replace).replace(scriptReg.reg, scriptReg.replace).replace(domainReg, serverAssetPath),
        };
        saveContentToDB(article);
        let imgList = [];
        $('.articleCont img').each((index, dom) => {
            imgList.push(dom.attribs.src);
        });
        downloadImgs(imgList);
        callback(null, null);
    });
};

/**
 * 下載圖片
 * @param list
 */
const downloadImgs = (list) => {
    const host = 'https://static.cnbetacdn.com';
    const basepath = './public/data';
    if (!list.length) {
        return;
    }
    try {
        async.eachSeries(list, (item, callback) => {
            let num = Math.random() * 500 + 500;
            sleep(num);
            if (item.indexOf(host) === -1) return;
            let thumb_url = item.replace(host, '');
            item.thumb = thumb_url;
            if (!fs.exists(thumb_url)) {
                mkDirs(basepath + thumb_url.substring(0, thumb_url.lastIndexOf('/')), () => {
                    request
                        .get({
                            url: host + thumb_url,
                        })
                        .pipe(fs.createWriteStream(path.join(basepath, thumb_url)))
                        .on("error", (err) => {
                            console.log("pipe error", err);
                        });
                    callback(null, null);
                });
            }
        });
    }
    catch(err) {
        console.log(err);
    }
};
/**
 * 儲存到文章內容到資料庫
 * @param article
 */
const saveContentToDB = (item) => {
    let flag = dbHelper.updateCollection(articleDbModel, item);
    if (flag) {
        logger.info('grabbing article content succeeded：' + item.sid);
    }
};
複製程式碼

爬蟲部分差不多就是這樣，還有一點就自己伺服器儲存的爬取的圖片每天都會有上百張甚至上千張，時間一長，圖片佔用的儲存空間就會特別大，所以需要定時清理一下，有興趣的可以看看專案裡面的clear-expire.js檔案。

總結

其實，雖然這個專案整體並不複雜，但是一套前後端系統搭建起來的過程中，自己的收穫還是挺不少的，很多問題的解決需要自己去實踐和思考的，對於效能優化考量也是一個重要的方面。

下面截圖就是我最終完成得m站，介面很清爽，體驗上確實比cnBeta官網要好很多。這樣是平時看科技新聞也確實方便很多。

以上

爬取網站新聞
2020-09-24
網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
教你編寫 Node.js 中介軟體，實現服務端快取（附demo原始碼）
2019-03-03
Node.js服務端快取原始碼
JB的Python之旅-爬取phizhub網站（原始碼）
2019-03-01
Python網站原始碼
VC++RTSP服務端(附原始碼）
2020-10-01
C++服務端原始碼
Nodejs爬取新聞列表
2021-09-09
NodeJS
國信科技新聞網
2019-05-11
爬取某網站寫的python程式碼
2019-11-29
網站Python
Dubbo原始碼解析之客戶端初始化及服務呼叫
2018-11-04
原始碼客戶端
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
站長網，新聞資訊類，原始碼分享，外掛分享賺錢平臺
2019-05-11
原始碼
Netty原始碼學習5——服務端是如何讀取資料的
2023-11-26
Netty原始碼服務端
動態網站的爬取
2018-08-29
網站
使用代理池用py完整的爬取一個網站(尾部有github原始碼)
2020-09-10
網站Github原始碼
服務端渲染到前端渲染，再到“服務端渲染”
2019-02-16
服務端前端
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
全球最大社交新聞站點Reddit證實，其原始碼和內部資料遭竊取
2023-02-10
原始碼
Dubbo原始碼之服務端的釋出
2019-03-28
原始碼服務端
Netty原始碼分析（二）：服務端啟動
2019-03-24
Netty原始碼服務端
Flutter 新聞客戶端 - 06 程式碼規範、業務程式碼組織、新聞首頁實現
2020-06-24
Flutter客戶端
使用 Python 爬取網站資料
2024-07-27
Python網站
如何爬取視訊的爬蟲程式碼原始碼
2020-12-26
爬蟲原始碼
Dubbo原始碼分析（五）Dubbo呼叫鏈-服務端
2018-10-04
原始碼服務端
Netty原始碼解析 -- 服務端啟動過程
2020-11-01
Netty原始碼服務端
xxl-job原始碼閱讀二（服務端）
2021-05-24
原始碼服務端
Jsoup + HtmlUtil 實現網易新聞網頁爬蟲
2019-01-14
JSHTML網頁爬蟲
Scrapy 爬取不同網站及自動執行的經驗分享
2020-11-16
網站
「譯」如何用 Node.Js 和 Puppeteer 爬取網頁
2019-03-03
Node.js網頁
爬取外文工業技術期刊網頁原始碼（自用）
2018-03-12
網頁原始碼
網站爬取時出現亂碼-強行轉碼第二招
2020-09-10
網站
JB的Python之旅-爬取phizhub網站
2019-02-21
Python網站
快速爬取登入網站資料
2020-11-20
網站
服務端常見服務安裝及配置
2020-10-09
服務端
教育網站原始碼：網校系統搭建服務需要注意的幾個問題
2021-01-29
網站原始碼
Web網站服務（二）
2020-10-07
Web網站
netty原始碼分析之服務端啟動全解析
2018-10-19
Netty原始碼服務端
Fabric 1.0原始碼分析(30) Orderer #BroadcastServer（Broadcast服務端）
2018-05-20
原始碼ASTServer服務端

Node.js爬取科技新聞網站cnBeta（附前端及服務端原始碼）

前言

概述

技術細節

目錄結構

方案分析

總結

相關文章