nodejs + cheerio + Promise(bluebird庫實現)抓取慕課網nodejs課程資料

艾倫先生發表於2017-12-14

NodeJSPromise

文章概要

使用nodejs + cheerio + Promise(bluebird庫實現)的nodejs課程資料進行爬取。統計scott老師的所有課程的情況：每個課程的課程名、課程介紹、連結地址、課程難度等級。

關於cheerio的使用

請參考我的另外一篇文章《cheerio 使用初步》

也可以參考我的另外一篇爬蟲實踐文章

nodejs + cheerio 爬取極客學院的nodejs課程資料

準備

我們要爬去scott老師的所有課程資訊

nodejs + cheerio + Promise(bluebird庫實現)抓取慕課網nodejs課程資料

對應的DOM結構如下

我希望的到的是如下

  課程名稱: Node.js 非同步優化
  課程介紹：本課程作為 Node.js 進階提升系列的第一課，主要講解 Node.js 的非同步程式碼程式設計習慣以及非同步程式碼程式設計會帶來的潛在問題。通過本課程的學習，學員將學會如何將 Node.js 的非同步程式碼進行改良優化。
  課程連結：4510人學習
  學習人數：http://www.jikexueyuan.com/course/2052.html
複製程式碼

##　程式碼 crawler.js

var http = require('http');
var cheerio = require('cheerio');
var Promise = require('bluebird');
// baseUrl + videoIds 是一個課程的
var baseUrl = 'http://www.imooc.com/learn/';
var videoIds = [348, 259, 197, 134, 75];


function filterHtml(html){
    var $ = cheerio.load(html);// 使用 cheerio模組裝載課程頁面，使用類似jquery方式處理

   
    var course_infos = $('.course-infos');//課程資訊
    var title = course_infos.find('.hd').find('.l').text().trim();//課程標題
    var number = $($('.static-item.l')[1]).find('span').last().text().trim();//課程難度等級
    var chapters = $('.chapter');//章節（每個章節包含若干小節）

    //期望返回的資料結構，將每個html頁面處理成這個字面量物件
    /*var courseData = {
        title: title,//課程名稱
        number: number,//課程學習人數
        //課程的每個章節：章節名稱，小章節陣列。小章節：小章節名稱，小章節連結
        videos:[{
            chapterTitle: '',
            videos: [
                title:'',
                id:''
            ]
        }]
    }*/

    var courseData = {
        videos: [],
        number: number,
        title: title
    }
    //遍歷每個章節
    chapters.each(function(item) {
        var chapter = $(this);

        var chapterTitle = chapter.find('strong').text().trim();//每個章節的標題
        var videos = chapter.find('.video').children('li');//每個小章節DOM（陣列）
        var chapterData = {
            chapterTitle : chapterTitle,
            videos: []
        }

        videos.each(function(item) {
            var video = $(this).find('.J-media-item');//每個小節的a標籤
            var videoTitle = video.text().trim();
            var id = video.attr('href').split('video/')[1].trim();

            chapterData.videos.push({
                title: videoTitle,
                id:id
            })
        })

        courseData.videos.push(chapterData)
    })

    return courseData;
}


function printInfo(info) {
    info.forEach(function(item){
        console.log(item.number + ' 人學過 ' + item.title + '\r\n');
    });

    info.forEach(function(courseData) {
        console.log('###' + courseData.title + '\n')

        courseData.videos.forEach(function(item) {
            var chapterTitle = item.chapterTitle;

            console.log(chapterTitle + '\r\n');
            item.videos.forEach(function(video) {
                var subtext = '【' + video.id +'】' + video.title
                console.log(subtext)
            })
        })

    })
}


var fetchCourseArray = [];

videoIds.forEach(function(id) {
    fetchCourseArray.push(getPageAsync(baseUrl + id));
})


function getPageAsync(url) {
    return new Promise(function(resolve, reject){
        console.log('正在爬取....');
        http.get(url, function(res){
            var html = '';

            res.on('data', function(data) {
                html += data;
            })

            res.on('end', function(){
              
                resolve(html);
            })

        }).on('error', function(e) {
            reject(e)
            console.log('出錯了')
        })
    })
}

Promise
.all(fetchCourseArray)
.then(function(pages) {
  
    var coursesData = [];//很多課程的陣列（之前是一個課程裡許多個章節的陣列）
    pages.forEach(function(html){
        var courses = filterHtml(html);

        coursesData.push(courses);
    })

    coursesData.sort(function(a, b){
        return a.number < b.number;//從大到小
    })

    printInfo(coursesData)
})
複製程式碼

拉出啦溜溜

執行

npm install --save cheerio bluebird
node crawler.js
複製程式碼

問題

我最開始想爬取慕課網某個課程的學習人數

DOM結構如下

“上次學到”、“學習人數”等四塊內容，分別儲存在四個className為static-item的DIV中。但是通過資料抓取，我發現，抓出的資料“上次學到”等標題是亂碼，然後具體的內容如“1-1課程簡介”等是空

var number = $('.statics ').find('.static-item').html();
複製程式碼

也許是我的這次行為被慕課網發現了，觸發了自動“反扒”機制，這個機制和怎麼規避，目前，我還不瞭解，後面的文章，我會繼續填坑~

慕課網大資料開發工程師課程
2021-01-05
大資料工程師
我的慕課實戰課程上線了
2021-09-09
慕課網的中國式線上“慕課”模式
2014-05-19
模式
promise.js實現nodejs的promises庫
2017-03-26
PromiseNodeJS
慕課網玩轉資料結構課程之陣列
2021-09-09
資料結構陣列
資料庫實戰：SQL Server系列網路課程資料集
2014-07-01
資料庫SQLServer
Mooc下載器：中國大學mooc慕課影片課件課程下載工具，如何在電腦端下載中國大學mooc慕課影片課程課件資料到本地？
2024-10-29
資料庫課程設計
2005-06-24
資料庫
Mysql基準測試詳細解說（根據慕課網：《打造扛得住Mysql資料庫架構》視訊課程實時筆錄）
2017-05-17
MySql資料庫架構
慕課網招聘golang講師
2018-12-05
Golang
【資料庫課程】研討02
2017-12-20
資料庫
慕課網10小時大資料入門筆記
2019-01-12
大資料筆記
NPM酷庫：bluebird Promise工具庫
2019-02-16
NPMPromise
Android仿微信介面--使用Fragment實現(慕課網筆記)
2016-04-12
AndroidFragment筆記
慕課平臺
2019-05-11
手把手教你如何下載中國大學mooc慕課上已關閉的影片課程和課件資料
2024-10-30
資料庫課程作業筆記
2019-04-24
資料庫筆記
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
慕課網go語言體系課搶先體驗
2020-10-15
Go
[網路爬蟲]使用node.js cheerio抓取網頁資料
2014-12-10
爬蟲Node.js網頁
Python爬蟲入門教程 21-100 網易雲課堂課程資料抓取
2019-01-09
Python爬蟲
慕課全套資料，需要的同學自己拿
2020-12-02
“種草”10門網課，最佳資料科學線上課程！
2018-10-09
資料科學
實驗課程名稱：資料庫系統概論
2018-11-06
資料庫
WebView學習的總結————慕課網
2016-04-27
WebView
《資料庫系統原理》課程筆記
2020-11-02
資料庫筆記
Oracle（WDP） OCM資料庫專業課程
2010-11-17
Oracle資料庫
慕課網獨創行業標杆級課程《Java架構師-十項全能》全網首發
2021-09-09
行業Java架構
用Nodejs Cheerio爬取NPM包詳細資訊
2019-05-06
NodeJSNPM
nodejs之資料庫連線
2020-07-15
NodeJS資料庫
nodejs操作mongodb資料庫（mongodb）
2017-04-08
NodeJSMongoDB資料庫
nodejs操作mangodb資料庫示例
2017-04-09
NodeJSGo資料庫
NodeJs連線Oracle資料庫
2015-09-09
NodeJSOracle資料庫
nodejs Q.js promise
2015-02-27
NodeJSPromise
慕課網Python入門練習題---
2018-07-15
Python
資料庫課程作業筆記 - 驗收
2019-04-24
資料庫筆記
資料庫學習哈工大課程第Ⅸ、Ⅹ講
2019-05-04
資料庫
資料庫課程設計-宿舍管理系統
2017-06-17
資料庫

nodejs + cheerio + Promise(bluebird庫實現)抓取慕課網nodejs課程資料

文章概要

準備

拉出啦溜溜

問題

相關文章