[網路爬蟲]使用node.js cheerio抓取網頁資料

大搜車-自娛發表於2014-12-10

原文網址 : https://blog.csdn.net/ziyujiangshi/article/details/84690425

爬蟲Node.js網頁

想要自動從網頁抓一些資料或者想把一坨從什麼部落格上拉來的資料轉成一種有結構的資料？

居然沒有現成的API可以取資料？！！！ !@#$@#$…

沒關係網頁抓取可以解決。

什麼是網頁抓取？你可能會問。。。

網頁抓取是以程式設計的方式(通常不用瀏覽器參與)檢索網頁的內容並從中提取資料的過程。

本文，小編會給大家展示一套強大的抓取工具，可以快速的對網面進行抓取，而且容易上手，它是由javascript 和node.js實現的。

最近我需要爬一些大數量（謙虛的說）的頁面，然後分析它們從中找到一些規律。你知道，實在太長時間沒有幹過種事了。。。這麼說吧，手頭基本上是沒有現成的工具可以用了。。

我必須承認我實在太喜歡node.js了。 Node.js是一個用來脫離瀏覽器寫javascript程式的框架。在Atwood’s 定律的指引下， node.js有了一套很強大的工具來幫助大家開發網路程式。你不光可以用node.js來開發webserver/websocket的程式碼，我發現它還可以滿足我一些日常的指令碼需要。所以我開始尋找node.js在網頁抓取方面的現成庫或工具，果然，我找到了 Cheerio. Cheerio 是一個Node.js的庫，它可以從一坨html的片斷中構建DOM結構，然後提供像jquery一樣的css選擇器查詢。

太好了！因為，在這個世界上CSS和CSS驅動的樣式連結串列幾乎是唯一的網頁組織方式。（CSS乾的好！）最近人們往往使用CSS class風格的方式來製作各種結構的網頁。別誤解我，這個並不是解決問題的金鑰匙，我依然要處理大量的網頁，大部分是雜亂無章的。但是對我來說 CSS選擇器提供一個強大快捷而簡單工具，從html中進行有效的的資料識別。我典型的網頁抓取流程是這樣的，首先用firebug或chrome開發者工具分析一下目標網頁的結構。主要關注的是我感興趣的資料即目標資料的css選擇器。接下來就是用node.js搞起了。

如果你沒有安裝node.js或者很久沒有升級了，那麼從這裡下載。安裝程式不僅會安裝node.js本身，還會裝一個叫做npm的node 工具包管理器，npm可以用來快速下載並安裝node.js的庫。這果我們用npm來安裝Cheerio這個庫。執行以下這條命令。

npm install cheerio

一旦Cheerio安裝完成，我們就可以開始工作了。首先讓我們來看一段javascript程式碼這段程式碼可以下載任意一個網頁的內容。

var http = require("http");
 
// Utility function that downloads a URL and invokes
// callback with the data.

function download(url, callback) {

  http.get(url, function(res) {

    var data = "";

    res.on('data', function (chunk) {

      data += chunk;

    });

    res.on("end", function() {

      callback(data);

    });

  }).on("error", function() {

    callback(null);

  });
}

這段程式碼可以非同步下載任意的URL (通過 HTTP GET方法)，而且在完成下載的時候，它會呼叫回撥函式並把下載的內容當做引數傳進去。接下的一段程式碼可以下載任意一個網頁並將其內容輸出到控制檯。

注意：請大家從原始碼中引用download.js 只要簡單的遠行如下程式碼。

node download.js

讓我們詳細看一下程式碼。

var url = "http://www.dailymail.co.uk/news/article-2297585/Wild-squirrels-pose-charming-pictures-photographer-hides-nuts-miniature-props.html"
 
download(url, function(data) {

  if (data) {

    console.log(data);

  }

  else console.log("error");  
});

這段程式碼會從指定的url下載內容並把內容列印到控制檯。現在我們已經有了可以從網頁下載的內容的方法，接下來就看Cheerio如何去提取我們感興趣的資料了。

在實際操作前，我們還要做一點研究和實驗，以幫助我們理解目標網頁的佈局結構，這樣就可提取出人感興趣的內容了。在這個具體的例子裡，我們試圖把這些url裡的主要的圖片取出來。我們可以先用瀏覽器開啟這些網頁，然後找到一個可以定位到這些圖片的方法，你可以用chrome開發者工具或直接看原始碼（比較難）可以具體的分離定位這些圖片，明白了麼？讓我們來看程式碼吧。

注意：請引用 squirrel.js

var cheerio = require("cheerio");
 
var url = "http://www.dailymail.co.uk/news/article-2297585/Wild-squirrels-pose-charming-pictures-photographer-hides-nuts-miniature-props.html"
 
download(url, function(data) {

  if (data) {

    //console.log(data);
 
    var $ = cheerio.load(data);

    $("div.artSplitter > img.blkBorder").each(function(i, e) {

        console.log($(e).attr("src"));

      });
 
    console.log("done");

  }

  else console.log("error");  
});

引入cheerio模組後，我們可以用之前寫好的download方法下載目標網頁的內容。一旦我們有了資料， cheerio.load方法就會把HTML內容解析成DOM物件並且可以像jquery css選擇器查詢那樣對這個DOM進行篩選，（注意：我把這個變數叫做$這樣就更像jquery了）。在目標網頁，我注意到這些圖片所在的div都有一個叫做 “artSplitter”的class, 而且這些圖片本身都有一個叫做”blkBorderf”的class。為了能將它們唯一的找到，我寫了一條css選擇器查詢語句

$("div.artSplitter > img.blkBorder")

這個語句會返回一個圖片物件列表。然後我們用each方法遍歷這些圖片然後把每一個圖片的src列印出來。效果還不錯。。。我們再來看另外一個例子，請引用 echo.js 原始碼。

var cheerio = require("cheerio");
 
var url = "http://www.echojs.com/";
 
download(url, function(data) {

  if (data) {

    // console.log(data);

    var $ = cheerio.load(data);

    $("article").each(function(i, e) {

      var link = $(e).find("h2>a");

      var poster = $(e).find("username").text();

      console.log(poster+": ["+link.html()+"]("+link.attr("href")+")");

    });

  }
});

在這個栗子裡，目標是echojs.com。我想把這個網頁上所有文章的連結抓取並以markdown的格式列印出來。首先我們用以下的語句把所有的artical節點都找到

$("article")

然後遍歷所有的節點，找到在h2下的a標籤用以下的語句

var link = $(e).find("h2>a");

同樣，我可以用以下語句找到文章作者的名字

var poster = $(e).find("username").text();

希望你能從這篇關於node.js和chreerio的文章中得到一些快樂吧。請大家移步 Cheerio documentation 獲取列多的資訊。

雖然它可能不是適用於所有大型的網頁抓取，但它絕對是一個強大的工具，尤其對於我們前端javascript jquery的開發來說。

原文地址：

http://www.storminthecastle.com/2013/08/25/use-node-js-to-extract-data-from-the-web-for-fun-and-profit/

爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
Node.js學習之路22——利用cheerio製作簡單的網頁爬蟲
2019-02-16
Node.js網頁爬蟲
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
IPIDEA大盤點，藉助網路爬蟲抓取資料的作用？
2023-04-27
Idea爬蟲
爬蟲抓取網路資料時經常遇到的六種問題
2022-06-11
爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲
爬蟲（6） - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用
2022-07-04
爬蟲網頁
網頁資料抓取之噹噹網
2020-12-21
網頁
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
網路爬蟲
2018-12-07
爬蟲
Python網路爬蟲第三彈《爬取get請求的頁面資料》
2018-09-14
Python爬蟲
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
網路爬蟲抓取邊界的法律與技術思考
2019-11-19
爬蟲
Python爬蟲新手教程：微醫掛號網醫生資料抓取
2019-07-20
Python爬蟲
Java爬蟲系列二：使用HttpClient抓取頁面HTML
2019-05-23
Java爬蟲HTTPclientHTML
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
網路爬蟲小偏方：robots.txt快速抓取網站的小竅門
2019-01-03
爬蟲網站
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
Python網路爬蟲 - Phantomjs, selenium/Chromedirver使用
2019-01-22
Python爬蟲JSChrome
使用 Kotlin DSL 編寫網路爬蟲
2024-03-26
Kotlin爬蟲
網路爬蟲怎麼使用ip代理
2021-09-11
爬蟲

[網路爬蟲]使用node.js cheerio抓取網頁資料

相關文章