從零開始寫一個node爬蟲(一)

azothzzz發表於2019-04-09

原文網址 : https://juejin.im/post/5cac97ec6fb9a068b47b5a79

目錄結構

controller
- spider.js // 封裝的spider方法
index.js // 專案入口

index.js

var cheerio = require("cheerio");
var server = require("./controller/spider");

// var url = "http://v.163.com/special/opencourse/englishs1.html";
var url = 'http://zwbk.com/';
server.fetchData(url, function(data) {
  if (data) {
    //console.log(data);

    var $ = cheerio.load(data);
    $("a").each(function(i, e) {
      console.log(1111);
    });

    console.log("done");
  } else {
    console.log("error");
  }
});
複製程式碼

spider.js

var http = require("http");
var fetchData = function (url, callback) {
  http.get(url, function(res) {
    var data = "";
    res.on('data', function (chunk) {
      data += chunk;
    });
    res.on("end", function() {
      callback(data);
    });
  }).on("error", function() {
    callback(null);
  });
}
exports.fetchData = fetchData;
複製程式碼

執行node index.js,發現只輸出了一個done,猜測可能是做了反爬蟲，在網上隨便找了一個域名，執行後果然有了輸出。為了解決這個問題，我引入了superAgent來傳送請求，superAgent可以很方便的模擬瀏覽器的一些屬性，例如refer，請求頭等...還有個好處是superAgent可以直接抓取https的頁面.

現在講地址替換成https://github.com/azoth1991,已經可以抓到頁面內容了

$("a").each(function(i, e) {
  console.log(i,e.attribs.href);
});

0 '#start-of-content'
1 'https://github.com/'
2 '/features'
3 '/features/code-review/'
4 '/features/project-management/'
5 '/features/integrations'
6 '/features/actions'
7 '/features#team-management'
8 '/features#social-coding'
9 '/features#documentation'
10 '/features#code-hosting'
11 '/customer-stories'
12 '/security'
13 '/enterprise'
14 '/explore'
...
    
複製程式碼

倉庫地址歡迎star ^_^

待續...

從零開始寫一個node爬蟲（上）—— 資料採集篇
2021-09-09
爬蟲
從零開始，如何用puppeteer寫一個爬蟲指令碼
2018-08-17
爬蟲指令碼
從零開始的爬蟲專案（一）
2020-04-23
爬蟲
從零開始寫一個Exporter
2019-06-25
Export
從零開始仿寫一個抖音App——開始
2018-07-18
APP
【從零開始學爬蟲】建立模板
2023-01-06
爬蟲
從零開始編寫一個babel外掛
2019-03-04
Babel
從零開始寫一個Javascript解析器
2018-03-09
JavaScript
從零開始：用REACT寫一個格鬥遊戲(一)
2019-02-28
React遊戲
Cursor 寫一個 Flutter Unsplash 桌布工具 | 從零開始
2024-10-31
Flutter
從零開始寫一個微前端框架-沙箱篇
2021-08-04
前端框架
《從零開始學Python網路爬蟲》概要
2018-08-29
Python爬蟲
從零開始開發一個 Webpack
2018-07-12
Web
從零開始手寫一個微前端框架-渲染篇
2021-08-03
前端框架
從零開始開發一個Node互動式命令列應用
2019-03-05
命令列
PYTHON系列-從零開始的爬蟲入門指南
2018-09-16
Python爬蟲
【從零開始學爬蟲】對任務的操作
2022-12-07
爬蟲
從零開始：用REACT寫一個格鬥遊戲(二)
2019-02-16
React遊戲
從零開始編寫一個 Python 非同步 ASGI WEB 框架
2023-10-27
Python非同步Web框架
【從零開始擼一個App】PKCE
2020-08-28
APP
【從零開始擼一個App】Kotlin
2020-10-10
APPKotlin
從零開始實現一個RPC框架（零）
2019-03-03
RPC框架
從零開始實現一個RPC框架（一）
2019-03-10
RPC框架
【從零開始學爬蟲】模板的高階選項
2023-01-06
爬蟲
從零開發一個node命令列工具
2019-06-05
命令列
一起學習造輪子（二）：從零開始寫一個Redux
2018-06-21
Redux
[AST實戰]從零開始寫一個wepy轉VUE的工具
2019-03-15
ASTVue
從零開始寫一個微前端框架-資料通訊篇
2021-08-06
前端框架
從零開始寫一個微前端框架-樣式隔離篇
2021-08-05
前端框架
從零開始完成一個Android JNI開發
2019-01-16
Android
從零開始搭建一個 hexo 部落格。
2018-12-12
Hexo
從零開始搭建一個mock服務
2018-05-11
Mock
從零開始搭建一個vue專案
2018-03-08
Vue
從零開始設計一個部落格
2021-01-11
【從零開始學爬蟲】模板的複製與貼上
2023-01-06
爬蟲
我的第一篇部落格（從爬蟲開始）
2020-09-29
爬蟲
從零開始仿寫一個BiliBili客戶端之編譯ijkplayer
2019-04-29
客戶端編譯
如何編寫一個Perl爬蟲程式
2023-11-14
爬蟲

從零開始寫一個node爬蟲(一)

目錄結構

index.js

spider.js

相關文章