利用node.js獲取頁面中的所有超連結<a>

admin發表於2017-03-24

在實際應用中可能要獲取頁面中的所有超連結,這樣的需求可能不多,但是肯定會有,進行這樣操作的目的不是我們們關注的重點,下面就通過程式碼介紹一下如何利用node.js實現此功能。

程式碼如下:

[JavaScript] 純文字檢視 複製程式碼
var http = require('http');
//定義函式
var getAHref=function(htmlstr){
  var reg=/<a.+?href=('|")?([^'"]+)('|")?(?:\s+|>)/gim;
  var arr=[];
  while(tem=reg.exec(htmlstr)){
    arr.push(tem[2]);
  }
  return arr;
}
var qHref="http://softwhy";//設定被查詢的目標網址
var req=http.get(qHref,function(res){
  var pageData="";
  res.setEncoding('utf8');
  res.on('error', function (errget) {
    //出錯處理
  });
  res.on('data',function(chunk){
    pageData+=chunk;
  });
  res.on('end', function(){
    //console.dir(pageData);
    var content = pageData;//獲取到網頁內容
    var hrefs=getAHref(content);//獲取連結
  });
});

相關文章