想用 nodejs
抓取一些網頁 , 我第一反應想到的就是使用 http
模組 , 比如抓取百度首頁:
var http = require(`http`);
var req = http.request(`http://www.baidu.com/`, function (res) {
res.setEncoding(`utf8`);
res.on(`data`, function (chunk) {
//響應內容
console.log(chunk)
});
});
req.end(function () {
// console.log(`連線關閉`);
});
但是 , 這僅限於簡單地抓取 html , 有很大的侷限性。
假如你想要的內容不在 html 裡 , 而是 js 動態生成的 , 那 http 模組就不能滿足你的需求了 ;
假如網頁使 gbk 編碼的 , 上述方法也不太好用了。
假如是 https 上述方法也要改一改了。
我渴望一個更強大 , 但使用起來也不麻煩的工具。
PhantomJs
用 PhantomJs
就可以解決上述問題。
PhantomJs 就是一個沒有介面的瀏覽器。
安裝
使用 cnpm
安裝 PhantomJS 即可:
cnpm install phantomjs --save-dev
這裡我沒有選擇全域性安裝 , 因為全域性安裝的話 , 別人使用我的原始碼的時候 , 不知道還有這麼一個依賴 , 專案就跑不起來了。
如果你也選擇區域性安裝 , 那麼你需要在 package.json 裡的 scripts 中加入一段 :
"phantomjs":"node_modules/.bin/phantomjs"
等下會用到這個的 , 到這裡 , 安裝算完成了。
寫程式碼
我們新建一個檔案 , 名字隨意 , 這裡我新建一個 main.js
:
var webpage = require(`webpage`);
var page = webpage.create();
page.open(`http://www.baidu.com/`, function (status) {
var data;
if (status === `fail`) {
console.log(`open page fail!`);
} else {
console.log(page.content);//列印出HTML內容
}
page.close();//關閉網頁
phantom.exit();//退出phantomjs命令列
});
這裡有個 webpage
模組 , 我們剛才明明沒有這個模組 , 為什麼能引用這個模組 ???
當然不能引用 , 假如我們使用 node main.js
來跑這段程式碼 , 是跑不起來的 , 應該這樣執行這段程式碼 :
npm run phantomjs main.js
這裡的 npm run phantomjs
對應的就是前面我們在 package.json
里加入的那段命令 , 很方便吧 , 幾乎和 http 模組一樣方便。
page.content
就是 html 程式碼了 , 這個 page 物件還有很多的屬性 , 功能更強大。
到這裡 , 你就已經算入門了 , 想知道更多可以去 phantomjs
官網看看文件了。