puppeteer 是一個Chrome官方出品的headless Chrome node庫。它提供了一系列的API, 可以在無UI的情況下呼叫Chrome的功能, 適用於爬蟲、自動化處理等各種場景
根據官網上描述,puppeteer 具有以下作用:
- 生成頁面截圖和 PDF
- 自動化表單提交、UI 測試、鍵盤輸入等
- 建立一個最新的自動化測試環境。使用最新的 JavaScript 和瀏覽器功能,可以直接在最新版本的 Chrome 中執行測試。
- 捕獲站點的時間線跟蹤,以幫助診斷效能問題。
- 爬取 SPA 頁面並進行預渲染(即'SSR')
以下就來闡述 puppeteer 的這幾個作用
1.初始化專案
注: 這裡我們會使用到 es6/7 的新特性,所以用 typescript 來編譯程式碼
npm install puppeteer typescript @types/puppeteer
複製程式碼
tsconfig.json 配置如下:
{
"compileOnSave": true,
"compilerOptions": {
"target": "es5",
"lib": [
"es6", "dom"
],
"types": [
"node"
],
"outDir": "./dist/",
"sourceMap": true,
"module": "commonjs",
"watch": true,
"moduleResolution": "node",
"isolatedModules": false,
"experimentalDecorators": true,
"declaration": true,
"suppressImplicitAnyIndexErrors": true
},
"include": [
"./examples/**/*",
]
}
複製程式碼
puppeteer 模組提供一個方法啟動一個 Chromium 例項。
import * as puppeteer from 'puppeteer'
(async () => {
await puppeteer.launch()
})()
複製程式碼
上述程式碼通過 puppeteer 的 launch 方法生成一個 browser 例項,launch 方法可以接收一些配置項。較為常用的有:
- headless [boolean]: 是否以 headless 模式啟動瀏覽器
- slowMo [number]: 減緩 puppeteer 的操作。這樣就很方便的可以看到正在發生的事情
- args[Array[string]]: 要傳給瀏覽器例項的額外引數
2.生成頁面截圖
這裡我們以 example.com/為例
(async () => {
const browser = await puppeteer.launch(); //生成browser例項
const page = await browser.newPage(); //解析一個新的頁面。頁面是在預設瀏覽器上下文建立的
await page.goto("https://example.com/"); //跳轉到 https://example.com/
await page.screenshot({ //生成圖片
path: 'example.png'
})
})()
複製程式碼
在這裡需要注意的是,截圖預設擷取的是開啟網頁可視區的內容,如果要獲取完整的可滾動頁面的螢幕截圖,需要新增 fullPage: true
執行node dist/screenshot.js
,即可在根目錄下生成 example.png
puppeteer 預設將頁面大小設定為 800*600,可以通過page.setViewport()
來改變頁面大小。
不僅如此,puppeteer 還可以模擬手機
import * as puppeteer from "puppeteer";
import * as devices from "puppeteer/DeviceDescriptors";
const iPhone = devices["iPhone 6"];
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.emulate(iPhone);
await page.goto("https://baidu.com/");
await browser.close();
})();
複製程式碼
3.生成 pdf
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://example.com/");
await page.pdf({
displayHeaderFooter: true,
path: 'example.pdf',
format: 'A4',
headerTemplate: '<b style="font-size: 30px">Hello world<b/>',
footerTemplate: '<b style="font-size: 30px">Some text</b>',
margin: {
top: "100px",
bottom: "200px",
right: "30px",
left: "30px",
}
});
await browser.close();
})()
複製程式碼
執行 node dist/pdf.js
即可。
4.自動化表單提交, 輸入
在這裡我們模擬一下github的登入, 為了能更好的看到整個過程, 我們使用 headless: false
來關閉 headless 模式,看一下整個的登入流程
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto("https://github.com/login");
await page.waitFor(1000) //延遲1秒輸入
await page.type("#login_field", "賬號"); //立即輸入
await page.type("#password", "密碼", {
delay: 100
}) //模擬使用者輸入
await page.click("input[type=submit]"); //點選登入按鈕
})()
複製程式碼
執行node dist/login.js
5.站點時間線追蹤
可以很方便的使用 tracking.start
和 tracking.stop
建立一個可以在 chrome devtools 開啟的跟蹤檔案
(async () => {
const broswer = await puppeteer.launch();
const page = await broswer.newPage();
await page.tracing.start({
path: "trace.json"
});
await page.goto("https://example.com/");
await page.tracing.stop();
broswer.close();
})();
複製程式碼
執行 node dist/trace.js
會生成一個 trace.json 檔案, 然後我們開啟 chrome devtools -> Performance, 然後把該檔案直接拖進去即可。該功能便於我們對網站進行效能分析, 進而優化效能
6.爬蟲和 SSR
現在大多數開發用 react、vue、angular 來構建 SPA 網站, SPA 固有很多的優點, 比方開發速度快、模組化、元件化、效能優等。但其缺點還是很明顯的, 首先就是首屏渲染問題, 其次不利於 SEO, 對爬蟲不友好。
以 preview.pro.ant.design/#/dashboard… 為例, 我們點選右鍵, 檢視原始碼, 發現其 body 裡面只有 <div id="root"></div>
,假如想把門店銷售額排名情況給爬下來,存到資料庫進行資料分析(如下圖)
如 python
# -*- coding : UTF-8 -*-
from bs4 import BeautifulSoup
import urllib2
def spider():
html = urllib2.urlopen('https://preview.pro.ant.design/#')
html = html.read()
soup = BeautifulSoup(html, 'lxml')
print(soup.prettify())
if __name__ == '__main__':
spider()
複製程式碼
執行 python py/index.py
, 得到的結果如下圖:
nodejs
import axios from "axios";
(async () => {
const res = await axios.get("https://preview.pro.ant.design/#");
console.log(res.data);
})();
複製程式碼
執行node dist/node-spider.js
, 得到和上面例子一樣的結果。
puppeteer
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://preview.pro.ant.design/#");
console.log(await page.content());
})();
複製程式碼
執行node dist/spider.js
, 得到如下:
(async () => {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://preview.pro.ant.design/#");
const RANK = ".rankingList___11Ilg li";
await page.waitForSelector(RANK);
const res = await page.evaluate(() => {
const getText = (v, selector) => {
return v.querySelector(selector) && v.querySelector(selector).innerText;
};
const salesRank = Array.from(
document.querySelectorAll(".rankingList___11Ilg li")
);
const data = [];
salesRank.map(v => {
const obj = {
rank: getText(v, "span:nth-child(1)"),
address: getText(v, "span:nth-child(2)"),
sales: getText(v, "span:nth-child(3)")
};
data.push(obj);
});
return {
data
};
});
console.log(res);
await browser.close();
})();
複製程式碼
執行node dist/spider.js
, 得到如下:
此時,我們已經利用 puppeteer 把我們所需要的資料給爬下來了。
到此,我們就把 puppeteer 基本的功能點給實現了一遍,本文示例程式碼可在github上獲取。