利用NODEJS+Puppeteer實現伺服器儲存網頁為圖片和PDF

花間酒發表於2018-01-25

NodeJS伺服器網頁

本文適用於對docker，node有一定了解的童鞋

Puppeteer簡介

今年5月在github上建立的專案，屬於比較新的chromium無頭瀏覽器類庫。

Puppeteer在專案中的實際使用

基礎安裝

選用Puppeteer的主要原因有兩點，

1：GOOGLE官方維護，活躍度很高，個人覺得前途光明。
2：我們的產品在chrome上適配最好。目前最新版本是0.13.0，我們採用0.12.0版本，因0.13.0版本API做了一些變化無法滿足我們的需求。我們截圖時有如下兩個必須解決的場景
- 網站需要等待當前儀表盤所有查詢都完成才可以進行截圖操作
- 我們並不知道所有儀表盤發起的查詢會查詢多久結束

npm安裝puppeteer時會從google一個網站上下載chromium，因為牆的原因會下載失敗。我們採用的方式先設定環境變數

    set PUPPETEER_SKIP_CHROMIUM_DOWNLOAD=1
複製程式碼

阻止install的時候自動下載，然後手工下載chromium後通過docker build打包成一個基礎映象。我們在Dockerfile中From此映象，然後再做後續操作。

    npm instal puppeteer@0.12.0 --save
複製程式碼

現在可通過docker很快速的進行打包。最終打包後的image裡/usr/src/node/包含node程式碼及chromium目錄

基本操作

呼叫puppeteer

我們手動指定chromium目錄來執行。

   const browser = await puppteer.launch({
        args: ['--no-sandbox', '--disable-setuid-sandbox'],  // docker中執行需要加上這兩個args
        executablePath: 'chromium/chrome', // 基礎映象已將chromium複製到/usr/src/node/chromium目錄下
   });
複製程式碼

儲存圖片

通過URL開啟網站

   await page.goto(fullUrl, {
       waitUntil: 'networkidle',
       networkIdleTimeout: 15000,
       timeout: 240000
   });
複製程式碼

networkIdleTimeout: 15000引數代表當前頁面網路處於idle狀態至少15秒時導航完畢，避免匯出的截圖資料不全。
如果直接儲存整個頁面為圖片或PDF是很簡單的，有現成的API直接呼叫。但這次我們只將某一區域儲存為圖片，

    let rect = await page.evaluate(() => {
        const element = document.querySelector(
            '.class1'
        );  // 選擇包含指定class屬性的dom節點
        const { x, y, width, height } = element.getBoundingClientRect();
        return {
            left: x,
            top: y,
            width,
            height,
        };
    });
    await page.screenshot({
        path: imagePath,
        clip: {
            x: rect.x,
            y: rect.y,
            width: actualWidth,
            height: actualHeight
        }
    });
複製程式碼

可以在page.evaluate中操作頁面元素，所以可以獲取指定區域的長寬等資訊。這樣我們只需擷取那一區域即可。完整的API地址還是請參閱github官方API文件

儲存PDF

如上節所說，如果儲存整個頁面為PDF很簡單，因為我們只儲存某一區域，然而儲存pdf的API中沒有類似page.screenshot中clip引數，我的處理方式就是將上一步儲存的圖片轉為PDF即可。轉換方式很多，我採用pdfkit類庫實現。程式碼就不贅述，可以參考很多DEMO。

總結

因為我們通過docker+CICD+devops打包部署node服務，puppeteer在docker中也有一些坑，好在官方給出了一系列解決方案。我在實際使用中還是偶爾發生頁面載入失敗的情況，期望在未來版本會變得更加強大和穩定。

利用Qt將網頁儲存為PDF
2014-11-14
QT網頁
js實現的將網頁儲存為圖片簡單解釋介紹
2017-03-29
JS網頁
基於html2canvas實現網頁儲存為圖片及圖片清晰度優化
2017-10-09
HTMLCanvas網頁優化
Delphi儲存網頁中的圖片
2013-12-10
網頁
將網頁儲存為圖片形式程式碼例項
2017-03-31
網頁
使用Python實現網頁中圖片的批次下載和水印新增儲存
2023-10-12
Python網頁
在vue專案中基於html2canvas實現網頁儲存為圖片
2018-12-18
VueHTMLCanvas網頁
使用JavaScript將當前頁面儲存成PDF，支援圖片和文字的儲存
2018-09-10
JavaScript
儲存好的圖片轉為pdf，告訴你手機和電腦分別怎麼實現
2021-02-03
Acrobat怎麼批量儲存PDF小圖片？adobe Acrobat一鍵儲存pdf小圖片的技巧
2022-05-16
BAT
Acrobat怎麼批次儲存PDF小圖片？adobe Acrobat一鍵儲存pdf小圖片的技巧
2022-05-16
BAT
使用canvas儲存網頁為pdf檔案支援跨域
2018-11-22
Canvas網頁跨域
微信長按網頁儲存為截圖
2018-04-27
網頁
iOS實現點選圖片放大&長按儲存圖片
2018-03-06
iOS
前端js儲存頁面為圖片下載到本地
2020-10-27
前端JS
C#實現 word、pdf、ppt 轉為圖片
2015-09-01
C#
微信H5實現網頁長按儲存圖片及識別二維碼
2018-08-19
H5網頁
iOS儲存網路圖片和讀取本地沙盒圖片
2016-06-24
iOS
微信H5頁儲存當前頁面為圖片踩坑
2017-11-27
H5
php實現pdf轉圖片
2022-06-07
PHP
小程式–儲存圖片到相簿功能實現
2018-11-30
office轉pdf和圖片實現線上預覽
2017-01-19
使用Java實現在SQLserver中實現圖片的儲存
2008-04-22
JavaSQLServer
C# 截圖並儲存為圖片
2024-04-16
C#
儲存圖片
2024-05-23
js實現canvas儲存圖片為png格式並下載到本地
2018-05-22
JSCanvas
將網站儲存成圖片
2016-12-11
網站
MultipartFile上傳圖片儲存伺服器
2020-11-27
伺服器
分割pdf為圖片
2024-05-30
Java圖片剪裁併儲存的程式碼實現
2014-12-29
Java
深入解析微信小程式頁面中實現的儲存圖片（附程式碼）
2021-09-11
微信小程式
java+pgsql實現儲存圖片到資料庫，以及讀取資料庫儲存的圖片
2020-11-13
JavaSQL資料庫
Activiti 儲存圖片
2014-09-10
將HTML5 Canvas的內容儲存為圖片藉助toDataURL實現
2016-04-12
HTMLCanvas
利用百度AI OCR圖片識別，Java實現PDF中的圖片轉換成文字
2019-07-22
AIJava
一次 H5 「儲存頁面為圖片」的踩坑之旅
2017-12-04
H5
用PHP和MySQL儲存和輸出圖片
2022-05-10
PHPMySql
利用 canvas 實現圖片壓縮
2018-07-15
Canvas