Laravel 中使用 puppeteer 採集非同步載入的網頁內容

田勇發表於2018-04-22

原文網址 : https://learnku.com/articles/10235/using-laravel-to-collect-asynchronous-loading-web-pages-in-puppeteer?order_by=created_at&

Laravel非同步網頁

cover

採集網頁內容是一項很常見的需求，比較傳統的靜態頁面，curl 就能搞定。但如果頁面中有動態載入的內容，比如有些頁面裡透過 ajax 載入的文章正文內容，又如果有些頁面載入完成後進行了一些額外處理（圖片地址替換等等……）而你想採集這些處理過後的內容。那麼牛逼閃閃的 curl 也束手無策了。

做過類似需求的人可能會說，老鐵，上 PhantomJS 啊！

沒錯，這是一個辦法，而且在相當長的時間裡 PhantomJS 是為數不多的能解決這類需求的工具裡的佼佼者。

但今天這裡要介紹的是一個後來居上的工具 -- puppeteer，它是隨著 Chrome Headless 技術興起而快速發展起來的。而且非常關鍵的是，puppeteer 由 Chrome 的官方團隊開發和維護，可以說相當靠譜了！

puppeteer 是一個 js 包，要想在 Laravel 中使用，得藉助於另一神器spatie/browsershot。

安裝

安裝 spatie/browsershot

browsershot 是一個 composer 包，出自於大神團隊 spatie

$ composer require spatie/browsershot

安裝 puppeteer

$ npm i puppeteer --save

也可以全域性安全 puppeteer 但就個人經驗而言，在專案中安裝是比較推薦的做法，因為這樣不同專案不會同時受全域性安裝的 puppeteer 影響，此外專案中安裝也方便使用 phpdeployer 進行升級（phpdeploy 升級時不會影響線上專案執行，要知道升級/安裝 puppeteer 可是很費時的，有時候還不能保證一次成功）。

安裝 puppeteer 時會下載 Chromium-Browser，鑑於我們特殊國情，很有可能出現無法下載的情況，對此，就請大家各顯神通吧……

使用

以採集今日頭條手機版頁面文章內容為例。

use Spatie\Browsershot\Browsershot;

public function getBodyHtml()
{
    $newsUrl = 'https://m.toutiao.com/i6546884151050502660/';

    $html = Browsershot::url($newsUrl)
        ->windowSize(480, 800)
        ->userAgent('Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36')
        ->mobile()
        ->touch()
        ->bodyHtml();

    \Log::info($html);
}

執行後可以在日誌中看到如下內容（截圖中只是其中部分）

此外，也可以將頁面儲存為圖片或 PDF 檔案。

use Spatie\Browsershot\Browsershot;

public function getBodyHtml()
{
    $newsUrl = 'https://m.toutiao.com/i6546884151050502660/';

    Browsershot::url($newsUrl)
        ->windowSize(480, 800)
        ->userAgent('Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36')
        ->mobile()
        ->touch()
        ->setDelay(1000)
        ->save(public_path('images/toutiao.jpg'));
}

圖片裡那些框與系統字型有關。程式碼中使用了一個 setDelay() 方法，是為了讓內容載入完成後再進行截圖，簡單粗暴，可能不是最好的解決辦法。

可能出現的問題

系統得支援 Chromium 瀏覽器，當然現在絕大部分瀏覽器是支援的，要不然也沒法，還是用 PhantomJS 吧。
專案中安裝了 puppeteer 後呼叫時有可能出現許可權問題，這就需要對專案下 /node_modules/puppeteer 目錄賦予適當的許可權。

總結

puppeteer 被應用於測試、採集等場景，是一個非常有力的工具。對於輕度的採集任務，是夠用的，比如本文這類在 Laravel (php) 裡來用採集一些小頁面，但如果需要快速採集大量內容，還是 Python 啥的吧。:smile:

本作品採用《CC 協議》，轉載必須註明作者和本文連結

如何使用ScrapySharp下載網頁內容
2023-12-25
網頁
Python採集某網站內容, m3u8內容下載
2022-05-31
Python網站
使用了`wreq`庫來下載網頁內容
2023-11-01
網頁
scrapy-redis非多網址採集的使用
2021-01-29
Redis
從網頁匯入到SuperMemo的內容，間中的影像將被同步下載到程式的“Temp”資料夾...
2018-10-12
網頁
爬取Elastic Stack採集的Nginx內容
2023-11-07
ASTNginx
Laravel 配合 puppeteer 抓取 SPA 頁面
2020-02-17
Laravel
修改網頁內容的方法
2024-10-07
網頁
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
例項：使用puppeteer headless方式抓取JS網頁
2018-05-08
JS網頁
在非 laravel 專案中使用 laravel 的特性 8: 分頁 pagination
2021-02-24
Laravel
網頁設計內容網頁中關於圖片預覽的設計
2019-01-14
網頁
如何讓Safari網頁中的內容更易於閱讀
2020-10-24
網頁
網站主網頁修改，如何更新網站主頁內容
2024-12-06
網站網頁
國內五大主流網站內容抓取工具/採集軟體大盤點
2018-12-12
網站
純CSS如何禁止使用者複製網頁的內容？
2022-05-25
CSS網頁
Python 爬取網頁中JavaScript動態新增的內容（一）
2018-09-28
Python網頁JavaScript
Python 爬取網頁中JavaScript動態新增的內容（二）
2018-09-28
Python網頁JavaScript
Puppeteer爬取網頁資料
2019-03-22
網頁
PHP使用QueryList採集微信文章頁
2019-02-16
PHP
網頁效能優化之非同步載入js檔案
2018-10-22
網頁優化非同步JS
提取動態html網頁內容
2018-09-06
HTML網頁
ajax實現頁面非同步載入
2020-11-15
非同步
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
Laravel Eloquent中的懶載入VS即時載入
2019-02-16
Laravel
使用selenium和phantomJS瀏覽器獲取網頁內容的小演示
2019-01-14
JS瀏覽器網頁
如何完美地處理JavaScript渲染頁面中的非同步載入？
2023-10-12
JavaScript非同步
圖片的採集自動同步方案
2024-08-02
採購中的總擁有成本（TCO）包括哪些內容？
2023-05-10
Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
網頁內容只是寫給訪客看的嗎？
2020-04-23
網頁
怎麼更改網頁上的內容並儲存
2024-10-07
網頁
小程式列表頁上滑載入更多配合 Laravel 分頁
2020-07-05
Laravel
5月7日——採用第三方頁面內容，但是頂部title使用自己的
2020-04-07
使用ln同步檔案內容,支援忽略檔案
2020-12-19
在非 laravel 專案中使用 laravel 的特性
2021-02-23
Laravel
網站頁面內的內容結構怎樣佈局才合理？
2021-01-03
網站
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁

Laravel 中使用 puppeteer 採集非同步載入的網頁內容

安裝

使用

可能出現的問題

總結

相關文章