基於Chrome的Easy Scraper外掛抓取網頁

PetterLiu發表於2024-04-06

原文網址 : https://www.cnblogs.com/wintersun/p/18117318

背景

爬蟲程式，又稱為網路爬蟲或爬蟲（spider），是一種自動化程式，主要用於向網站或網路發起請求，獲取資源後分析並提取有用資料。從技術層面來看，爬蟲程式透過模擬瀏覽器請求站點的行為，把站點返回的HTML程式碼、JSON資料、二進位制資料（如圖片、影片）爬取到本地，進而提取並儲存自己需要的資料。

爬蟲程式的工作原理主要包括以下幾個步驟：

1. 網頁請求：爬蟲首先需要確定要爬取的目標網址，並選擇合適的請求方法（如GET或POST）。爬蟲還可以設定請求頭部資訊，模擬瀏覽器的請求，以避免被網站的反爬蟲機制攔截。一旦傳送了請求，爬蟲就會等待伺服器的響應，獲取網頁的內容。
2. 資料解析：爬蟲獲取到網頁內容後，需要對這些內容進行解析。網頁通常是使用HTML、XML或JSON等標記語言編寫的，爬蟲需要根據網頁的結構和規則，提取出需要的資料。爬蟲還可以使用正規表示式來匹配和提取特定的資料。在解析網頁的過程中，爬蟲還可以進行資料清洗和處理，以獲取更加乾淨和規範的資料。
3. 資料儲存：爬蟲將解析後的資料進行儲存，可以存放在資料庫或檔案中，以便後續使用和分析。

爬蟲程式的應用非常廣泛，例如：

1. 獲取網頁原始碼，便於進行進一步的分析和處理。
2. 對資料進行篩選和提取，獲取有用的資訊，如商品價格、新聞內容等。
3. 儲存資料，將爬取到的資料儲存起來，供後續使用或分析。
4. 進行資料分析和調研，透過對爬取到的資料進行統計和分析，可以瞭解市場趨勢、使用者行為等資訊。

需要注意的是，爬蟲程式的使用需要遵守相關法律法規和網站的robots協議，不得進行惡意爬取或侵犯他人權益的行為。同時，對於大型網站或需要頻繁爬取的場景，還需要考慮如何避免對網站造成過大的負擔，以及如何處理反爬蟲機制等問題。

實踐

1. 抓取列表

我們今天實踐一個基於Chrome的Easy Scraper爬蟲外掛，先抓取列表

下載的JSON如下，CSV類似

2. 抓取詳情頁

先把收集的URL列表，儲存為csv

上傳

下一步有一個預覽視覺化抓取區域

第三階段就可以開始抓取了

抓取結果40個URL， 1分:25秒

包含中文的csv檔案，需要手動轉換 UTF-8 BOM格式，EXCEL開啟效果。

總結

總體操作比較方便，相比寫程式抓取省不時間。抓取速度較慢，但剛才符合網站防止爬取的特性。更多參考

今天先到這兒，希望對雲原生，技術領導力，企業管理，系統架構設計與評估，團隊管理, 專案管理, 產品管管，團隊建設有參考作用 , 您可能感興趣的文章:
領導人怎樣帶領好團隊
構建創業公司突擊小團隊
國際化環境下系統架構演化
微服務架構設計
影片直播平臺的系統架構演化
微服務與Docker介紹
Docker與CI持續整合/CD
網際網路電商購物車架構演變案例
網際網路業務場景下訊息佇列架構
網際網路高效研發團隊管理演進之一
訊息系統架構設計演進
網際網路電商搜尋架構演化之一
企業資訊化與軟體工程的迷思
企業專案化管理介紹
軟體專案成功之要素
人際溝通風格介紹一
精益IT組織與分享式領導
學習型組織與企業
企業創新文化與等級觀念
組織目標與個人目標
初創公司人才招聘與管理
人才公司環境與企業文化
企業文化、團隊文化與知識共享
高效能的團隊建設
專案管理溝通計劃
構建高效的研發與自動化運維
某大型電商雲平臺實踐
網際網路資料庫架構設計思路
IT基礎架構規劃方案一(網路系統規劃)
餐飲行業解決方案之客戶分析流程
餐飲行業解決方案之採購戰略制定與實施流程
餐飲行業解決方案之業務設計流程
供應鏈需求調研CheckList
企業應用之效能實時度量系統演變

如有想了解更多軟體設計與架構, 系統IT,企業資訊化, 團隊管理資訊，請關注我的微信訂閱號：

image_thumb2_thumb_thumb

作者：Petter Liu
出處：http://www.cnblogs.com/wintersun/
本文版權歸作者和部落格園共有，歡迎轉載，但未經作者同意必須保留此段宣告，且在文章頁面明顯位置給出原文連線，否則保留追究法律責任的權利。該文章也同時釋出在我的獨立部落格中-Petter Liu Blog。

chrome-網頁gif截圖外掛
2024-08-22
Chrome網頁
Dcat-Easy-Sku （基於 Dcat Admin 的Sku外掛）
2020-12-31
[禁止chrome頁面翻譯程式碼塊]chrome外掛
2021-03-18
Chrome
基於Chrome外掛實現支援CORS的本地開發代理
2019-03-03
ChromeCORS
Chrome 瀏覽器外掛獲取網頁 window 物件（方案三）
2024-09-05
Chrome瀏覽器網頁物件
好用的chrome外掛
2019-03-29
Chrome
基於 Github API 的圖床 Chrome 外掛開發全紀錄
2019-05-09
GithubAPI圖床Chrome
網頁影片下載外掛FetchV，支援Chrome/Edge/FireFox瀏覽器
2024-05-25
網頁ChromeFirefox瀏覽器
chrome 小外掛
2018-07-06
Chrome
Chrome外掛—CSDN部落格頁面優化神器
2018-11-03
Chrome優化
VSCode配置 Debugger for Chrome外掛（終於搞定了..）
2020-11-29
VSCodeChrome
45種用於前端測試的Chrome外掛工具
2022-03-08
前端Chrome
用於前端QA測試的十二種chrome外掛
2022-04-15
前端Chrome
用於前端開發的十種高效Chrome外掛
2020-12-06
前端Chrome
Chrome外掛入門
2019-01-28
Chrome
Chrome外掛推薦
2019-03-15
Chrome
chrome 外掛開發
2024-07-20
Chrome
chrome擴充-chrome外掛-強制copy
2024-03-21
Chrome
Web Scraper如何翻頁
2018-12-14
Web
強烈推薦的 Chrome 外掛
2019-01-23
Chrome
常用chrome外掛推薦
2018-08-23
Chrome
Chrome外掛開發教程
2021-09-25
Chrome
聊天富文字外掛，一個基於react的富文字外掛
2024-05-14
React
基於Ruby的Burpsuite外掛開發
2020-08-19
UI
基於hanlp的es分詞外掛
2019-07-01
HanLP分詞
基於 Rainbond 的 Pipeline(流水線)外掛
2023-03-06
AI
使用代理抓取網頁的原因
2021-09-11
網頁
可以對任何網址進行留言討論的Chrome外掛
2022-01-07
Chrome
Chrome外掛——Markdown編輯器
2019-01-12
Chrome
Chrome安裝json view外掛
2019-01-17
ChromeJSONView
Web前端開發Chrome外掛
2018-07-18
Web前端Chrome
吐血推薦 Chrome 外掛（一）
2021-09-09
Chrome
blazor wasm開發chrome外掛
2021-11-15
BlazorASMChrome
Chrome外掛開發入門
2021-04-18
Chrome
利用SelectPdf外掛將網頁生成PDF
2020-10-26
網頁
Stacks網頁佈局製作外掛
2021-12-02
網頁
mybatis generator外掛系列--分頁外掛
2018-09-17
MyBatis
基於 HanLP 的 ES 中文分詞外掛
2018-12-23
HanLP中文分詞

基於Chrome的Easy Scraper外掛抓取網頁

背景

實踐

總結

相關文章