基於Chrome的Easy Scraper外掛抓取網頁

PetterLiu發表於2024-04-06

背景

爬蟲程式,又稱為網路爬蟲或爬蟲(spider),是一種自動化程式,主要用於向網站或網路發起請求,獲取資源後分析並提取有用資料。從技術層面來看,爬蟲程式透過模擬瀏覽器請求站點的行為,把站點返回的HTML程式碼、JSON資料、二進位制資料(如圖片、影片)爬取到本地,進而提取並儲存自己需要的資料。

爬蟲程式的工作原理主要包括以下幾個步驟:

1. 網頁請求:爬蟲首先需要確定要爬取的目標網址,並選擇合適的請求方法(如GET或POST)。爬蟲還可以設定請求頭部資訊,模擬瀏覽器的請求,以避免被網站的反爬蟲機制攔截。一旦傳送了請求,爬蟲就會等待伺服器的響應,獲取網頁的內容。
2. 資料解析:爬蟲獲取到網頁內容後,需要對這些內容進行解析。網頁通常是使用HTML、XML或JSON等標記語言編寫的,爬蟲需要根據網頁的結構和規則,提取出需要的資料。爬蟲還可以使用正規表示式來匹配和提取特定的資料。在解析網頁的過程中,爬蟲還可以進行資料清洗和處理,以獲取更加乾淨和規範的資料。
3. 資料儲存:爬蟲將解析後的資料進行儲存,可以存放在資料庫或檔案中,以便後續使用和分析。

爬蟲程式的應用非常廣泛,例如:

1. 獲取網頁原始碼,便於進行進一步的分析和處理。
2. 對資料進行篩選和提取,獲取有用的資訊,如商品價格、新聞內容等。
3. 儲存資料,將爬取到的資料儲存起來,供後續使用或分析。
4. 進行資料分析和調研,透過對爬取到的資料進行統計和分析,可以瞭解市場趨勢、使用者行為等資訊。

需要注意的是,爬蟲程式的使用需要遵守相關法律法規和網站的robots協議,不得進行惡意爬取或侵犯他人權益的行為。同時,對於大型網站或需要頻繁爬取的場景,還需要考慮如何避免對網站造成過大的負擔,以及如何處理反爬蟲機制等問題。

實踐

1. 抓取列表

我們今天實踐一個基於Chrome的Easy Scraper爬蟲外掛,先抓取列表

image

下載的JSON如下,CSV類似

image

2. 抓取詳情頁

先把收集的URL列表,儲存為csv

image

上傳

image

下一步有一個預覽視覺化抓取區域

image


第三階段就可以開始抓取了

image

抓取結果40個URL, 1分:25秒

image

包含中文的csv檔案,需要手動轉換 UTF-8 BOM格式,EXCEL開啟效果。

image

總結

總體操作比較方便,相比寫程式抓取省不時間。抓取速度較慢,但剛才符合網站防止爬取的特性。更多參考



今天先到這兒,希望對雲原生,技術領導力, 企業管理,系統架構設計與評估,團隊管理, 專案管理, 產品管管,團隊建設 有參考作用 , 您可能感興趣的文章:
領導人怎樣帶領好團隊
構建創業公司突擊小團隊
國際化環境下系統架構演化
微服務架構設計
影片直播平臺的系統架構演化
微服務與Docker介紹
Docker與CI持續整合/CD
網際網路電商購物車架構演變案例
網際網路業務場景下訊息佇列架構
網際網路高效研發團隊管理演進之一
訊息系統架構設計演進
網際網路電商搜尋架構演化之一
企業資訊化與軟體工程的迷思
企業專案化管理介紹
軟體專案成功之要素
人際溝通風格介紹一
精益IT組織與分享式領導
學習型組織與企業
企業創新文化與等級觀念
組織目標與個人目標
初創公司人才招聘與管理
人才公司環境與企業文化
企業文化、團隊文化與知識共享
高效能的團隊建設
專案管理溝通計劃
構建高效的研發與自動化運維
某大型電商雲平臺實踐
網際網路資料庫架構設計思路
IT基礎架構規劃方案一(網路系統規劃)
餐飲行業解決方案之客戶分析流程
餐飲行業解決方案之採購戰略制定與實施流程
餐飲行業解決方案之業務設計流程
供應鏈需求調研CheckList
企業應用之效能實時度量系統演變

如有想了解更多軟體設計與架構, 系統IT,企業資訊化, 團隊管理 資訊,請關注我的微信訂閱號:

image_thumb2_thumb_thumb

作者:Petter Liu
出處:http://www.cnblogs.com/wintersun/
本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段宣告,且在文章頁面明顯位置給出原文連線,否則保留追究法律責任的權利。 該文章也同時釋出在我的獨立部落格中-Petter Liu Blog。

相關文章