Web Scraper工作原理

王平發表於2018-12-13

原文網址 : https://www.yuanrenxue.com/tricks/web-scraper-principle-1.html

上一篇老猿配置了一個簡單的Sitemap讓它執行起來，看官們跟著操作一遍，不知道對Web Scraper有沒有一個整體的認知和印象。本篇我們聊一下Web Scraper的工作原理和上一篇裡每步操作是什麼意思。

還沒看上一篇，先閱讀一下，因為本篇是結合到上篇的操作例子來講的。Web Scraper簡單配置方法

Web Scraper的組成

Web Scraper是靠sitemap裡配置的抓取規則來指揮如何抓取資料的。一個sitemap裡由“Start URL” 和多個巢狀”Selector”(通常有Link selector和Text selector)組成。如下圖：

web-scraper-sitemap的組成

“Start URL”就是要抓取資料的入口URL。比如你要抓新浪體育新聞，那麼入口URL就是 sports.sina.com.cn；要抓知乎旅行話題裡面的帖子，入口就是zhihu.com/topic/19551556/hot 。Start URL就是網站裡面的列表頁/頻道頁，該頁面下有很多連結(URL)。Web Scraper就是從這個入口開始抓取資料的。

Web Scraper的執行邏輯

我們再來看上圖，Web Scraper先訪問Start URL，把Start URL的頁面抓下來，靠我們寫的Link Selector把頁面裡面的連結抽出來，(所以叫Link selector)，連結抽出來後，Web Scraper就挨個訪問這些連結（這些連結是每個詳細頁面)，然後靠我們寫的Text Selector把詳細頁裡的文字資訊抽出來。
它會自己迴圈做這個事情，直到所有的頁面抓完，抓完後會顯示Finish字樣，這時就可以選擇 Export Data as CSV 把資料匯出到本地。

那麼Web Scraper是如何知道哪個頁面該用Link Selector 還是 Text Selector呢？
你回到上一篇文章，看我們新增Selector時是有巢狀關係的，我們填完Start URL後就新增了一個Link Selector，告訴它 Start URL的頁面用Link Selector來抽取，新增完後，我們點選進入了剛新增的Link Selector，然後在裡面新增的Text Selector，是告訴它抽取內容資訊時用這個selector，這是巢狀關係的，也可以叫做父子節點關係。

Web Scraper的工作原理大致就是這樣，總結一下：
抓取時需要一個入口地址，Web Scraper就順著這個地址一層一層的往下抓，然後靠著我們寫的各種selector來抽取資料，直到所有的連結都抓完。寫selector的時候要注意巢狀關係。
看起來還是挺簡單的吧。我們用了兩篇來操作演示和解釋Web Scraper的原理，實際上簡化了很多，後面的幾篇老猿會寫一些更詳細，更細節的東西。

Web Scraper系列文章：

Web Scraper教程

Web Scraper配置方法

Web Scraper如何翻頁

我的公眾號：猿人學 Python 上會分享更多心得體會，敬請關注。

***版權申明:若沒有特殊說明，文章皆是猿人學 yuanrenxue.com 原創，沒有猿人學授權，請勿以任何形式轉載。***

web scraper
2021-05-16
Web
Web Scraper教程
2018-12-11
Web
Web Scraper如何翻頁
2018-12-14
Web
Web Scraper簡單配置方法
2018-12-12
Web
瀏覽器工作原理及web 效能優化（上）
2018-08-16
瀏覽器Web優化
Web伺服器的工作原理及其相關協議
2019-02-21
Web伺服器協議
Web伺服器的工作原理及其相關協議-VeCloud
2020-10-23
Web伺服器協議Cloud
web 如何工作
2018-04-19
Web
如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案
2019-01-12
Web
KubernetesAPIserver工作原理
2018-11-21
APIServer
Mybatis工作原理
2018-10-09
MyBatis
require工作原理
2018-08-24
UI
HTTPS工作原理
2018-07-17
HTTP
Nginx工作原理
2023-10-30
Nginx
pr工作原理
2024-06-07
SpringMVC工作原理
2020-12-18
SpringMVC
Web前端效能優化_CDN(內容釋出網路)、CDN工作原理
2020-10-08
Web前端優化
JavaScript 工作原理之七－Web Workers 分類及 5 個使用場景
2019-02-16
JavaScriptWeb
單頁面 Web 應用(Single Page Application，SPA)的工作原理介紹
2021-07-10
WebAPP
Elevate Your Lead Generation Game with Maps Scraper AI
2024-05-25
GAMAI
Mirror 的工作原理
2018-11-15
【MySQL】Mydumper工作原理
2018-06-28
MySql
LiveData的工作原理
2018-09-29
LiveData
OAuth的工作原理
2024-04-05
OAuth
Spring Session工作原理
2019-07-30
SpringSession
javascript引擎工作原理
2020-07-29
JavaScript
Feign的工作原理
2019-05-04
ZStack基本工作原理
2019-05-13
pr工作原理文件
2024-06-07
Docker 工作原理分析
2022-11-28
Docker
Spark的工作原理
2022-12-07
Spark
ZooKeeper 工作、選舉原理
2019-03-26
SpringMVC工作原理詳解
2018-10-30
SpringMVC
Kubernetes API server工作原理
2018-11-20
APIServer
Rxjava工作原理總結
2019-03-06
RxJava
YUM工作原理及使用
2019-02-26
Spark Streaming ：基本工作原理
2018-10-12
Spark
路由器工作原理
2018-07-10
路由器

Web Scraper工作原理

Web Scraper的組成

Web Scraper的執行邏輯

相關文章