【從零開始學爬蟲】建立模板

前嗅大資料發表於2023-01-06

【場景描述】 建立模板 對需要採集的網站,首先梳理網站的層級結構,以確定在軟體中需要配置幾層模板。

 

【建立步驟】

從網站入口頁到目標資料頁,一共需要跳轉幾層不同網頁結構的頁面,通常就需要幾層模板。每個模板代表了一個不同網頁結構層級的頁面,配置後就可以採集全站資料。

【從零開始學爬蟲】建立模板

【列表頁1】

列表頁網頁結構如圖列表頁1所示,其對應建立的模板為:“預設模板:01”。

【從零開始學爬蟲】建立模板

【資料頁1】

如圖資料頁1,資料頁網頁結構與列表頁1的網頁結構不同,則此時需新建模板:“預設模板:02”。

1.新增模板

在模板列表的右鍵選單,點選“新增採集模板”即可新增一層模板。

【從零開始學爬蟲】建立模板

【新增採集模板】

點選模板,會跳轉到該模板的配置介面,進行模板屬性的配置。

【從零開始學爬蟲】建立模板

【模板配置介面】

2.抽取連結/資料

根據頁面內容,確定每層模板的抽取目標,每層模板都可以建立多個抽取。

①抽取連結:需要抽取頁面上的連結時,選擇建立連結抽取。如抽取該頁面的連結列表和翻頁,則建立兩個連結抽取。

②抽取資料:需要抽取頁面上的資料時,選擇建立資料抽取。一個資料抽取對應著一張資料表,通常一個模板只需要一個資料抽取。

如果需要新增新的連結抽取和資料抽取,可按下方如圖所示進行新增:

【從零開始學爬蟲】建立模板

【新增連結抽取】

【從零開始學爬蟲】建立模板

【新增資料抽取】

3.示例地址

示例地址是該模板眾多頁面的一個示例代表,以該網址作為樣例進行模板配置。透過對示例地址的配置,可以抓取與該地址在同一層級、具有相似結構的頁面資料。一個模板只能填寫一個示例地址。

對於模板1和其他模板,示例地址的填寫有如下區別:

①模板01:示例地址預設填寫為該任務的採集地址。

【從零開始學爬蟲】建立模板

 

②其它模板:手動從眾多網址中挑選一個貼上進來。

【從零開始學爬蟲】建立模板


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69987309/viewspace-2931216/,如需轉載,請註明出處,否則將追究法律責任。

相關文章