【從零開始學爬蟲】建立模板
【場景描述】 建立模板 : 對需要採集的網站,首先梳理網站的層級結構,以確定在軟體中需要配置幾層模板。
【建立步驟】
從網站入口頁到目標資料頁,一共需要跳轉幾層不同網頁結構的頁面,通常就需要幾層模板。每個模板代表了一個不同網頁結構層級的頁面,配置後就可以採集全站資料。
【列表頁1】
列表頁網頁結構如圖列表頁1所示,其對應建立的模板為:“預設模板:01”。
【資料頁1】
如圖資料頁1,資料頁網頁結構與列表頁1的網頁結構不同,則此時需新建模板:“預設模板:02”。
1.新增模板
在模板列表的右鍵選單,點選“新增採集模板”即可新增一層模板。
【新增採集模板】
點選模板,會跳轉到該模板的配置介面,進行模板屬性的配置。
【模板配置介面】
2.抽取連結/資料
根據頁面內容,確定每層模板的抽取目標,每層模板都可以建立多個抽取。
①抽取連結:需要抽取頁面上的連結時,選擇建立連結抽取。如抽取該頁面的連結列表和翻頁,則建立兩個連結抽取。
②抽取資料:需要抽取頁面上的資料時,選擇建立資料抽取。一個資料抽取對應著一張資料表,通常一個模板只需要一個資料抽取。
如果需要新增新的連結抽取和資料抽取,可按下方如圖所示進行新增:
【新增連結抽取】
【新增資料抽取】
3.示例地址
示例地址是該模板眾多頁面的一個示例代表,以該網址作為樣例進行模板配置。透過對示例地址的配置,可以抓取與該地址在同一層級、具有相似結構的頁面資料。一個模板只能填寫一個示例地址。
對於模板1和其他模板,示例地址的填寫有如下區別:
①模板01:示例地址預設填寫為該任務的採集地址。
②其它模板:手動從眾多網址中挑選一個貼上進來。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69987309/viewspace-2931216/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【從零開始學爬蟲】模板的高階選項爬蟲
- 【從零開始學爬蟲】模板的複製與貼上爬蟲
- 《從零開始學Python網路爬蟲》概要Python爬蟲
- 【從零開始學爬蟲】對任務的操作爬蟲
- 從零開始的爬蟲專案(一)爬蟲
- 從零開始寫一個node爬蟲(一)爬蟲
- 【從零開始學爬蟲】採集收視率排行資料爬蟲
- PYTHON系列-從零開始的爬蟲入門指南Python爬蟲
- 【從零開始學爬蟲】採集全國高校導師資料爬蟲
- 從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲Python爬蟲
- 《從零開始學習Python爬蟲:頂點小說全網爬取實戰》Python爬蟲
- 【從零開始學爬蟲】任務屬性配置中的兩點技巧爬蟲
- 【從零開始學爬蟲】採集全國曆史天氣資料爬蟲
- 從零開始,如何用puppeteer寫一個爬蟲指令碼爬蟲指令碼
- 【從零開始學爬蟲】採集丁香醫生新冠問答資料爬蟲
- Python 從零開始爬蟲(六)——動態爬取解決方案 之 手動分析Python爬蟲
- 從零開始寫一個node爬蟲(上)—— 資料採集篇爬蟲
- 從零開始學PythonPython
- 從零開始學習laravelLaravel
- 從零開始學習KafkaKafka
- 【ROS】從零開始學ROSROS
- 從零開始學 Spring BootSpring Boot
- 從零開始學正則
- 從零開始機器學習機器學習
- 從零開始學golang之TCPGolangTCP
- 從零開始
- 從零開始學習機器學習機器學習
- 不怕從零開始,只怕從未開始!
- 從零開始學五筆(一):概述
- 從零開始學習C++(0)C++
- 從零開始學Spring Boot系列-SpringApplicationSpring BootAPP
- 從零開始學Electron筆記(六)筆記
- 從零開始學Electron筆記(七)筆記
- 從零開始學mitmproxy抓包工具MIT
- 從零開始學Electron筆記(二)筆記
- 從零開始學Electron筆記(四)筆記
- 從零開始學Electron筆記(五)筆記
- 從零開始學Electron筆記(一)筆記