Web Scraper官方文件中文版(第3部分)

weixin_34148340發表於2018-01-04

#webscraper#    #web scraper#    #爬蟲#    #網路爬蟲#

Web Scraper 是谷歌 Chrome 瀏覽器外掛,可自動化提取網頁資料,實現不敲程式碼,指哪爬哪的目標,屬於居家出行殺人越貨之必備神器。以下是官方文件中文翻譯:

譯文第 1 部分

譯文第 2 部分

譯文第 3 部分如下:

4.2 Link 選擇器

Link 選擇器用於連結提取及網站導航。如果你只使用 Link 選擇器,而未新增任何子選擇器,則此選擇器只會提取連結以及此連結的 href 屬性。如果為此 Link 選擇器新增子選擇器,則子選擇器會作用在此連結指向的網頁。如要選中多個連結則需選中 multiple 選項。

注意:Link 選擇器僅作用於有 href 屬性 的  標籤。如果 Link 選擇器無效則可嘗試以下變通方案:

1)檢查點選專案後瀏覽器 URL 欄中網址變化(“#”後變化不計),如果網址未發生改變,則此網站可能使用 ajax 技術載入資料。你應換用 Element click 選擇器。

2)如果網站開啟一個彈出框,那麼你應該使用 Link popup 選擇器。

3)該網站可能使用JavaScript window.location 改變URL。Web Scraper 當下無法處理此類導航。

4.2.1 設定選項

1)selector - CSS 選擇器,用於提取用於網址導航的連結元素

2)multiple - 提取多個專案,預設選中

4.2.2 應用案例

1)多層級導航

如下圖,電子商務網站有多層級導航 - categories(主分類) -> subcategories(子分類)。為了從所有主分類及子分類中抓取資料,你需要建立兩個 Link 選擇器,一個用於選擇主分類中連結,另一個用於選擇子分類中連結。子分類連結選擇器應為主分類連結選擇器的子選擇器,用於提取子分類頁面資料的選擇器應為指向子分類頁面 Link 選擇器的子選擇器。

2245653-fcfb4df2f012ab55

2)處理分頁

如下圖,電子商務網站具有多個分類。每個分類多個專案分數頁列出,每頁中有分頁連結。有些頁面無法直接從當前頁面直達(如下圖,你可以看到頁面 1~3 及 8~9 的連結,但無法看到頁面 4~7 的連結)。你可以先建立 sitemap 訪問每個分類,然後在從分類頁提取專案。這個 sitemap 只會從分頁的第 1 頁提取專案。為了從所有(包括那些未顯示出來的) 分頁提取專案,你需要建立另一個 Link 選擇器選中分頁連結。下圖展示瞭如何在 sitemap 中建立此選擇器。當 Scraper 開啟分類連結後會從中提取專案,隨後會訪問分頁連結,繼而遞迴訪問所有頁面。

2245653-483f901dd5ceaa4b

下圖展示了此選擇器結構圖,你可看出如何從分頁連結提取更多分頁連結及資料。

2245653-538dce9d3057b05b

4.3 Link popup (彈出連結)選擇器

Link popup 選擇器的作用方式同 Link 選擇器類似。可用作連結提取及網站導航。它們的唯一差別是 Link popup 選擇器應用在當點選連結時彈出新視窗(而不是在原標籤頁載入頁面或是開啟一個新標籤頁)的情況。此選擇器會普戳彈出新視窗的事件並提取 URL。如果站點視覺上彈出但並不是一個新視窗你應當嘗試 Element click 選擇器。

注意:當選擇連結元素時你可以移動滑鼠在元素上方並在鍵盤上按下“S”鍵將其選中,以防彈出新視窗。

應用案例

參照 Link 選擇器應用案例。

相關文章