Web Scraper官方文件中文版(第3部分)
#webscraper# #web scraper# #爬蟲# #網路爬蟲#
Web Scraper 是谷歌 Chrome 瀏覽器外掛,可自動化提取網頁資料,實現不敲程式碼,指哪爬哪的目標,屬於居家出行殺人越貨之必備神器。以下是官方文件中文翻譯:
譯文第 3 部分如下:
4.2 Link 選擇器
Link 選擇器用於連結提取及網站導航。如果你只使用 Link 選擇器,而未新增任何子選擇器,則此選擇器只會提取連結以及此連結的 href 屬性。如果為此 Link 選擇器新增子選擇器,則子選擇器會作用在此連結指向的網頁。如要選中多個連結則需選中 multiple 選項。
注意:Link 選擇器僅作用於有 href 屬性 的 標籤。如果 Link 選擇器無效則可嘗試以下變通方案:
1)檢查點選專案後瀏覽器 URL 欄中網址變化(“#”後變化不計),如果網址未發生改變,則此網站可能使用 ajax 技術載入資料。你應換用 Element click 選擇器。
2)如果網站開啟一個彈出框,那麼你應該使用 Link popup 選擇器。
3)該網站可能使用JavaScript window.location 改變URL。Web Scraper 當下無法處理此類導航。
4.2.1 設定選項
1)selector - CSS 選擇器,用於提取用於網址導航的連結元素
2)multiple - 提取多個專案,預設選中
4.2.2 應用案例
1)多層級導航
如下圖,電子商務網站有多層級導航 - categories(主分類) -> subcategories(子分類)。為了從所有主分類及子分類中抓取資料,你需要建立兩個 Link 選擇器,一個用於選擇主分類中連結,另一個用於選擇子分類中連結。子分類連結選擇器應為主分類連結選擇器的子選擇器,用於提取子分類頁面資料的選擇器應為指向子分類頁面 Link 選擇器的子選擇器。
2)處理分頁
如下圖,電子商務網站具有多個分類。每個分類多個專案分數頁列出,每頁中有分頁連結。有些頁面無法直接從當前頁面直達(如下圖,你可以看到頁面 1~3 及 8~9 的連結,但無法看到頁面 4~7 的連結)。你可以先建立 sitemap 訪問每個分類,然後在從分類頁提取專案。這個 sitemap 只會從分頁的第 1 頁提取專案。為了從所有(包括那些未顯示出來的) 分頁提取專案,你需要建立另一個 Link 選擇器選中分頁連結。下圖展示瞭如何在 sitemap 中建立此選擇器。當 Scraper 開啟分類連結後會從中提取專案,隨後會訪問分頁連結,繼而遞迴訪問所有頁面。
下圖展示了此選擇器結構圖,你可看出如何從分頁連結提取更多分頁連結及資料。
4.3 Link popup (彈出連結)選擇器
Link popup 選擇器的作用方式同 Link 選擇器類似。可用作連結提取及網站導航。它們的唯一差別是 Link popup 選擇器應用在當點選連結時彈出新視窗(而不是在原標籤頁載入頁面或是開啟一個新標籤頁)的情況。此選擇器會普戳彈出新視窗的事件並提取 URL。如果站點視覺上彈出但並不是一個新視窗你應當嘗試 Element click 選擇器。
注意:當選擇連結元素時你可以移動滑鼠在元素上方並在鍵盤上按下“S”鍵將其選中,以防彈出新視窗。
應用案例
參照 Link 選擇器應用案例。
相關文章
- web scraperWeb
- Web Scraper教程Web
- 【Python】官方文件中文版Python
- Web Scraper工作原理Web
- Web Scraper如何翻頁Web
- 來了!Python官方文件中文版Python
- [譯]2.3-Key-Value Coding Programming Guide 官方文件第二部分第3節GUIIDE
- Web Scraper簡單配置方法Web
- docker官方文件翻譯3Docker
- Webpack 系列第 3 部分Web
- 【typeorm】typeorm官方文件querybuilder插入更新刪除部分ORMUI
- 終於!Keras官方中文版文件正式釋出了Keras
- Libevent 官方文件學習筆記(2. bufferevent部分)筆記
- Ionic2系列——Ionic 2 Guide 官方文件中文版GUIIDE
- TensorFlow 官方文件中文版釋出啦(持續維護)
- [譯]2.2-Key-Value Coding Programming Guide 官方文件第二部分第2節GUIIDE
- [譯]2.4-Key-Value Coding Programming Guide 官方文件第二部分第4節GUIIDE
- [譯]2.5-Key-Value Coding Programming Guide 官方文件第二部分第5節GUIIDE
- [譯]2.6-Key-Value Coding Programming Guide 官方文件第二部分第6節GUIIDE
- [譯]使用 Rust 開發一個簡單的 Web 應用,第 3 部分 —— 整合RustWeb
- Django官方文件Django
- oracle 官方文件Oracle
- nmap官方文件
- mysql5.1官方文件網址連線link_webMySqlWeb
- OKHttp 官方文件【二】HTTP
- OKHttp 官方文件【一】HTTP
- mysql 5.6官方文件MySql
- 《Redis官方文件》sentinelRedis
- 如何構建一個多人(.io) Web 遊戲,第 1 部分Web遊戲
- 如何構建一個多人(.io) Web 遊戲,第 2 部分Web遊戲
- web server apache tomcat11-01-官方文件入門介紹WebServerApacheTomcat
- 蘋果文件 中文版蘋果
- [譯] 使用 React, Redux, and SVG 開發遊戲 - 第 3 部分ReactReduxSVG開發遊戲
- Vim 實用技術,第 3 部分: 定製 Vim
- 補充部分官方文件裡沒有的ClientLibrary以及程式碼提示Schema更新(二)client
- Oracle OCP(33):官方文件Oracle
- Moya官方文件翻譯
- ApacheStorm官方文件——常用模式ApacheORM模式