ferret 爬取動態網頁

pardon110發表於2019-12-15

原文網址 : https://learnku.com/articles/37991

動態網頁常用js來載入資料，使用宣告式語言fql，可輕鬆獲取點選，下拉等一系列需要互動後渲染的頁面資料
夠浪的ferret足夠簡單，讓會sql,瞭解css，知道點go的同學，很方便的用編碼或命令列形式抓取動態網頁內容。

selenium

selenium真心好用，但太重。誇它好用，是因為不像scray一個頁面情況沒考慮到，它就給掛了，給定目標網站使用者讓怎麼跑就怎麼幹。說它重是因為耗資源，若僅作爬蟲抓取，為什麼要開一個瀏覽器，又不是真要用介面。
fql進行動態網頁抓取

cdp

chrome debug protocol 谷歌瀏覽器除錯協議，簡稱cdp

用過chrome瀏覽器的F12，也就是devtools，其實這是一個web應用。當你使用devtools的時候，瀏覽器本身會作為一個服務端，而你看到的瀏覽器除錯工具介面，其實只是一個前端應用，在這中間通訊的，就是基於websocket的cdp，一個讓devtools和瀏覽器核心交換資料的通道。

selenium -> webdriver -> chromedriver  -> cdp --> fql

cdp獲取頁面網路資料
用cdp獲取頁面載入時間
用cdp拿到自動化測試後的js覆蓋率資料並展示
通過遠端機器除錯無頭瀏覽器

fql

ferret特定領域的宣告式程式語言fql，簡單直觀。
輸入關鍵字 --> 點選搜尋按鈕 --> 用css 選擇器選擇節點 --> 迭代處理內容 --> 返回內容

// baidu.fql

LET bd = DOCUMENT("https://www.baidu.com/", {
    driver: "cdp",
    userAgent: "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"
})
// 互動操作
INPUT(bd, 'input[name="wd"]', @wd)
CLICK(bd, '#su')
WAIT(RAND(1000))

FOR result IN ELEMENTS(bd, '#content_left')
    LIMIT 3
    LET title = INNER_TEXT(result, 'h3')
    LET description = INNER_TEXT(result, 'div.c-abstract')
    RETURN {  title, description }

上述 @wd 為輸入型引數，同sql中的位置引數一個道理。
{ title, description } 是fql語法的一個特定，同es6中的物件解構賦值
RETURN 關鍵字在fql與php，python 中的生成器yield一樣的意義，只是帶值返回，可以重新返場

usage

安裝ferret，建議使用go1.13以上版本，開啟國內映象代理，當然你本機也得裝chrome瀏覽器
```
go get github.com/MontFerret/ferret
```
開啟chrome的cdp服務例項，記住使用無頭模式
```
chrome.exe --remote-debugging-port=9222 --headless
```

匯入baidu.fql,ferret使用的預設埠是9222

D:\code-base\gomod\colly>ferret --param=wd:\"golang社群\"  > baidu.txt

開啟檢視結果，類似於下面這樣的格式

[{"description":"Go語言中文網,中國 Golang 社群,Go語言學習園地,致力於構建完善的 Golang 中文社群,Go語言愛好者的學習家園。分享 Go 語言知識,交流
使用經驗","title":"首頁- Go語言中文網 - Golang中文社群"}]

other

ferret 目前還處於開發階段，但其不僅僅這些，比如cookie，快照截圖，圖片下載，代理等等新功能已經處於測試。目前版本是v0.9.0, 穩定版本很快釋出。上面示例僅展示了命令列形式，事實上它還可以嵌入到golang編碼，產生各種好玩的用法。

Puppeteer 實戰-爬取動態生成的網頁
2018-11-10
網頁
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
C#爬取動態網頁上的資訊：B站主頁
2024-09-27
C#網頁
動態網站的爬取
2018-08-29
網站
Python 爬取網頁中JavaScript動態新增的內容（一）
2018-09-28
Python網頁JavaScript
Python 爬取網頁中JavaScript動態新增的內容（二）
2018-09-28
Python網頁JavaScript
爬取網頁文章
2021-09-29
網頁
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Puppeteer爬取網頁資料
2019-03-22
網頁
關於python爬取網頁
2021-03-10
Python網頁
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
python爬取網頁詳細教程
2021-09-11
Python網頁
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-1-Selenium的使用
2019-02-28
Python爬蟲
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
爬取子頁
2018-08-24
如何使用python進行網頁爬取?
2020-08-06
Python網頁
靜態網頁與動態網頁的區別
2019-03-13
網頁
如何用python爬蟲分析動態網頁的商品資訊？
2021-09-11
Python爬蟲網頁
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
網頁用python爬取後如何解析
2021-09-11
網頁Python
Python爬取網頁的所有內外鏈
2021-04-09
Python網頁
手機版python爬取網頁書籍
2020-12-19
Python網頁
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-3-Splash負載均衡配置
2018-03-30
Python爬蟲負載
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
結合LangChain實現網頁資料爬取
2024-07-18
LangChain網頁
Python應用開發——爬取網頁圖片
2022-09-21
Python網頁
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
[python爬蟲] selenium爬取區域性動態重新整理網站（URL始終固定）
2018-04-26
Python爬蟲網站
python爬蟲爬取網頁中文亂碼問題的解決
2024-11-17
Python爬蟲網頁
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql

ferret 爬取動態網頁

selenium

cdp

fql

usage

other

相關文章