PySpider爬取去哪兒攻略資料專案

未名w發表於2021-08-01

原文網址 : https://www.cnblogs.com/weimingai/p/15086318.html

IDE

1 建立專案

點選WEB中的Create建立專案

填入相關專案名和其實爬取URL

建立後進入專案首頁

右邊 Handler 是pyspider的主類，整個爬蟲一個Handler，其中可定義爬蟲的爬取、解析、儲存邏輯；crawl_config 中定義專案爬取配置；on_start() 爬取入口，通過呼叫 crawl() 方法新建爬取請求，第一個引數是爬取的URL，另外一個引數callback指定爬取成功後的解析方法，即index_page()。index_page() 接收Response引數，Response對接了pyquery，可直接呼叫doc()解析頁面；detail_page() 方法接收Response引數，抓取詳情頁資訊，不生成新的請求，對Response解析後以字典形式返回資料。
左邊，上面綠色和灰色是執行引數內容，下面點選左邊RUN按鈕，執行專案，follow中是請求連線，點選連線右邊執行三角，進入頁面；html是原始碼；web是渲染頁面； enable css selecter helper幫助進行css選擇，在右邊程式碼中選中doc方法引號中內容後，點選web視窗右上方箭頭實現右邊程式碼css選擇替換；massage是頁面資訊。

點選run執行專案

發現follows中出現一條訊息，點選follows

出現如下介面

點選三角執行符號，進入該介面

出現頁面所有請求後，點選HTML顯示原始碼，點選web展示頁面，如果web視窗太小，可以通過開發者模式調整（嘗試網上說的修改debug.min.css失敗）

選擇右邊index_page()方法中的css選擇器內容，點選左邊enable css selecter helper然後選擇對應元素，在3位置出現選擇的元素後，點選右邊箭頭，對右邊程式碼選中內容進行替換

再次點選左邊run，follows變成10條選中css的請求連線。

要想選擇多頁，即實現自動翻頁爬取，修改index_page()內容

@config(age=10 * 24 * 60 * 60)
def index_page(self, response):
    for each in response.doc('li > .tit > a').items():
        self.crawl(each.attr.href, callback=self.detail_page)
    next=response.doc('.next').attr.href
    self.crawl(next,callback=self.index_page)

再次點選run，follows變成11（多了next）
隨便點進一個內容連線，發現沒有圖片，需要修改crawl新增fetch引數，修改後，重新run

self.crawl(each.attr.href, callback=self.detail_page,fetch_type='js')

然後修改detail_page()，設定要儲存的資料資訊

@config(priority=2)

    def detail_page(self, response):

        return {

            "url": response.url,

            "title": response.doc('#booktitle').text(),

            "date":response.doc('.when .data').text(),

            "day":response.doc('.howlong .data').text(),

            "who":response.doc('.who .data').text(),

            "text":response.doc('#b_panel_schedule').text(),

            "image":response.doc('.cover_img').attr.src,

        }

點選run執行成功後，點選右邊save儲存專案

之後就可以返回pyspider首頁，管理專案

選擇專案執行狀態，設定rate/burst【rate表示1s發出多少個請求；burst相當於流控制中令牌桶演算法的令牌數；這兩個值越大爬取速率越快，也越有可能被封】； progress 四個進度條各時間段狀態，藍色等待執行，綠色成功執行，黃色失敗後等待重試，紅色失敗太多被忽略的任務actions可以執行專案檢視結果。
我們可以看一下result，右上角可以下載資料

2 pyspider用法詳解

命令列：

pyspider all / pyspider # 啟動

pyspider [OPTIONS] COMMAND [ARGS]

可以指定配置檔案訪問，pyspider -c pyspider.json all

也可以單獨執行一個元件，pyspider scheduler/fetcher/processor [OPTIONS]

更換埠執行 pyspider webui --port 5001 ，也可以寫進配置檔案中

crawl方法引數配置：

url 可以是列表也可以是字串；callback 回撥函式解析響應的方法；age 任務的有效時間；priority 優先順序越大越優先；exetime 定時任務，時間戳型別；retries 重試次數，預設為3；itag 判定網頁是否發生變化的節點值；auto_recrawl 值為true即開啟後爬取任務過期後悔重新執行；method HTTP請求方式預設是GET；params 定義get請求引數；data 定義POST表單資料；files 定義上傳檔案；user_agent；headers；cookies；connect_timeout 初始化最長等待時間，預設20s；timeout 抓取最長等待時間，預設120s；allow_redirects 自動處理重定向，預設True；validate_cert 是否驗證證書對HTTPS有效，預設True；proxy 代理；fetch_type 開啟PhantomJS渲染；js_script 頁面載入後執行的js指令碼；js_run_at js指令碼執行位置，預設document-end；js_viewport_width/js_viewport_height js渲染時視窗大小；load_iamges 在載入js頁面時是否載入圖片，預設否；save 可以在不同方法直接傳遞引數；cancel 取消任務，如果一個任務是active狀態，需要設定force_update為True；force_update 強制更新狀態

任務區分

pyspider判斷兩個任務是否重複，對URL的MD5值作為任務的唯一ID。重寫task_id()方法可以改變ID計算方式，進行區分如相同URL的post和get

全域性配置

在crawl_config中進行指定

定時爬取

可以在on_start前的every屬性設定爬取的時間間隔，24*60代表每天執行一次。index_page上面的age代表過期時間，如果未到過期時間是不會重新執行的。

專案狀態

TODO 剛建立還沒有實現；STOP 停止某專案抓取；CHECKING 正在執行的專案被修改後；DEBUG/RUNNIG 除錯/執行；PAUSE 暫停，爬取中多次連續錯誤，會被自動設定暫停，一段時間後繼續爬取；

抓取進度

progress 四個進度條各時間段狀態，藍色等待執行，綠色成功執行，黃色失敗後等待重試，紅色失敗太多被忽略的任務。

刪除專案

pyspider沒有刪除專案的選項，如果要刪除，將專案狀態設定為STOP，分組名稱設定為delete，24h後自動刪除。

pyspider 實戰專案之爬取去哪兒
2018-07-07
IDE
python爬取去哪兒出境遊攻略
2023-03-27
Python
大型爬蟲案例：爬取去哪兒網自由行資料(10萬條資料)
2018-08-05
爬蟲
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
企業資料爬蟲專案
2018-10-05
爬蟲
資料分析專案（一）——爬蟲篇
2018-11-30
爬蟲
企業資料爬蟲專案（二）
2018-10-06
爬蟲
去哪兒網專案學習總結
2019-03-01
Python爬蟲入門教程 29-100 手機APP資料抓取 pyspider
2019-01-23
Python爬蟲APPIDE
大資料爬蟲專案實戰教程
2018-11-14
大資料爬蟲
創新專案實訓：資料爬取
2022-06-08
高效率爬蟲框架之 pyspider
2018-07-06
爬蟲框架IDE
資料分析之去哪兒酒店
2018-08-09
學習大資料從哪兒下手
2018-04-08
大資料
攻略 - Capistrano 部署 Laravel 專案
2018-09-06
APILaravel
python爬蟲簡歷專案怎麼寫_爬蟲專案咋寫，爬取什麼樣的資料可以作為專案寫在簡歷上？...
2020-12-01
Python爬蟲
四、Vue專案去哪兒網首頁推薦和週末遊元件並使用Axios獲取資料
2020-10-27
Vue元件iOS
MySQL 中刪除的資料都去哪兒了？
2021-08-11
MySql
爬蟲專案
2019-06-07
爬蟲
爬蟲進階之去哪兒酒店(國內外)
2018-08-21
爬蟲
java想到哪兒寫到哪兒
2019-05-18
Java
《python3網路爬蟲開發實戰》--pyspider
2018-10-18
Python爬蟲IDE
使用Kongzue全家桶元件建立專案全攻略（一、引入和沉浸式的那些事兒）
2018-11-28
元件
【小專案】爬取上海票據交易所資料並寫入資料庫
2020-12-17
資料庫
爬蟲小專案
2019-05-10
爬蟲
爬蟲專案部署
2018-04-03
爬蟲
去哪兒黃勇：去哪網資料庫架構發展歷程
2018-05-07
資料庫架構
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
奇伢爬蟲專案
2018-10-08
爬蟲
爬蟲專案總結
2020-08-31
爬蟲
scrapyd 部署爬蟲專案
2018-03-22
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
CentOS部署pyspider
2018-08-06
CentOSIDE
資料告訴你特斯拉都賣到中國哪兒了
2018-11-12
python爬蟲小專案--飛常準航班資訊爬取variflight（上）
2019-03-23
Python爬蟲
拉鉤專案(一)--專案流程+資料提取
2020-06-14

PySpider爬取去哪兒攻略資料專案

相關文章