如何提升scrapy爬取資料的效率

Bound_w發表於2019-03-05

原文網址 : https://www.cnblogs.com/wqzn/p/10477486.html

在配置檔案中修改相關引數：

增加併發
- 預設的scrapy開啟的併發執行緒為32個，可以適當的進行增加，再配置檔案中修改CONCURRENT_REQUESTS = 100值為100,併發設定成了為100。
降低日誌等級
- 在scrapy執行的時候，會輸出大量的日誌資訊，為了減少cpu的使用率，可以設定log輸出資訊為INFO或者ERROR.在配置檔案中編寫LOG_LEVEL = 'INFO'
禁止cookie
- 如果不是真的需要cookie，則在scrapy爬取資料的時候可以禁止cookie從而減少CPU的使用率，提升爬蟲效率，在配置檔案中編寫COOKIES_ENABLED= False
禁止重試
- 對失敗的HTTP請求進行重新請求(重試)，會減慢爬取速度。因此可以禁止重試，在配置檔案中編寫：RETRY_ENABLED = False
減少下載超時
- 如果對一個非常慢的連結進行爬取，減少下載超時可以讓卡住的連結被快速放棄，從而提升爬取的效率。在配置檔案中進行編寫：DOWNLOAD_TIMEOUT = 10 超時時間為10s

【補充】：

請求傳參的的應用場景：

　　解析的資料不在同一個頁面中

　　Request(callback,meta={})

下載中介軟體的用途：

　　批量攔截請求（代理IP和UA）和響應（處理頁面資料）

如何在scrapy使用selenium
　　1.在spider的init方法中例項化一個瀏覽器物件
　　2.在spider的closed方法中關閉瀏覽器物件
　　3.在下載中介軟體類的process_response方法中接收spider中的瀏覽器物件
　　4.處理執行相關自動化操作(發起請求,獲取頁面資料)
　　5.例項化一個新的響應物件(from scrapy.http import HtmlResponse),且將頁面資料儲存到該物件中
　　6.返回新的響應物件
　　7.在配置檔案中開啟中介軟體

scrapy爬取豆瓣電影資料
2021-09-11
Selenium + Scrapy爬取某商標資料
2018-06-27
如何提升SQLServer Delete資料的效率
2020-01-06
SQLServerdelete
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲
scrapy 爬取空值
2020-10-03
Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
Scrapy爬取二手房資訊+視覺化資料分析
2019-03-04
視覺化
提升爬蟲效率的兩大方法
2022-04-29
爬蟲
使用 Scrapy 爬取股票程式碼
2019-02-25
Scrapy框架爬取海量妹子圖
2018-08-30
框架
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
提高爬蟲爬取效率的辦法
2022-04-06
爬蟲
scrapy爬取鏈家二手房存到mongo資料庫
2021-01-03
Go資料庫
如何用 Scrapy 爬取網站資料並在 Easysearch 中進行儲存檢索分析
2024-09-12
網站
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
scrapy 也能爬取妹子圖？（5）
2018-12-14
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
Scrapy爬蟲（6）爬取銀行理財產品並存入MongoDB（共12w+資料）
2018-03-15
爬蟲MongoDB
如何利用 Selenium 爬取評論資料？
2018-04-12
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
Python如何爬取實時變化的WebSocket資料
2019-03-10
PythonWeb
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
使用selenium爬取網頁，如何在scrapy shell中除錯響應
2018-09-12
網頁除錯
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
歷史股票資料的爬取
2021-12-31
怎樣高效的爬取資料？
2023-02-07
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊
2018-06-12
框架爬蟲
爬取LeetCode題目——如何傳送GraphQL Query獲取資料
2018-12-11
LeetCode
資料導向下製造業的生產效率、交易效率提升辦法
2023-05-06
scrapy入門：豆瓣電影top250爬取
2019-02-16
Scrapy使用隨機User-Agent爬取網站
2018-08-31
隨機網站
讓 scrapy 重複爬取同一個頁面
2019-09-25
兩招提升硬碟儲存資料的寫入效率
2022-02-17
硬碟
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架

如何提升scrapy爬取資料的效率

相關文章