每天爬取資料量多少,如何才可更高效?

weixin_33976072發表於2017-11-04

每天爬取資料量多少,如何才可更高效?

問題分析

對於該問題,沒有確切答案,需要根據實際情況而定.爬蟲最重要的問題是容錯率高,很多特殊情況都會影響爬蟲的效率和質量.

常見特殊情況

以下情況都可能影響爬取資料效率.
軟體條件

網頁報錯
動態驗證碼
IP次數限制
時間限制

硬體條件

伺服器配置(CPU,記憶體,頻寬)
網速

常見案例

1

包含問題: 網頁報錯,連線錯誤,手輸驗證碼
成功率: 80%
裝置數: 一臺機器
爬內容: 段子
資料量: 不用分散式爬蟲 1天10W

2

包含問題: 去重,請求失敗,2級頁面爬取
成功率: 80%
裝置數: 一臺機器
爬內容: 列表+詳情頁
資料量: 使用分散式爬蟲 1天15W

3

包含問題: IP併發次數限制,訪問次數限制
成功率: 70%
裝置數: 一臺機器
爬內容: 新聞+圖片
資料量: 不使用分散式爬蟲 1天50W

4

軟硬體好的情況下,資料量可高達1300W.
詳情見

如何才能高效?

如果真的對效能要求很高，可以考慮下面方案.
多執行緒 : 一些成熟的框架如 Scrapy都已支援
分散式 : 資料量有TB級別可要考慮,否則別用,分散式需要考慮到機器,人員,網路等成本.

如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
怎樣高效的爬取資料？
2023-02-07
如何高效獲取大資料?動態ip代理：用爬蟲!
2019-01-24
大資料爬蟲
新手小白的爬蟲神器-無程式碼高效爬取資料
2021-01-01
爬蟲
異源資料同步 → 如何獲取 DataX 已同步資料量？
2024-11-04
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
兩組資料量相對大時，如何高效進行比對
2022-06-14
python更換代理爬取豆瓣電影資料
2019-08-03
Python
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
Cassandra如何配置可實現節點間資料量均勻分配
2012-06-21
每天如何高效率利用社交媒體–資料資訊圖
2013-05-29
小福利，用gevent多協程高效爬取海量資料
2020-10-18
如何提升scrapy爬取資料的效率
2019-03-05
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
查詢Oracle資料庫使用者表中的多少資料量
2014-09-23
Oracle資料庫
如何合理控制爬蟲爬取速度？
2022-06-02
爬蟲
如何利用 Selenium 爬取評論資料？
2018-04-12
大資料量獲取TopK的幾種方案
2018-09-30
大資料TopK
React如何渲染大資料量的列表？
2019-03-03
React大資料
學多少年才算“精通Java”？
2022-02-15
Java
爬取高考資料
2012-06-20
sqlserver資料庫如何每時/每天/每月/每年任取一條資料
2016-08-30
SQLServer資料庫
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲
高效採集資料業務更安心
2021-11-25
MySQL Oracle 查詢快慢和表的資料量多少有沒有關係？
2021-12-13
MySqlOracle
如何高效地利用淘寶API介面獲取商品資料
2024-01-28
API
爬取LeetCode題目——如何傳送GraphQL Query獲取資料
2018-12-11
LeetCode
爬取彼岸網站的桌布（分類可選）
2024-07-03
網站
Python 大資料量文字檔案高效解析方案程式碼實現
2022-12-18
Python大資料
每天一個爬蟲-learnku
2021-06-16
爬蟲
如何遍歷資料量億級別Mongo庫
2018-07-20
Go
Python如何爬取實時變化的WebSocket資料
2019-03-10
PythonWeb
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
如何爬取視訊的爬蟲程式碼原始碼
2020-12-26
爬蟲原始碼
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
利用Python爬蟲爬取天氣資料
2018-02-06
Python爬蟲
Puppeteer爬取網頁資料
2019-03-22
網頁

每天爬取資料量多少,如何才可更高效?

問題分析

常見特殊情況

常見案例

1

2

3

4

如何才能高效?

相關文章