每天爬取資料量多少,如何才可更高效?
每天爬取資料量多少,如何才可更高效?
問題分析
對於該問題,沒有確切答案,需要根據實際情況而定.爬蟲最重要的問題是容錯率高,很多特殊情況都會影響爬蟲的效率和質量.
常見特殊情況
以下情況都可能影響爬取資料效率.
軟體條件
- 網頁報錯
- 動態驗證碼
- IP次數限制
- 時間限制
硬體條件
- 伺服器配置(CPU,記憶體,頻寬)
- 網速
常見案例
1
- 包含問題: 網頁報錯,連線錯誤,手輸驗證碼
- 成功率: 80%
- 裝置數: 一臺機器
- 爬內容: 段子
- 資料量: 不用分散式爬蟲 1天10W
2
- 包含問題: 去重,請求失敗,2級頁面爬取
- 成功率: 80%
- 裝置數: 一臺機器
- 爬內容: 列表+詳情頁
- 資料量: 使用分散式爬蟲 1天15W
3
- 包含問題: IP併發次數限制,訪問次數限制
- 成功率: 70%
- 裝置數: 一臺機器
- 爬內容: 新聞+圖片
- 資料量: 不使用分散式爬蟲 1天50W
4
軟硬體好的情況下,資料量可高達1300W.
詳情見
如何才能高效?
如果真的對效能要求很高,可以考慮下面方案.
多執行緒 : 一些成熟的框架如 Scrapy都已支援
分散式 : 資料量有TB級別可要考慮,否則別用,分散式需要考慮到機器,人員,網路等成本.
相關文章
- 如何保障爬蟲高效穩定爬取資料?爬蟲
- 怎樣高效的爬取資料?
- 如何高效獲取大資料?動態ip代理:用爬蟲!大資料爬蟲
- 新手小白的爬蟲神器-無程式碼高效爬取資料爬蟲
- 異源資料同步 → 如何獲取 DataX 已同步資料量?
- 爬蟲爬取資料如何繞開限制?爬蟲
- 兩組資料量相對大時,如何高效進行比對
- python更換代理爬取豆瓣電影資料Python
- 「無程式碼」高效的爬取網頁資料神器網頁
- Cassandra如何配置可實現節點間資料量均勻分配
- 每天如何高效率利用社交媒體–資料資訊圖
- 小福利,用gevent多協程高效爬取海量資料
- 如何提升scrapy爬取資料的效率
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 爬蟲如何爬取貓眼電影TOP榜資料爬蟲
- 查詢Oracle資料庫使用者表中的多少資料量Oracle資料庫
- 如何合理控制爬蟲爬取速度?爬蟲
- 如何利用 Selenium 爬取評論資料?
- 大資料量獲取TopK的幾種方案大資料TopK
- React如何渲染大資料量的列表?React大資料
- 學多少年才算“精通Java”?Java
- 爬取高考資料
- sqlserver資料庫如何每時/每天/每月/每年任取一條資料SQLServer資料庫
- 如何提高爬取爬蟲採集的效率?爬蟲
- 高效採集資料業務更安心
- MySQL Oracle 查詢快慢和表的資料量多少有沒有關係?MySqlOracle
- 如何高效地利用淘寶API介面獲取商品資料API
- 爬取LeetCode題目——如何傳送GraphQL Query獲取資料LeetCode
- 爬取彼岸網站的桌布(分類可選)網站
- Python 大資料量文字檔案高效解析方案程式碼實現Python大資料
- 每天一個爬蟲-learnku爬蟲
- 如何遍歷資料量億級別Mongo庫Go
- Python如何爬取實時變化的WebSocket資料PythonWeb
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- 如何爬取視訊的爬蟲程式碼原始碼爬蟲原始碼
- 爬蟲實戰——58同城租房資料爬取爬蟲
- 利用Python爬蟲爬取天氣資料Python爬蟲
- Puppeteer爬取網頁資料網頁