基於非同步協程的增量式微博網頁版爬蟲（一）思路篇

txmmy發表於2024-05-15

專案介紹

本專案旨在利用高階搜尋功能，爬取微博網頁版的詳細資料。而大多數爬蟲以單執行緒為主，但單執行緒存在資源利用率低的不足，針對這以問題，本專案主要使用如下技術：
（1）多執行緒+協程技術+Redis實現增量式爬蟲。實現過程中存在兩個技術難點：一是使用redis資料傳輸時開銷頻繁，伺服器容易崩潰；二是多執行緒會存線上程搶佔資源的問題，這裡借鑑了多視窗售票的思路解決了問題。
（2）實現爬取不同時間段的資料，包含實時資料、自定義時間段資料，並自動識別資料是否展示完全，儘可能保證資料都能爬取到。

實現思路

站點分析

不同架構的站點分析見https://www.cnblogs.com/Gimm/p/18190005
考慮API採集數量有限，請求次數有限，移動端資料較少，而網頁端具有高階搜尋功能，雖然限制最大頁數為50頁，但可以細化時間粒度採集更多資料。
由於採集轉發型別的博文會存在重複資料，故僅考慮採集原創博文。
根據高階搜尋功能的所有引數，這裡定義自定義引數有：關鍵詞、時間，固定引數：型別=原創，包含=全部

構造一級頁面URL

基於多執行緒+協程的非同步增量式爬蟲
2024-05-12
執行緒非同步爬蟲
非同步爬蟲之理解協程
2024-05-05
非同步爬蟲
爬蟲之多工非同步協程
2024-03-26
爬蟲非同步
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
基於asyncio、aiohttp、xpath的非同步爬蟲
2019-02-16
AIHTTP非同步爬蟲
爬蟲學習之基於Scrapy的網路爬蟲
2016-07-13
爬蟲
如何構建一個分散式爬蟲：基礎篇
2017-06-08
分散式爬蟲
《網頁爬蟲》
2018-11-26
網頁爬蟲
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
爬蟲基礎篇
2020-07-31
爬蟲
爬蟲速度太慢？來試試用非同步協程提速吧！
2018-07-09
爬蟲非同步
Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
大規模非同步新聞爬蟲：網頁正文的提取
2018-12-03
非同步爬蟲網頁
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
Python非同步爬蟲（aiohttp版）
2022-12-06
Python非同步爬蟲AIHTTP
關於非同步爬蟲排序的困惑
2020-12-26
非同步爬蟲排序
大規模非同步新聞爬蟲的實現思路
2019-05-20
非同步爬蟲
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
微博爬蟲 java實現
2015-08-31
爬蟲Java
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
爬蟲那些事－爬蟲設計思路
2017-08-02
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲
基於 Lua 寫一個爬蟲程式
2023-11-14
爬蟲
一個基於 golang 的爬蟲電影站
2020-03-20
Golang爬蟲
wget 網頁爬蟲,網頁抓取工具
2017-11-08
wget網頁爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
基於Scrapy分散式爬蟲的開發與設計
2018-04-27
分散式爬蟲
用Python寫一個簡單的微博爬蟲
2016-03-03
Python爬蟲
網頁爬蟲--未完成
2020-10-04
網頁爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁

基於非同步協程的增量式微博網頁版爬蟲（一）思路篇

專案介紹

相關技術

增量式爬蟲

多執行緒

非同步協程

實現思路

站點分析

構造一級頁面URL

相關文章