一個批次爬取微博資料的神器

peterjxl發表於2024-08-30

原文網址 : https://www.cnblogs.com/PeterJXL/p/18387925

100.一個批次爬取微博資料的神器

分享一個能批次下載微博圖片/影片/評論的工具

‍

起因

偶爾玩玩微博，最近看到了一名專業的 coser，因此想要下載一些她的微博，方便觀看，也避免以後平臺倒閉/博主退坑的情況導致無法看原微博。

專業 coser：鯊魚 SAME

‍

專案介紹

然後我在 GitHub 上搜了下，發現一個高贊專案：weibo-crawler，新浪微博爬蟲。

專案地址：https://github.com/dataabc/weibo-crawler

簡單摘錄下專案的文件：

連續爬取一個或多個新浪微博使用者（如迪麗熱巴、郭碧婷）的資料，並將結果資訊寫入檔案。寫入資訊幾乎包括了使用者微博的所有資料，主要有使用者資訊和微博資訊兩大類，前者包含使用者暱稱、關注數、粉絲數、微博數等等；後者包含微博正文、釋出時間、釋出工具、評論數等等，因為內容太多，這裡不再贅述，詳細內容見輸出部分。

具體的寫入檔案型別如下：

寫入 csv 檔案、寫入 json 檔案、MySQL 資料庫、MongoDB 資料庫、SQLite 資料庫

下載使用者原創和轉發微博中的原始圖片、影片、Live Photo 中的影片、一級評論

‍

還可以透過自動化，定期增量爬取新微博，非常方便。

‍

實踐

實操起來也很簡單，官方文件寫的非常詳細，字數都上萬了，配圖也很豐富，我這裡就簡單說明下，其實就三步：

首先，該專案基於 Python，因此得安裝 Python（具體步驟就不展開了，網上很多教程）。
然後，填寫好要爬取的微博使用者資訊（例如使用者 ID，Cookie）
執行專案：python weibo.py

具體操作文件請看官方文件了，我會在下一篇部落格轉載它，方便國內的讀者檢視（想看最新版還是建議去官網看）

‍

效果

將所有圖片、影片等資料分別儲存，並且都是原始檔案（高畫質），檔名也已經重新命名好了：

如果有下載失敗的情況，會將情況寫在 not_downloaded.txt 裡（若圖片全部下載成功則不會生成該檔案），非常貼心。

‍

——完——

‍

python實現微博個人主頁的資訊爬取
2021-01-03
Python
微博-指定話題當日資料爬取
2024-06-12
Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片
2019-02-16
MySql
Python 超簡單爬取微博熱搜榜資料
2020-05-13
Python
Python 超簡單爬取新浪微博資料 (高階版)
2020-05-16
Python
新手小白的爬蟲神器-無程式碼高效爬取資料
2021-01-01
爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
微博爬取長津湖博文及評論
2021-10-08
Scrapy爬取新浪微博移動版使用者首頁第一條微博
2019-05-12
Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
PHP基於laravel框架獲取微博資料之一模擬新浪微博登入
2019-02-16
PHPLaravel框架
GitHub 上這款新浪微博爬蟲專案，‌讓你輕鬆掌握微博資料！‌
2024-08-31
Github爬蟲
selenium + xpath爬取csdn關於python的博文博主資訊
2020-12-19
Python
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
爬蟲：越滑越多的動態網頁列表流資料（透過 Ajax 獲取微博個性化推薦內容）
2022-11-24
爬蟲網頁
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
python爬取58同城一頁資料
2018-08-04
Python
因爬取微博資料賠2000萬元，首例涉資料抓取交易不正當競爭糾紛案塵埃落定
2024-01-18
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
PHP 基於laravel框架獲取微博資料之二使用者資料的使用
2019-02-16
PHPLaravel框架
python爬取不到資料的可能原因之一
2018-11-20
Python
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
hutool分批次讀取excel資料
2024-07-05
Excel
歷史股票資料的爬取
2021-12-31
怎樣高效的爬取資料？
2023-02-07
Python爬蟲——批次爬取douyin影片，下載到本地
2024-12-06
Python爬蟲
不踩坑的Python爬蟲：如何在一個月內學會爬取大規模資料
2018-06-14
Python爬蟲
python itchat 爬取微信好友資訊
2018-06-02
Python
分享一個用go寫的爬取非同步載入網站資料的例子
2022-06-01
Go非同步網站
爬蟲爬取微信小程式
2019-02-16
爬蟲微信小程式
12 爬取目標的資料分析
2018-12-05
如何提升scrapy爬取資料的效率
2019-03-05
爬蟲實戰（三）：微博使用者資訊分析
2018-07-15
爬蟲

一個批次爬取微博資料的神器

100.一個批次爬取微博資料的神器

起因

專案介紹

實踐

效果

相關文章