一個批次爬取微博資料的神器

peterjxl發表於2024-08-30

100.一個批次爬取微博資料的神器

分享一個能批次下載微博圖片/影片/評論的工具

起因

偶爾玩玩微博,最近看到了一名專業的 coser,因此想要下載一些她的微博,方便觀看,也避免以後平臺倒閉/博主退坑的情況導致無法看原微博。

專業 coser:鯊魚 SAME

專案介紹

然後我在 GitHub 上搜了下,發現一個高贊專案:weibo-crawler,新浪微博爬蟲。

專案地址:https://github.com/dataabc/weibo-crawler

簡單摘錄下專案的文件:

連續爬取一個或多個新浪微博使用者(如迪麗熱巴郭碧婷)的資料,並將結果資訊寫入檔案。寫入資訊幾乎包括了使用者微博的所有資料,主要有使用者資訊和微博資訊兩大類,前者包含使用者暱稱、關注數、粉絲數、微博數等等;後者包含微博正文、釋出時間、釋出工具、評論數等等,因為內容太多,這裡不再贅述,詳細內容見輸出部分。

具體的寫入檔案型別如下:

  • 寫入 csv 檔案、寫入 json 檔案、MySQL 資料庫、MongoDB 資料庫、SQLite 資料庫​
  • 下載使用者原創和轉發微博中的原始圖片、影片、Live Photo 中的影片、一級評論

還可以透過自動化,定期增量爬取新微博,非常方便。

實踐

實操起來也很簡單,官方文件寫的非常詳細,字數都上萬了,配圖也很豐富,我這裡就簡單說明下,其實就三步:

  • 首先,該專案基於 Python,因此得安裝 Python(具體步驟就不展開了,網上很多教程)。
  • 然後,填寫好要爬取的微博使用者資訊(例如使用者 ID,Cookie)
  • 執行專案:python weibo.py

具體操作文件請看官方文件了,我會在下一篇部落格轉載它,方便國內的讀者檢視(想看最新版還是建議去官網看)

效果

將所有圖片、影片等資料分別儲存,並且都是原始檔案(高畫質),檔名也已經重新命名好了:

如果有下載失敗的情況,會將情況寫在 not_downloaded.txt 裡(若圖片全部下載成功則不會生成該檔案),非常貼心。

——完——

相關文章