100.一個批次爬取微博資料的神器
分享一個能批次下載微博圖片/影片/評論的工具
起因
偶爾玩玩微博,最近看到了一名專業的 coser,因此想要下載一些她的微博,方便觀看,也避免以後平臺倒閉/博主退坑的情況導致無法看原微博。
專業 coser:鯊魚 SAME
專案介紹
然後我在 GitHub 上搜了下,發現一個高贊專案:weibo-crawler,新浪微博爬蟲。
專案地址:https://github.com/dataabc/weibo-crawler
簡單摘錄下專案的文件:
連續爬取一個或多個新浪微博使用者(如迪麗熱巴、郭碧婷)的資料,並將結果資訊寫入檔案。寫入資訊幾乎包括了使用者微博的所有資料,主要有使用者資訊和微博資訊兩大類,前者包含使用者暱稱、關注數、粉絲數、微博數等等;後者包含微博正文、釋出時間、釋出工具、評論數等等,因為內容太多,這裡不再贅述,詳細內容見輸出部分。
具體的寫入檔案型別如下:
- 寫入 csv 檔案、寫入 json 檔案、MySQL 資料庫、MongoDB 資料庫、SQLite 資料庫
- 下載使用者原創和轉發微博中的原始圖片、影片、Live Photo 中的影片、一級評論
還可以透過自動化,定期增量爬取新微博,非常方便。
實踐
實操起來也很簡單,官方文件寫的非常詳細,字數都上萬了,配圖也很豐富,我這裡就簡單說明下,其實就三步:
- 首先,該專案基於 Python,因此得安裝 Python(具體步驟就不展開了,網上很多教程)。
- 然後,填寫好要爬取的微博使用者資訊(例如使用者 ID,Cookie)
- 執行專案:
python weibo.py
具體操作文件請看官方文件了,我會在下一篇部落格轉載它,方便國內的讀者檢視(想看最新版還是建議去官網看)
效果
將所有圖片、影片等資料分別儲存,並且都是原始檔案(高畫質),檔名也已經重新命名好了:
如果有下載失敗的情況,會將情況寫在 not_downloaded.txt 裡(若圖片全部下載成功則不會生成該檔案),非常貼心。
——完——