新浪微博爬蟲分享（一天可抓取 1300 萬條資料）

九茶發表於2016-03-16

程式碼請移步GitHub：SinaSpider

爬蟲功能：

此專案和QQ空間爬蟲類似，主要爬取新浪微博使用者的個人資訊、微博資訊、粉絲和關注（詳細見此）。
程式碼獲取新浪微博Cookie進行登入，可通過多賬號登入來防止新浪的反扒（用來登入的賬號可從淘寶購買，一塊錢七個）。
專案爬的是新浪微博wap站，結構簡單，速度應該會比較快，而且反扒沒那麼強，缺點是資訊量會稍微缺少一些（可見爬蟲福利：如何爬wap站）。
爬蟲抓取微博的速度可以達到 1300萬/天 以上，具體要視網路情況，我使用的是校園網（廣工大學城校區），普通的家庭網路可能才一半的速度，甚至都不到。

環境、架構：

開發語言：Python2.7
開發環境：64位Windows8系統，4G記憶體，i7-3612QM處理器。
資料庫：MongoDB 3.2.0
（Python編輯器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）

主要使用 scrapy 爬蟲框架。
下載中介軟體會從Cookie池和User-Agent池中隨機抽取一個加入到spider中。
start_requests 中根據使用者ID啟動四個Request，同時對個人資訊、微博、關注和粉絲進行爬取。
將新爬下來的關注和粉絲ID加入到待爬佇列（先去重）。

使用說明：

啟動前配置：

MongoDB安裝好能啟動即可，不需要配置。
Python需要安裝好scrapy（64位的Python儘量使用64位的依賴模組）
另外用到的python模組還有：pymongo、json、base64、requests。
將你用來登入的微博賬號和密碼加入到 cookies.py 檔案中，裡面已經有兩個賬號作為格式參考了。
另外一些scrapy的設定（如間隔時間、日誌級別、Request執行緒數等）可自行在setting裡面調。

執行截圖：

新浪微博爬蟲程式

新浪微博爬蟲資料

資料庫說明：

SinaSpider主要爬取新浪微博的個人資訊、微博資料、關注和粉絲。
資料庫設定 Information、Tweets、Follows、Fans四張表，此處僅介紹前面兩張表的欄位。

Information 表：
_id：採用 “使用者ID” 作為唯一標識。
Birthday：出生日期。
City：所在城市。
Gender：性別。
Marriage：婚姻狀況。
NickName：微博暱稱。
Num_Fans：粉絲數量。
Num_Follows：關注數量。
Num_Tweets：已發微博數量。
Province：所在省份。
Signature：個性簽名。
URL：微博的個人首頁。

Tweets 表：
_id：採用 “使用者ID-微博ID” 的形式作為一條微博的唯一標識。
Co_oridinates：發微博時的定位座標（經緯度），呼叫地圖API可直接檢視具體方位，可識別到在哪一棟樓。
Comment：微博被評論的數量。
Content：微博的內容。
ID：使用者ID。
Like：微博被點讚的數量。
PubTime：微博發表時間。
Tools：發微博的工具（手機型別或者平臺）
Transfer：微博被轉發的數量。

轉載請註明出處，謝謝！（原文連結：http://blog.csdn.net/bone_ace/article/details/50903178）

Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
GitHub 上這款新浪微博爬蟲專案，‌讓你輕鬆掌握微博資料！‌
2024-08-31
Github爬蟲
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
使用Scrapy抓取新浪微博使用者資訊
2019-02-16
新浪微博分享不跳轉
2018-09-05
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
如何讓Python爬蟲一天抓取100萬張網頁
2019-05-09
Python爬蟲網頁
Scrapy爬取新浪微博移動版使用者首頁第一條微博
2019-05-12
爬蟲原理與資料抓取
2020-12-17
爬蟲
Python 超簡單爬取新浪微博資料 (高階版)
2020-05-16
Python
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
Python爬蟲新手教程：微醫掛號網醫生資料抓取
2019-07-20
Python爬蟲
大型爬蟲案例：爬取去哪兒網自由行資料(10萬條資料)
2018-08-05
爬蟲
Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
新浪微博&艾漫資料：2019明星白皮書
2019-12-26
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
上萬條資料撕開微博熱搜的真相！
2022-12-08
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
因爬取微博資料賠2000萬元，首例涉資料抓取交易不正當競爭糾紛案塵埃落定
2024-01-18
如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料
2019-05-15
PHP爬蟲亞馬遜
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
讓爬蟲無障礙抓取上千萬APP資料
2019-05-16
爬蟲APP
爬蟲app資訊抓取之apk反編譯抓取
2019-05-10
爬蟲APPAPK編譯
爬蟲實戰（三）：微博使用者資訊分析
2018-07-15
爬蟲
借款人：新浪分期搞“爬蟲”，賣你資料沒商量！
2020-05-29
爬蟲
PHP基於laravel框架獲取微博資料之一模擬新浪微博登入
2019-02-16
PHPLaravel框架
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
新浪微博資料中心：2019微博電影白皮書（附下載）
2020-03-05
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
Python爬蟲抓取資料，為什麼要使用代理IP？
2022-12-27
Python爬蟲
Python爬蟲如何去抓取qq音樂的歌手資料？
2021-03-19
Python爬蟲
新浪微博API生成短連結
2019-02-16
API
轉發新浪微博程式猿心得
2018-10-28
一個批次爬取微博資料的神器
2024-08-30
微博-指定話題當日資料爬取
2024-06-12
又一知名平臺資料庫暴雷！1300萬條敏感記錄曝光
2022-04-15
資料庫
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
IPIDEA大盤點，藉助網路爬蟲抓取資料的作用？
2023-04-27
Idea爬蟲