新浪微博爬蟲分享(一天可抓取 1300 萬條資料)
程式碼請移步GitHub:SinaSpider
爬蟲功能:
- 此專案和QQ空間爬蟲類似,主要爬取新浪微博使用者的個人資訊、微博資訊、粉絲和關注(詳細見此)。
- 程式碼獲取新浪微博Cookie進行登入,可通過多賬號登入來防止新浪的反扒(用來登入的賬號可從淘寶購買,一塊錢七個)。
- 專案爬的是新浪微博wap站,結構簡單,速度應該會比較快,而且反扒沒那麼強,缺點是資訊量會稍微缺少一些(可見爬蟲福利:如何爬wap站)。
- 爬蟲抓取微博的速度可以達到 1300萬/天 以上,具體要視網路情況,我使用的是校園網(廣工大學城校區),普通的家庭網路可能才一半的速度,甚至都不到。
環境、架構:
開發語言:Python2.7
開發環境:64位Windows8系統,4G記憶體,i7-3612QM處理器。
資料庫:MongoDB 3.2.0
(Python編輯器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)
- 主要使用 scrapy 爬蟲框架。
- 下載中介軟體會從Cookie池和User-Agent池中隨機抽取一個加入到spider中。
- start_requests 中根據使用者ID啟動四個Request,同時對個人資訊、微博、關注和粉絲進行爬取。
- 將新爬下來的關注和粉絲ID加入到待爬佇列(先去重)。
使用說明:
啟動前配置:
- MongoDB安裝好 能啟動即可,不需要配置。
- Python需要安裝好scrapy(64位的Python儘量使用64位的依賴模組)
- 另外用到的python模組還有:pymongo、json、base64、requests。
- 將你用來登入的微博賬號和密碼加入到 cookies.py 檔案中,裡面已經有兩個賬號作為格式參考了。
- 另外一些scrapy的設定(如間隔時間、日誌級別、Request執行緒數等)可自行在setting裡面調。
執行截圖:
資料庫說明:
SinaSpider主要爬取新浪微博的個人資訊、微博資料、關注和粉絲。
資料庫設定 Information、Tweets、Follows、Fans四張表,此處僅介紹前面兩張表的欄位。
Information 表:
_id:採用 “使用者ID” 作為唯一標識。
Birthday:出生日期。
City:所在城市。
Gender:性別。
Marriage:婚姻狀況。
NickName:微博暱稱。
Num_Fans:粉絲數量。
Num_Follows:關注數量。
Num_Tweets:已發微博數量。
Province:所在省份。
Signature:個性簽名。
URL:微博的個人首頁。
Tweets 表:
_id:採用 “使用者ID-微博ID” 的形式作為一條微博的唯一標識。
Co_oridinates:發微博時的定位座標(經緯度),呼叫地圖API可直接檢視具體方位,可識別到在哪一棟樓。
Comment:微博被評論的數量。
Content:微博的內容。
ID:使用者ID。
Like:微博被點讚的數量。
PubTime:微博發表時間。
Tools:發微博的工具(手機型別或者平臺)
Transfer:微博被轉發的數量。
轉載請註明出處,謝謝!(原文連結:http://blog.csdn.net/bone_ace/article/details/50903178)
相關文章
- Python實現微博爬蟲,爬取新浪微博Python爬蟲
- GitHub 上這款新浪微博爬蟲專案,讓你輕鬆掌握微博資料!Github爬蟲
- JB的Python之旅-爬蟲篇-新浪微博內容爬取Python爬蟲
- 使用Scrapy抓取新浪微博使用者資訊
- 新浪微博分享不跳轉
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- 如何讓Python爬蟲一天抓取100萬張網頁Python爬蟲網頁
- Scrapy爬取新浪微博移動版使用者首頁第一條微博
- 爬蟲原理與資料抓取爬蟲
- Python 超簡單爬取新浪微博資料 (高階版)Python
- 爬蟲抓取網頁資料原理爬蟲網頁
- Python爬蟲新手教程:微醫掛號網醫生資料抓取Python爬蟲
- 大型爬蟲案例:爬取去哪兒網自由行資料(10萬條資料)爬蟲
- Scrapy框架的使用之Scrapy爬取新浪微博框架
- 爬蟲技術抓取網站資料方法爬蟲網站
- 新浪微博&艾漫資料:2019明星白皮書
- Python爬蟲抓取股票資訊Python爬蟲
- 上萬條資料撕開微博熱搜的真相!
- 爬蟲實戰(一):爬取微博使用者資訊爬蟲
- 因爬取微博資料賠2000萬元,首例涉資料抓取交易不正當競爭糾紛案塵埃落定
- 如何使用代理IP進行資料抓取,PHP爬蟲抓取亞馬遜商品資料PHP爬蟲亞馬遜
- Python爬蟲新手教程:手機APP資料抓取 pyspiderPython爬蟲APPIDE
- 讓爬蟲無障礙抓取上千萬APP資料爬蟲APP
- 爬蟲app資訊抓取之apk反編譯抓取爬蟲APPAPK編譯
- 爬蟲實戰(三):微博使用者資訊分析爬蟲
- 借款人:新浪分期搞“爬蟲”,賣你資料沒商量!爬蟲
- PHP基於laravel框架獲取微博資料之一 模擬新浪微博登入PHPLaravel框架
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- 新浪微博資料中心:2019微博電影白皮書(附下載)
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- Python爬蟲抓取資料,為什麼要使用代理IP?Python爬蟲
- Python爬蟲如何去抓取qq音樂的歌手資料?Python爬蟲
- 新浪微博API生成短連結API
- 轉發新浪微博程式猿心得
- 一個批次爬取微博資料的神器
- 微博-指定話題當日資料爬取
- 又一知名平臺資料庫暴雷!1300萬條敏感記錄曝光資料庫
- 爬蟲進階——動態網頁Ajax資料抓取(簡易版)爬蟲網頁
- IPIDEA大盤點,藉助網路爬蟲抓取資料的作用?Idea爬蟲