新浪微博爬蟲分享(一天可抓取 1300 萬條資料)
程式碼請移步GitHub:SinaSpider
爬蟲功能:
- 此專案和QQ空間爬蟲類似,主要爬取新浪微博使用者的個人資訊、微博資訊、粉絲和關注(詳細見此)。
- 程式碼獲取新浪微博Cookie進行登入,可通過多賬號登入來防止新浪的反扒(用來登入的賬號可從淘寶購買,一塊錢七個)。
- 專案爬的是新浪微博wap站,結構簡單,速度應該會比較快,而且反扒沒那麼強,缺點是資訊量會稍微缺少一些(可見爬蟲福利:如何爬wap站)。
- 爬蟲抓取微博的速度可以達到 1300萬/天 以上,具體要視網路情況,我使用的是校園網(廣工大學城校區),普通的家庭網路可能才一半的速度,甚至都不到。
環境、架構:
開發語言:Python2.7
開發環境:64位Windows8系統,4G記憶體,i7-3612QM處理器。
資料庫:MongoDB 3.2.0
(Python編輯器:Pycharm 5.0.4;MongoDB管理工具:MongoBooster 1.1.1)
- 主要使用 scrapy 爬蟲框架。
- 下載中介軟體會從Cookie池和User-Agent池中隨機抽取一個加入到spider中。
- start_requests 中根據使用者ID啟動四個Request,同時對個人資訊、微博、關注和粉絲進行爬取。
- 將新爬下來的關注和粉絲ID加入到待爬佇列(先去重)。
使用說明:
啟動前配置:
- MongoDB安裝好 能啟動即可,不需要配置。
- Python需要安裝好scrapy(64位的Python儘量使用64位的依賴模組)
- 另外用到的python模組還有:pymongo、json、base64、requests。
- 將你用來登入的微博賬號和密碼加入到 cookies.py 檔案中,裡面已經有兩個賬號作為格式參考了。
- 另外一些scrapy的設定(如間隔時間、日誌級別、Request執行緒數等)可自行在setting裡面調。
執行截圖:
資料庫說明:
SinaSpider主要爬取新浪微博的個人資訊、微博資料、關注和粉絲。
資料庫設定 Information、Tweets、Follows、Fans四張表,此處僅介紹前面兩張表的欄位。
Information 表:
_id:採用 “使用者ID” 作為唯一標識。
Birthday:出生日期。
City:所在城市。
Gender:性別。
Marriage:婚姻狀況。
NickName:微博暱稱。
Num_Fans:粉絲數量。
Num_Follows:關注數量。
Num_Tweets:已發微博數量。
Province:所在省份。
Signature:個性簽名。
URL:微博的個人首頁。
Tweets 表:
_id:採用 “使用者ID-微博ID” 的形式作為一條微博的唯一標識。
Co_oridinates:發微博時的定位座標(經緯度),呼叫地圖API可直接檢視具體方位,可識別到在哪一棟樓。
Comment:微博被評論的數量。
Content:微博的內容。
ID:使用者ID。
Like:微博被點讚的數量。
PubTime:微博發表時間。
Tools:發微博的工具(手機型別或者平臺)
Transfer:微博被轉發的數量。
轉載請註明出處,謝謝!(原文連結:http://blog.csdn.net/bone_ace/article/details/50903178)
相關文章
- QQ空間爬蟲分享(一天可抓取 400 萬條資料)爬蟲
- Python實現微博爬蟲,爬取新浪微博Python爬蟲
- GitHub 上這款新浪微博爬蟲專案,讓你輕鬆掌握微博資料!Github爬蟲
- 爬蟲原理與資料抓取爬蟲
- JB的Python之旅-爬蟲篇-新浪微博內容爬取Python爬蟲
- 如何讓Python爬蟲一天抓取100萬張網頁Python爬蟲網頁
- 爬蟲抓取網頁資料原理爬蟲網頁
- 新浪微博分享不跳轉
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- 大型爬蟲案例:爬取去哪兒網自由行資料(10萬條資料)爬蟲
- 爬蟲技術抓取網站資料方法爬蟲網站
- [python爬蟲] Selenium爬取新浪微博內容及使用者資訊Python爬蟲
- 新浪微博資料:截至2010年10月底新浪微博使用者數已達5000萬
- 如何使用代理IP進行資料抓取,PHP爬蟲抓取亞馬遜商品資料PHP爬蟲亞馬遜
- Python 超簡單爬取新浪微博資料 (高階版)Python
- 讓爬蟲無障礙抓取上千萬APP資料爬蟲APP
- 微博爬蟲 java實現爬蟲Java
- 微博“大資料掘金”:新浪向左 騰訊向右大資料
- 爬蟲抓取UserAgent問題爬蟲
- 借款人:新浪分期搞“爬蟲”,賣你資料沒商量!爬蟲
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- Scrapy框架的使用之Scrapy爬取新浪微博框架
- 上萬條資料撕開微博熱搜的真相!
- 分享到QQ空間、新浪微博、騰訊微博的程式碼!(收藏)
- 資料:新浪微博企業微博釋出時間規律研究
- Python爬蟲新手教程:手機APP資料抓取 pyspiderPython爬蟲APPIDE
- Python爬蟲如何去抓取qq音樂的歌手資料?Python爬蟲
- Python爬蟲抓取資料,為什麼要使用代理IP?Python爬蟲
- [網路爬蟲]使用node.js cheerio抓取網頁資料爬蟲Node.js網頁
- 新浪微博APIAPI
- Python爬蟲抓取股票資訊Python爬蟲
- Google 爬蟲如何抓取 JavaScript 的?Go爬蟲JavaScript
- 社會化登入分享-新浪微博 SDK接入
- 因爬取微博資料賠2000萬元,首例涉資料抓取交易不正當競爭糾紛案塵埃落定
- 爬蟲app資訊抓取之apk反編譯抓取爬蟲APPAPK編譯
- IPIDEA大盤點,藉助網路爬蟲抓取資料的作用?Idea爬蟲
- node 爬蟲,使用 Google puppeteer 抓取 One一個 的網頁資料爬蟲Go網頁
- 爬蟲進階——動態網頁Ajax資料抓取(簡易版)爬蟲網頁