一篇文章教會你使用Python定時抓取微博評論
【Part1——理論篇】
試想一個問題,如果我們要抓取某個微博大V微博的評論資料,應該怎麼實現呢?最簡單的做法就是找到微博評論資料介面,然後透過改變引數來獲取最新資料並儲存。首先從微博api尋找抓取評論的介面,如下圖所示。
但是很不幸,該介面頻率受限,抓不了幾次就被禁了,還沒有開始起飛,就涼涼了。
接下來小編又選擇微博的移動端網站,先登入,然後找到我們想要抓取評論的微博,開啟瀏覽器自帶流量分析工具,一直下拉評論,找到評論資料介面
之後點選“引數”選項卡,可以看到引數為下圖所示的內容:
可以看到總共有4個引數,其中第1、2個引數為該條微博的id,就像人的身份證號一樣,這個相當於該條微博的“身份證號”,max_id是變換頁碼的引數,每次都要變化,下次的max_id引數值在本次請求的返回資料中。
【Part2——實戰篇】
有了上文的基礎之後,下面我們開始擼程式碼,使用Python進行實現。
1、首先區分url,第一次不需要max_id,第二次需要用第一次返回的max_id。
2、請求的時候需要帶上cookie資料,微博cookie的有效期比較長,足夠抓一條微博的評論資料了,cookie資料可以從瀏覽器分析工具中找到。
3、然後將返回資料轉換成json格式,取出評論內容、評論者暱稱和評論時間等資料,輸出結果如下圖所示。
4、為了儲存評論內容,我們要將評論中的表情去掉,使用正規表示式進行處理,如下圖所示。
5、之後接著把內容儲存到txt檔案中,使用簡單的open函式進行實現,如下圖所示。
6、重點來了,透過此介面最多隻能返回16頁的資料(每頁20條),網上也有說返回50頁的,但是介面不同、返回的資料條數也不同,所以我加了個for迴圈,一步到位,遍歷還是很給力的
7、這裡把函式命名為job。為了能夠一直取出最新的資料,我們可以用schedule給程式加個定時功能,每隔10分鐘或者半個小時抓1次,如下圖所示。
8、對獲取到的資料,做去重處理,如下圖所示。如果評論已經在裡邊的話,就直接pass掉,如果沒有的話,繼續追加即可。
這項工作到此就基本完成了。
【Part3——總結篇】
這種方法雖然抓不全資料,但在這種微博的限制條件下,也是一種比較有效的方法。
最後如果您需要本文程式碼的話,請在後臺回覆“微博”二字,覺得不錯,記得給個star噢~
看完本文有收穫?請轉發分享給更多的人
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2983/viewspace-2825658/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一篇文章教會你使用Python網路爬蟲下載酷狗音樂Python爬蟲
- 一篇文章教會你使用Java8中的Lambda表示式Java
- 一篇文章教會你Event loop——瀏覽器和NodeOOP瀏覽器
- Web自動化三種等待方式,一篇文章教會你Web
- 一篇文章教會你利用Python網路爬蟲實現豆瓣電影採集Python爬蟲
- UED Landing 頁 - 定時抓取掘金文章
- Python爬蟲,抓取淘寶商品評論內容!Python爬蟲
- 瞭解 Oracle 中單引號與雙引號的用法,一篇文章教會你!Oracle
- 一篇文章教會你利用Python網路爬蟲獲取有道翻譯手機版的翻譯介面Python爬蟲
- Jquery實現微博分享評論表情特效jQuery特效
- 一篇文章帶你瞭解和使用Promise物件Promise物件
- 一篇討論“翻譯腔”的文章
- 一篇文章告訴你什麼是 Python 元類Python
- 一篇文章帶你使用 Python 將 txt 文件內容儲存到 excel 表中PythonExcel
- PowerShell定時抓取螢幕影象
- Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapyPython爬蟲
- Python爬蟲之js加密破解,抓取網易雲音樂評論生成詞雲Python爬蟲JS加密
- 一篇文章帶你吃透 Docker 原理Docker
- 一篇文章帶你入門Zookeeper
- Reddit採集API reddit文章評論和搜尋 實時資料介面API
- 一篇文章帶你瞭解Python基礎測試工具——UnitTestPython
- Laravel 5.4 入門系列 8. 文章評論Laravel
- 一篇文章帶你認識 SpringSecuritySpringGse
- MySQL命令,一篇文章替你全部搞定MySql
- 使用python呼叫新浪微博介面Python
- 一篇文章搞定Python多程式(全)Python
- 一篇文章搞定Python中的類Python
- 一篇文章帶你瞭解高質量代理ip的使用技巧
- 新浪微博上線評論新功能:熱度排序 博主“翻牌”排序
- 一篇文章幫你瞭解 PHP 7.3 更新PHP
- 這是一篇你能看懂 Java JVM 文章JavaJVM
- 一篇文章帶你快速入門createjsJS
- 一篇文章讓你搞懂原型和原型鏈原型
- 使用python進行web抓取PythonWeb
- 行為驅動開發:一篇文章帶你用 Python 玩轉 BDDPython
- 什麼是Python爬蟲?一篇文章帶你全面瞭解爬蟲Python爬蟲
- 一篇文章讓你徹底搞清楚Python中self的含義Python
- 我試圖透過這篇文章,教會你一種閱讀原始碼的方式。原始碼