搜狗搜尋微信Python爬蟲案例

niuya發表於2022-04-04

搜狗微信目前還是可以檢索文章,具有一定的採集價值。

介面分析

先分析介面,普通的GET請求。


經過測試,發現主要對cookies中的兩個引數進行校驗,SNUID 和 SUV 。




SNUID 和 SUV 都是由服務端返回,在初次訪問時即可獲取。


一般情況下,頻繁訪問後會出現圖文驗證碼,當完成驗證之後,會返回一個新的ID,該ID即是SNUID。



而服務端對 SUV 的來源並沒有過多校驗,只要是真實的引數即可。



當大家可以生成 SNUID 和 SUV 時,就能暢通無阻的進行採集。


引數生成

SUV 相對簡單,請求某些介面即可獲取。


 SUV = dict_from_cookiejar(requests.get(').cookies)['SUV']

1

SNUID 需要完成驗證碼校驗。


驗證碼頁面地址:


驗證介面:


關於本部分的具體實施,是先請求該頁面,提取出驗證碼圖片,在本地識別後通過驗證介面提交,進行校驗。


校驗成功返回:{‘code’: 0, ‘msg’: ‘解封成功,正在為您跳轉來源地址…’, ‘id’: ‘0ED9B76D171DC1A6E862079C1877D6B8’}


驗證失敗返回: {‘code’: 3, ‘msg’: ‘驗證碼輸入錯誤, 請重新輸入!’}


校驗成功返回的id即是SNUID。


本部分程式碼過多,就不貼了,拿去自己研究吧。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69979869/viewspace-2885661/,如需轉載,請註明出處,否則將追究法律責任。

相關文章