好玩的github專案-微信公眾號爬蟲 (只需設定代理, 一鍵可以爬取所有歷史文章)
轉自github使用者:sundyli
使用方法: 執行後, 設定手機的代理為 本機ip 8899埠, 開啟微信客戶端, 點選任一公眾號檢視歷史文章按鈕, 即可爬取該公眾號的所有歷史文章(已經支援自動翻頁爬取)
自定義輸出源,實現Processor介面的Output方法即可, custom_output_server.go
微信會遮蔽頻繁的請求,所以歷史文章的翻頁請求呼叫了Sleep()方法, 預設每個請求休眠50ms,可以根據實際情況自定義Processor覆蓋此方法
一個簡單的Demo simple_server.go
package main
import (
"log"
"net/http"
"github.com/sundy-li/wechat_spider"
"github.com/elazarl/goproxy"
)
func main() {
var port = "8899"
proxy := goproxy.NewProxyHttpServer()
//open it see detail logs
// wechat_spider.Verbose = true
proxy.OnResponse().DoFunc(
wechat_spider.ProxyHandle(wechat_spider.NewBaseProcessor()),
)
log.Println("server will at port:" + port)
log.Fatal(http.ListenAndServe(":"+port, proxy))
}
相關文章
- 爬取微信公眾號文章工具
- 爬蟲實戰專案-公眾號:AI悅創爬蟲AI
- 微信公眾號資訊的爬取解決方案
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- python爬蟲簡歷專案怎麼寫_爬蟲專案咋寫,爬取什麼樣的資料可以作為專案寫在簡歷上?...Python爬蟲
- 爬蟲作業03-爬取解密大資料專欄下的所有文章爬蟲解密大資料
- 爬蟲爬取微信小程式爬蟲微信小程式
- 【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址(1)爬蟲Python
- python 爬蟲 爬取 learnku 精華文章Python爬蟲
- PHP 爬蟲爬取社群文章內容PHP爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- [python 爬蟲]第一個Python爬蟲,爬取某個新浪部落格所有文章並儲存為doc文件Python爬蟲
- GitHub上有哪些優秀的爬蟲專案?Github爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Python爬蟲技巧---設定代理IPPython爬蟲
- github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合GithubPython爬蟲
- 爬蟲雙色球所有的歷史資料並儲存到SQLite爬蟲SQLite
- 歷史股票資料的爬取
- python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案?Python爬蟲Github
- 自制微信公眾號一鍵排版工具
- python爬蟲爬取csdn部落格專家所有部落格內容Python爬蟲
- “微信公眾號-設定-基本配置”的配置
- Python3爬蟲之爬取某一路徑的所有html檔案Python爬蟲HTML
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 爬蟲專案爬蟲
- python爬蟲實戰:爬取西刺代理的代理ip(二)Python爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Python3 大型網路爬蟲實戰 — 給 scrapy 爬蟲專案設定為防反爬Python爬蟲
- 【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址並寫入Excel中(2)爬蟲PythonExcel
- 爬蟲專案實戰(一)爬蟲
- 爬蟲小專案(一)淘寶爬蟲
- 我的爬蟲史爬蟲
- 爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例爬蟲網站
- 某微信公眾號AI文章清單AI
- scrapy定製爬蟲-爬取javascript內容爬蟲JavaScript
- GitHub 上有哪些優秀的 Python 爬蟲專案?GithubPython爬蟲
- 新手爬蟲教程:Python爬取知乎文章中的圖片爬蟲Python
- python爬蟲初探--第一個python爬蟲專案Python爬蟲