好玩的github專案-微信公眾號爬蟲 (只需設定代理, 一鍵可以爬取所有歷史文章)

wwdyy發表於2016-10-27

轉自github使用者:sundyli

使用方法: 執行後, 設定手機的代理為 本機ip 8899埠, 開啟微信客戶端, 點選任一公眾號檢視歷史文章按鈕, 即可爬取該公眾號的所有歷史文章(已經支援自動翻頁爬取)

自定義輸出源,實現Processor介面的Output方法即可, custom_output_server.go

微信會遮蔽頻繁的請求,所以歷史文章的翻頁請求呼叫了Sleep()方法, 預設每個請求休眠50ms,可以根據實際情況自定義Processor覆蓋此方法

一個簡單的Demo simple_server.go

package main

import (
    "log"
    "net/http"

    "github.com/sundy-li/wechat_spider"

    "github.com/elazarl/goproxy"
)

func main() {
    var port = "8899"
    proxy := goproxy.NewProxyHttpServer()
    //open it see detail logs
    // wechat_spider.Verbose = true
    proxy.OnResponse().DoFunc(
        wechat_spider.ProxyHandle(wechat_spider.NewBaseProcessor()),
    )
    log.Println("server will at port:" + port)
    log.Fatal(http.ListenAndServe(":"+port, proxy))

}

github連結:https://github.com/sundy-li/wechat_spider

相關文章