一個基於golang的爬蟲電影站,效果站: https://go-movies.hezhizheng.com/
使用安裝
# 下載
git clone https://github.com/hezhizheng/go-movies
# 進入目錄
cd go-movies
# 啟動
go run main.go
or
# 安裝 bee 工具
bee run
訪問
http://127.0.0.1:8899
開啟爬蟲
- 直接訪問連結http://127.0.0.1:8899/movies-spider
- 消耗:Windows 下 cup 10% 左右,記憶體 30mb 左右
- 網路正常的情況下,爬蟲完畢耗時大概21分鐘左右(存在部分爬取失敗的記錄)
Tools
- https://github.com/gocolly/colly 爬蟲框架
- html/template 模板引擎
- 資料庫 redis 快取/持久 https://github.com/Go-redis/redis
- 路由 https://github.com/julienschmidt/httproute...
- json解析 jsoniter github.com/json-iterator/go
目錄結構參考beego設定
TODO
- [ ] 跨平臺打包,模板路徑不正確
- [ ] goroutine 併發數控制
- [ ] 爬取資料的完整性
- [ ] redis查詢問題?
Other
許多Go的原理還沒弄懂,有精力會慢慢深究下。寫得很潦草,多多包涵。