爬蟲抓取UserAgent問題
爬蟲抓取問題:
cpp 程式碼
- wget http://www.bokee.net/alisoubao/rss2.xml
這個地址抓取的內容為以前很老的內容。
同樣用java寫的爬蟲程式抓取的內容和用wget抓取的內容一樣。
而用
cpp 程式碼
- curl http://www.bokee.net/alisoubao/rss2.xml
抓取的內容則是最新的。
感覺很奇怪。後來在google搜尋了一下 wget的引數,最後用
cpp 程式碼
- wget --user-agent=AGENT http://www.bokee.net/alisoubao/rss2.xml
來抓取,抓取的內容是最新的,和用curl抓取的是一樣的。
原因是因為:
--user-agent=AGENT 加了這個引數 的意思是 設定代理的名稱為 AGENT而不是預設的 Wget/VERSION.
可見bokee網對user-agent為AGENT的請求進行了過濾。
同理:
檢查java寫的爬蟲程式裡,請求時帶的user-agent裡含有crawler
所以bokee網也應該對crawler的user-agent進行了過濾。
解決辦法:把user-agent的值改寫即可。
相關文章
- 爬蟲抓取網路資料時經常遇到的六種問題爬蟲
- 爬蟲原理與資料抓取爬蟲
- Python爬蟲抓取股票資訊Python爬蟲
- Google 爬蟲如何抓取 JavaScript 的?Go爬蟲JavaScript
- 爬蟲app資訊抓取之apk反編譯抓取爬蟲APPAPK編譯
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- 爬蟲抓取網頁資料原理爬蟲網頁
- 網路爬蟲之抓取郵箱爬蟲
- 用Python爬蟲抓取代理IPPython爬蟲
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- Python爬蟲亂碼問題Python爬蟲
- Python爬蟲隨機UserAgent庫,讓你不再手動敲UA!Python爬蟲隨機
- Python爬蟲抓取技術的門道Python爬蟲
- 爬蟲技術抓取網站資料方法爬蟲網站
- python爬蟲之抓取小說(逆天邪神)Python爬蟲
- Python爬蟲使用代理proxy抓取網頁Python爬蟲網頁
- wget 網頁爬蟲,網頁抓取工具wget網頁爬蟲
- python爬蟲-抓取騰訊招聘資訊頁面Python爬蟲
- Python爬蟲教程-10-UserAgent和常見瀏覽器UA值Python爬蟲瀏覽器
- 關於爬蟲工具 colly 的問題爬蟲
- 爬蟲過程中遇到的問題爬蟲
- 爬蟲,可用於增加訪問量和抓取網站全頁內容爬蟲網站
- Java爬蟲系列二:使用HttpClient抓取頁面HTMLJava爬蟲HTTPclientHTML
- 編寫web2.0爬蟲——頁面抓取部分Web爬蟲
- Python爬蟲,抓取淘寶商品評論內容!Python爬蟲
- python爬蟲-抓取內涵吧內涵段子Python爬蟲
- 網路爬蟲編寫常見問題爬蟲
- 爬蟲常見問題及解決方式爬蟲
- 網路爬蟲:使用Scrapy框架編寫一個抓取書籍資訊的爬蟲服務爬蟲框架
- 如何使用代理IP進行資料抓取,PHP爬蟲抓取亞馬遜商品資料PHP爬蟲亞馬遜
- 50行爬蟲?️抓取並處理圖靈書目爬蟲圖靈
- 讓爬蟲無障礙抓取上千萬APP資料爬蟲APP
- Scrapy爬蟲:實習僧網最新招聘資訊抓取爬蟲
- Python爬蟲抓取知乎所有使用者資訊Python爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- python爬蟲常見的那點問題!Python爬蟲
- 網路爬蟲常見問題(個人總結)爬蟲
- 網路爬蟲抓取邊界的法律與技術思考爬蟲