爬蟲抓取UserAgent問題
爬蟲抓取問題:
cpp 程式碼
- wget http://www.bokee.net/alisoubao/rss2.xml
這個地址抓取的內容為以前很老的內容。
同樣用java寫的爬蟲程式抓取的內容和用wget抓取的內容一樣。
而用
cpp 程式碼
- curl http://www.bokee.net/alisoubao/rss2.xml
抓取的內容則是最新的。
感覺很奇怪。後來在google搜尋了一下 wget的引數,最後用
cpp 程式碼
- wget --user-agent=AGENT http://www.bokee.net/alisoubao/rss2.xml
來抓取,抓取的內容是最新的,和用curl抓取的是一樣的。
原因是因為:
--user-agent=AGENT 加了這個引數 的意思是 設定代理的名稱為 AGENT而不是預設的 Wget/VERSION.
可見bokee網對user-agent為AGENT的請求進行了過濾。
同理:
檢查java寫的爬蟲程式裡,請求時帶的user-agent裡含有crawler
所以bokee網也應該對crawler的user-agent進行了過濾。
解決辦法:把user-agent的值改寫即可。
相關文章
- 爬蟲抓取網路資料時經常遇到的六種問題爬蟲
- Python爬蟲抓取股票資訊Python爬蟲
- 爬蟲原理與資料抓取爬蟲
- 用Python爬蟲抓取代理IPPython爬蟲
- 網路爬蟲之抓取郵箱爬蟲
- 爬蟲抓取網頁資料原理爬蟲網頁
- Python爬蟲亂碼問題Python爬蟲
- 爬蟲app資訊抓取之apk反編譯抓取爬蟲APPAPK編譯
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- Python爬蟲隨機UserAgent庫,讓你不再手動敲UA!Python爬蟲隨機
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- Python爬蟲抓取技術的門道Python爬蟲
- Python爬蟲教程-10-UserAgent和常見瀏覽器UA值Python爬蟲瀏覽器
- python爬蟲之抓取小說(逆天邪神)Python爬蟲
- 爬蟲技術抓取網站資料方法爬蟲網站
- 關於爬蟲工具 colly 的問題爬蟲
- 爬蟲過程中遇到的問題爬蟲
- 爬蟲,可用於增加訪問量和抓取網站全頁內容爬蟲網站
- Python爬蟲,抓取淘寶商品評論內容!Python爬蟲
- 編寫web2.0爬蟲——頁面抓取部分Web爬蟲
- Java爬蟲系列二:使用HttpClient抓取頁面HTMLJava爬蟲HTTPclientHTML
- 網路爬蟲編寫常見問題爬蟲
- 爬蟲常見問題及解決方式爬蟲
- python爬蟲常見的那點問題!Python爬蟲
- 使用 nodejs 寫爬蟲(二): 抓取 github 熱門專案NodeJS爬蟲Github
- 50行爬蟲?️抓取並處理圖靈書目爬蟲圖靈
- Python爬蟲新手教程:手機APP資料抓取 pyspiderPython爬蟲APPIDE
- 讓爬蟲無障礙抓取上千萬APP資料爬蟲APP
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- Python爬蟲二:抓取京東商品列表頁面資訊Python爬蟲
- Python爬蟲抓取知乎所有使用者資訊Python爬蟲
- 網路爬蟲抓取邊界的法律與技術思考爬蟲
- 網路爬蟲如何獲取IP進行資料抓取爬蟲
- Python爬蟲抓取資料,為什麼要使用代理IP?Python爬蟲
- Scrapy爬蟲:實習僧網最新招聘資訊抓取爬蟲
- Python爬蟲如何去抓取qq音樂的歌手資料?Python爬蟲
- 如何使用代理IP進行資料抓取,PHP爬蟲抓取亞馬遜商品資料PHP爬蟲亞馬遜
- 網路爬蟲常見問題(個人總結)爬蟲