網路爬蟲三大特性
(1) 傳統爬蟲,像nutch、hetriex之類的,以爬取簡單頁面為好,即沒有複雜請求的頁面。但隨著web2.0的興起,越來越多的網站採用很多動態互動技術如ajax之類的來提升使用者體驗、需使用者登陸才可訪問的頁面等,它們就無能為力了,或者說需要二次開發的開發成本太高,很多人放棄用它們。
(2) 定製爬蟲,針對一些大資料平臺,如微博、電商、點評網之類的,頁面互動複雜、使用者登陸後方可訪問,往往是需要自定義定製開發一些爬蟲專案,如專門針對微博的微博爬蟲,針對大眾點評網的定製爬蟲,針對豆辯書評的評論爬蟲,都屬於典型的定製爬蟲,其難度要大於傳統爬蟲,需要相應的定製分析工具與能力,並且要具備很紮實的程式設計功底,優化效率,克服驗證碼、拒絕服務等反爬措施,方可做出高效的該類爬蟲。現在主流依然是基於httpclient+jsoup來搞定網路下載與頁面解析。
(3) 新型爬蟲,結合一些成熟的第三方工具,如c/c++實現的webkit、htmlunit、phantomjs、casper等工具,其共同點即最大限度的去模擬人為操作瀏覽器的方式去解決用(1)(2)所不易解決的問題,如模擬登陸、複雜引數的獲取、複雜頁面互動等問題。往往採用如上的工具可以輕鬆搞定這些問題,其最大的缺點是由於基於真實瀏覽器的操作,故效率比較低,所以往往需要和httpclient相結合,才能達到高效實用的目的。基於phantomjs做的百度元搜尋抓取也證明了這一點,下一步可以結合它去完成微博類爬蟲的模擬登陸獲取cookies部分,之後採用httpclient+jsoup解決海量資料的抓取,是非常好的微博爬蟲解決方案。
相關文章
- 網路爬蟲爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 網路爬蟲示例爬蟲
- 網路爬蟲精要爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 網路爬蟲的原理爬蟲
- python DHT網路爬蟲Python爬蟲
- 網路爬蟲專案爬蟲
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- 什麼是Python網路爬蟲?常見的網路爬蟲有哪些?Python爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- python網路爬蟲(9)構建基礎爬蟲思路Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 什麼是網路爬蟲爬蟲
- 網路爬蟲大型教程(二)爬蟲
- 專案--python網路爬蟲Python爬蟲
- 網路爬蟲流程總結爬蟲
- 網路爬蟲如何運作?爬蟲
- python網路爬蟲合法嗎Python爬蟲
- 網路爬蟲的反扒策略爬蟲
- 什麼是網路爬蟲?爬蟲
- 網路爬蟲是什麼?爬蟲
- Python網路爬蟲實戰Python爬蟲
- [網路爬蟲] 網路爬蟲實踐:大麥網演唱會預約搶票 【待續】爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)Python爬蟲
- Golang 網路爬蟲框架gocolly/collyGolang爬蟲框架
- 網路爬蟲開發常用框架爬蟲框架
- Java網路爬蟲實操(10)Java爬蟲
- 網路爬蟲之抓取郵箱爬蟲
- Java網路爬蟲實操(8)Java爬蟲
- python網路爬蟲筆記(一)Python爬蟲筆記
- [網路爬蟲] Jsoup : HTML 解析工具爬蟲JSHTML
- Java網路爬蟲實操(7)Java爬蟲
- Java網路爬蟲實操(9)Java爬蟲
- 如何防止網路爬蟲被限制?爬蟲
- C#網路爬蟲開發C#爬蟲