網路爬蟲三大特性

web-crawler發表於2015-01-23

原文網址 : https://blog.csdn.net/u013027725/article/details/43055465

（1）傳統爬蟲，像nutch、hetriex之類的，以爬取簡單頁面為好，即沒有複雜請求的頁面。但隨著web2.0的興起，越來越多的網站採用很多動態互動技術如ajax之類的來提升使用者體驗、需使用者登陸才可訪問的頁面等，它們就無能為力了，或者說需要二次開發的開發成本太高，很多人放棄用它們。

（2）定製爬蟲，針對一些大資料平臺，如微博、電商、點評網之類的，頁面互動複雜、使用者登陸後方可訪問，往往是需要自定義定製開發一些爬蟲專案，如專門針對微博的微博爬蟲，針對大眾點評網的定製爬蟲，針對豆辯書評的評論爬蟲，都屬於典型的定製爬蟲，其難度要大於傳統爬蟲，需要相應的定製分析工具與能力，並且要具備很紮實的程式設計功底，優化效率，克服驗證碼、拒絕服務等反爬措施，方可做出高效的該類爬蟲。現在主流依然是基於httpclient+jsoup來搞定網路下載與頁面解析。

（3）新型爬蟲，結合一些成熟的第三方工具，如c/c++實現的webkit、htmlunit、phantomjs、casper等工具，其共同點即最大限度的去模擬人為操作瀏覽器的方式去解決用（1）（2）所不易解決的問題，如模擬登陸、複雜引數的獲取、複雜頁面互動等問題。往往採用如上的工具可以輕鬆搞定這些問題，其最大的缺點是由於基於真實瀏覽器的操作，故效率比較低，所以往往需要和httpclient相結合，才能達到高效實用的目的。基於phantomjs做的百度元搜尋抓取也證明了這一點，下一步可以結合它去完成微博類爬蟲的模擬登陸獲取cookies部分，之後採用httpclient+jsoup解決海量資料的抓取，是非常好的微博爬蟲解決方案。

網路爬蟲
2018-12-07
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
什麼是網路爬蟲
2018-12-02
爬蟲
網路爬蟲大型教程(二)
2018-05-14
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
網路爬蟲流程總結
2023-03-09
爬蟲
網路爬蟲如何運作？
2022-02-08
爬蟲
python網路爬蟲合法嗎
2021-09-11
Python爬蟲
網路爬蟲的反扒策略
2021-09-11
爬蟲
什麼是網路爬蟲？
2022-12-09
爬蟲
網路爬蟲是什麼？
2022-05-25
爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
Golang 網路爬蟲框架gocolly/colly
2019-01-15
Golang爬蟲框架
網路爬蟲開發常用框架
2019-02-27
爬蟲框架
Java網路爬蟲實操（10）
2018-06-10
Java爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
Java網路爬蟲實操（8）
2018-03-15
Java爬蟲
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
Java網路爬蟲實操（7）
2018-03-05
Java爬蟲
Java網路爬蟲實操（9）
2018-03-17
Java爬蟲
如何防止網路爬蟲被限制？
2022-05-17
爬蟲
C#網路爬蟲開發
2023-02-12
C#爬蟲

網路爬蟲三大特性

相關文章