Java爬蟲框架，WebMagic 0.4.0 釋出

Web開發者發表於2013-11-07

原文網址 : http://www.admin10000.com/document/3268.html

Java爬蟲框架Web

　　webmagic採用完全模組化的設計，功能覆蓋整個爬蟲的生命週期(連結提取、頁面下載、內容抽取、持久化)，支援多執行緒抓取，分散式抓取，並支援自動重試、自定義UA/cookie等功能。

　　webmagic包含強大的頁面抽取功能，開發者可以便捷的使用css selector、xpath和正規表示式進行連結和內容的提取，支援多個選擇器鏈式呼叫。

　　此次更新主要對下載模組進行了優化，並增加了同步下載的API，同時對程式碼進行了一些重構。

　　一、Downloader部分更新：

升級HttpClient到4.3.1，重寫了HttpClientDownloader的程式碼 #32。
在http請求中主動開啟gzip，降低傳輸開銷 #31。
修復0.3.2及之前版本連線池不生效的問題 #30，使用HttpClient 4.3.1新的連線池機制，實現連線複用功能。

　　經測試，下載速度可達到90%左右的提升。測試程式碼：Kr36NewsModel.java 。

　　二、增加同步抓取的API，對於小規模的抓取任務更方便：

OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(100), BaiduBaike.class);
BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
System.out.println(baike);

　　三、Site(配置類)增加更多配置項：

支援Http代理: Site.setHttpProxy #22 。
支援自定義所有Http頭：Site.addHeader #27 。
支援開啟和關閉gzip：Site.setUseGzip(false) 。
Site.addStartUrl移到了Spider.addUrl，因為作者認為startUrl應該是Spider的屬性，而不是Site的屬性。

　　四、Spider(主邏輯)進行了一些重構：

重寫了多執行緒邏輯，程式碼更加易懂了，同時修復了一些執行緒安全問題。
引入了Google Guava API，讓程式碼更簡潔。
增加配置Spider.setSpawnUrl(false)，此選項為false時，只下載給定的url，不下載任何新發現的url。
可以給初始url中附帶更多資訊：Spider.addRequest #29

　　另外webmagic郵件組成立了，歡迎加入：https://groups.google.com/forum/#!forum/webmagic-java

WebMagic 爬蟲框架淺析
2019-02-13
Web爬蟲框架
Java實現網路爬蟲案例程式碼3：使用webmagic框架獲取天氣預報
2023-02-08
Java爬蟲Web框架
Layotto v0.4.0-rc 釋出
2022-04-13
Halo 部落格系統 -0.4.0 釋出
2019-01-29
Scrapy爬蟲框架
2024-11-13
爬蟲框架
SWCJ爬蟲框架
2022-01-26
爬蟲框架
使用webmagic爬蟲對百度百科進行簡單的爬取
2019-02-20
Web爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
爬蟲平臺Crawlab v0.2釋出
2019-05-10
爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
爬蟲框架如何搭建
2023-11-27
爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
使用java 爬蟲
2020-10-05
Java爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
常用python爬蟲框架整理
2018-07-16
Python爬蟲框架
六種高效爬蟲框架
2022-06-07
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Sentinel Go 0.4.0 釋出，支援熱點流量防護能力
2020-07-06
Go
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
什麼是Python爬蟲？Python爬蟲常用框架有哪些？
2020-12-24
Python爬蟲框架
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python爬蟲與Java爬蟲有何區別？
2022-06-01
Python爬蟲Java
SuperEdge v0.4.0 釋出，大幅提升使用和運維效率
2021-06-24
運維
Java爬蟲翻頁
2024-07-09
Java爬蟲
Python微型非同步爬蟲框架
2019-02-16
Python非同步爬蟲框架
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
Python爬蟲和java爬蟲哪個效率高
2023-10-12
Python爬蟲Java
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
開源JAVA單機爬蟲框架簡介,優缺點分析
2018-11-16
Java爬蟲框架
IPIDEA乾貨|Java爬蟲與Python爬蟲的區別
2023-05-08
IdeaJava爬蟲Python
java 爬蟲大型教程（一）
2019-01-24
Java爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲

Java爬蟲框架，WebMagic 0.4.0 釋出

相關文章