企業資料爬蟲專案(二)
企業資料爬蟲專案(豔輝VIP專案)
第一天:下載解析網站頁面
第二天:多執行緒定時啟動爬蟲
一個爬蟲專案,會涉及到資料儲存,Queue佇列,快取使用,多執行緒爬取,定時任務爬取,解決頻繁抓取IP被封問題,zookeeper分散式監控節點,郵件提醒等內容。
這裡我們探討其中兩個問題,一是多執行緒,一是定時器。
// 固定執行緒池
private ExecutorService newFixedThreadPool = Executors
.newFixedThreadPool(Integer.parseInt(LoadPropertyUtil.getConfig("threadNum")));
newFixedThreadPool.execute(new Runnable() {
public void run() {
//業務。。。
}
});
Java通過Executors提供四種執行緒池,分別為:
newCachedThreadPool建立一個可快取執行緒池,如果執行緒池長度超過處理需要,可靈活回收空閒執行緒,若無可回收,則新建執行緒。
newFixedThreadPool 建立一個定長執行緒池,可控制執行緒最大併發數,超出的執行緒會在佇列中等待。
newScheduledThreadPool 建立一個定長執行緒池,支援定時及週期性任務執行。
newSingleThreadExecutor 建立一個單執行緒化的執行緒池,它只會用唯一的工作執行緒來執行任務,保證所有任務按照指定順序(FIFO, LIFO, 優先順序)執行。
//獲取預設排程器
Scheduler defaultScheduler = StdSchedulerFactory.getDefaultScheduler();
//開啟排程器
defaultScheduler.start();
//被排程的任務
JobDetail jobDetail = new JobDetail("url-job", Scheduler.DEFAULT_GROUP, AddUrlJob.class);
//定時執行任務
// CronTrigger trigger = new CronTrigger("url-job", Scheduler.DEFAULT_GROUP, "00 11 18 * * ?");
CronTrigger trigger = new CronTrigger("url-job", Scheduler.DEFAULT_GROUP, "0/10 * * * * ?");
//新增排程任務
defaultScheduler.scheduleJob(jobDetail , trigger);
這裡用了quartz定時,每10秒執行AddUrlClass類,即是將url新增到佇列中,讓爬蟲爬取url地址的內容。
需要下載原始碼可點選 豔學網
下載原始碼後,記住分享喲!
第一步:微信關注公眾號豔學網!
第二步:關注後開啟選單“豔輝福利”——“java福利”,轉發文章至朋友圈。
長按自動識別二維碼,即可關注微信公眾號“豔學網”
相關文章
- 企業資料爬蟲專案爬蟲
- 資料分析專案(一)——爬蟲篇爬蟲
- 大資料爬蟲專案實戰教程大資料爬蟲
- Linux企業級專案實踐之網路爬蟲(28)——爬蟲socket處理Linux爬蟲
- 爬蟲專案爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- Linux企業級專案實踐之網路爬蟲(16)——使用base64傳輸二進位制資料Linux爬蟲
- 爬蟲小專案爬蟲
- 爬蟲專案部署爬蟲
- 建立爬蟲專案爬蟲
- Linux企業級專案實踐之網路爬蟲(21)——擴充套件為多工爬蟲Linux爬蟲套件
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲
- 奇伢爬蟲專案爬蟲
- 爬蟲專案總結爬蟲
- 網路爬蟲專案爬蟲
- scrapyd 部署爬蟲專案爬蟲
- Scrapy建立爬蟲專案爬蟲
- Linux企業級專案實踐之網路爬蟲(7)——DNS解析Linux爬蟲DNS
- Linux企業級專案實踐之網路爬蟲(19)——epoll介面Linux爬蟲
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- Linux企業級專案實踐之網路爬蟲(15)——區分文字檔案和二進位制檔案Linux爬蟲
- python爬蟲簡歷專案怎麼寫_爬蟲專案咋寫,爬取什麼樣的資料可以作為專案寫在簡歷上?...Python爬蟲
- Linux企業級專案實踐之網路爬蟲(24)——定製規則擴充套件為垂直爬蟲Linux爬蟲套件
- Linux企業級專案實踐之網路爬蟲(5)——處理配置檔案Linux爬蟲
- Linux企業級專案實踐之網路爬蟲(4)——主程式流程Linux爬蟲
- Linux企業級專案實踐之網路爬蟲(8)——認識URLLinux爬蟲
- 爬蟲作業03-爬取解密大資料專欄下的所有文章爬蟲解密大資料
- 爬蟲專案實戰(一)爬蟲
- 爬蟲實戰專案集合爬蟲
- 爬蟲的例項專案爬蟲
- 爬蟲實戰專案合集爬蟲
- gerapy框架爬蟲專案部署框架爬蟲
- 爬蟲小專案(一)淘寶爬蟲
- Python爬蟲專案整理Python爬蟲
- 網路爬蟲專案蒐集爬蟲
- 11.4. 爬蟲專案爬蟲