企業資料爬蟲專案（二）

豔學網發表於2018-10-06

企業資料爬蟲專案（豔輝VIP專案）

第一天：下載解析網站頁面

第二天：多執行緒定時啟動爬蟲

一個爬蟲專案，會涉及到資料儲存，Queue佇列，快取使用，多執行緒爬取，定時任務爬取，解決頻繁抓取IP被封問題，zookeeper分散式監控節點，郵件提醒等內容。
這裡我們探討其中兩個問題，一是多執行緒，一是定時器。

// 固定執行緒池
	private ExecutorService newFixedThreadPool = Executors
			.newFixedThreadPool(Integer.parseInt(LoadPropertyUtil.getConfig("threadNum")));
newFixedThreadPool.execute(new Runnable() {

				public void run() {
					//業務。。。
				}
});

Java通過Executors提供四種執行緒池，分別為：
newCachedThreadPool建立一個可快取執行緒池，如果執行緒池長度超過處理需要，可靈活回收空閒執行緒，若無可回收，則新建執行緒。
newFixedThreadPool 建立一個定長執行緒池，可控制執行緒最大併發數，超出的執行緒會在佇列中等待。
newScheduledThreadPool 建立一個定長執行緒池，支援定時及週期性任務執行。
newSingleThreadExecutor 建立一個單執行緒化的執行緒池，它只會用唯一的工作執行緒來執行任務，保證所有任務按照指定順序(FIFO, LIFO, 優先順序)執行。

//獲取預設排程器
			Scheduler defaultScheduler = StdSchedulerFactory.getDefaultScheduler();
			//開啟排程器
			defaultScheduler.start();
			
			//被排程的任務
			JobDetail jobDetail = new JobDetail("url-job", Scheduler.DEFAULT_GROUP, AddUrlJob.class);
			//定時執行任務
//			CronTrigger trigger = new CronTrigger("url-job", Scheduler.DEFAULT_GROUP, "00 11 18 * * ?");
			CronTrigger trigger = new CronTrigger("url-job", Scheduler.DEFAULT_GROUP, "0/10 * * * * ?");
			//新增排程任務
			defaultScheduler.scheduleJob(jobDetail , trigger);

這裡用了quartz定時，每10秒執行AddUrlClass類，即是將url新增到佇列中，讓爬蟲爬取url地址的內容。

需要下載原始碼可點選豔學網

下載原始碼後，記住分享喲！

第一步：微信關注公眾號豔學網！

第二步：關注後開啟選單“豔輝福利”——“java福利”，轉發文章至朋友圈。

長按自動識別二維碼，即可關注微信公眾號“豔學網”
在這裡插入圖片描述

企業資料爬蟲專案
2018-10-05
爬蟲
資料分析專案（一）——爬蟲篇
2018-11-30
爬蟲
大資料爬蟲專案實戰教程
2018-11-14
大資料爬蟲
爬蟲專案
2019-06-07
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
爬蟲小專案
2019-05-10
爬蟲
爬蟲專案部署
2018-04-03
爬蟲
python爬蟲簡歷專案怎麼寫_爬蟲專案咋寫，爬取什麼樣的資料可以作為專案寫在簡歷上？...
2020-12-01
Python爬蟲
奇伢爬蟲專案
2018-10-08
爬蟲
爬蟲專案總結
2020-08-31
爬蟲
scrapyd 部署爬蟲專案
2018-03-22
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
使用 nodejs 寫爬蟲(二): 抓取 github 熱門專案
2019-04-05
NodeJS爬蟲Github
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
100爬蟲專案遷移
2018-09-19
爬蟲
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
爬蟲的例項專案
2019-04-26
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案？
2020-10-30
Python爬蟲Github
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
Java爬蟲專案環境搭建
2018-09-18
Java爬蟲
中科院爬蟲完整專案
2018-07-10
爬蟲
32個Python爬蟲專案demo
2018-08-26
Python爬蟲
爬蟲專案:大麥網分析
2019-08-22
爬蟲
Python爬蟲開源專案合集
2020-06-04
Python爬蟲
github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合
2022-02-18
GithubPython爬蟲
（python）爬蟲----八個專案帶你進入爬蟲的世界
2021-07-17
Python爬蟲
python爬蟲小專案--飛常準航班資訊爬取variflight（上）
2019-03-23
Python爬蟲

企業資料爬蟲專案（二）

企業資料爬蟲專案（豔輝VIP專案）

第一天：下載解析網站頁面

第二天：多執行緒定時啟動爬蟲

相關文章