企業資料爬蟲專案

豔學網發表於2018-10-05

原文網址 : https://blog.csdn.net/sinat_15153911/article/details/82942693

企業資料爬蟲專案（豔輝VIP專案）

第一天：下載解析網站頁面

第一天：下載解析網站頁面

以爬取某電影網上的電影資訊為例，通過xpath，regex獲取網頁上的欄位。通過三大sevice，下載網頁service，解析網頁service和資料儲存service，全面爬取網站上的資訊。
在這裡插入圖片描述
爬蟲開始——>下載網頁——>解析網頁——>存數資料
三步走，分成三大service，例如存數資料，可以用jdbcService，也可以用hbaseService，這樣方便擴充套件業務。

/**
	 * 開啟一個爬蟲入口
	 */
	public void startSpider(){
		while(true){
			//從佇列中提取需要解析的url
			String url = urlQueue.poll();
			//判斷url是否為空
			if(StringUtils.isNotBlank(url)){
				//下載
				Page page = this.downloadPage(url);
				//解析
				this.processPage(page);
				List<String> urlList = page.getUrlList();
				for(String eachurl : urlList){
					this.urlQueue.add(eachurl);
				}
				
				//if(page.getUrl().startsWith("http://list.youku.com/show_page")){
					//儲存資料
					this.storePageInfo(page);
				//}
				
			}else{
				System.out.println("url解析完畢！");
			}
			try {
				Thread.sleep(2000);
			} catch (InterruptedException e) {
				e.printStackTrace();
			}
		}
	}

先爬取電影的標題，電影訪問的次數，評論的人數，電影豆瓣的評分等資訊。

 String seeNum = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("seeXpath"),
				LoadPropertyUtil.getYOUKU("seeRegex"));
		page.setSeeNum(seeNum);

		// 獲取評論數
		String commentNum = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("commentXpath"),
				LoadPropertyUtil.getYOUKU("commentRegex"));
		page.setCommentNum(commentNum);

		// 獲取豆瓣評分
		String score = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("scoreXpath"),
				LoadPropertyUtil.getYOUKU("scoreRegex"));
		page.setScore(score);
		String title = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("titleXpath"),
				LoadPropertyUtil.getYOUKU("titleRegex"));
		page.setTitle(title);

需要下載原始碼可點選豔學網

下載原始碼後，記住分享喲！

第一步：微信關注公眾號豔學網！

第二步：關注後開啟選單“豔輝福利”——“java福利”，轉發文章至朋友圈。

長按自動識別二維碼，即可關注微信公眾號“豔學網”
在這裡插入圖片描述

企業資料爬蟲專案（二）
2018-10-06
爬蟲
資料分析專案（一）——爬蟲篇
2018-11-30
爬蟲
大資料爬蟲專案實戰教程
2018-11-14
大資料爬蟲
爬蟲專案
2019-06-07
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
爬蟲小專案
2019-05-10
爬蟲
爬蟲專案部署
2018-04-03
爬蟲
python爬蟲簡歷專案怎麼寫_爬蟲專案咋寫，爬取什麼樣的資料可以作為專案寫在簡歷上？...
2020-12-01
Python爬蟲
奇伢爬蟲專案
2018-10-08
爬蟲
爬蟲專案總結
2020-08-31
爬蟲
scrapyd 部署爬蟲專案
2018-03-22
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
100爬蟲專案遷移
2018-09-19
爬蟲
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
爬蟲的例項專案
2019-04-26
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案？
2020-10-30
Python爬蟲Github
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
Java爬蟲專案環境搭建
2018-09-18
Java爬蟲
中科院爬蟲完整專案
2018-07-10
爬蟲
32個Python爬蟲專案demo
2018-08-26
Python爬蟲
爬蟲專案:大麥網分析
2019-08-22
爬蟲
Python爬蟲開源專案合集
2020-06-04
Python爬蟲
github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合
2022-02-18
GithubPython爬蟲
（python）爬蟲----八個專案帶你進入爬蟲的世界
2021-07-17
Python爬蟲
python爬蟲小專案--飛常準航班資訊爬取variflight（上）
2019-03-23
Python爬蟲
第一個分散式爬蟲專案
2018-08-15
分散式爬蟲

企業資料爬蟲專案

企業資料爬蟲專案（豔輝VIP專案）

第一天：下載解析網站頁面

相關文章