企業資料爬蟲專案
企業資料爬蟲專案(豔輝VIP專案)
第一天:下載解析網站頁面
以爬取某電影網上的電影資訊為例,通過xpath,regex獲取網頁上的欄位。通過三大sevice,下載網頁service,解析網頁service和資料儲存service,全面爬取網站上的資訊。
爬蟲開始——>下載網頁——>解析網頁——>存數資料
三步走,分成三大service,例如存數資料,可以用jdbcService,也可以用hbaseService,這樣方便擴充套件業務。
/**
* 開啟一個爬蟲入口
*/
public void startSpider(){
while(true){
//從佇列中提取需要解析的url
String url = urlQueue.poll();
//判斷url是否為空
if(StringUtils.isNotBlank(url)){
//下載
Page page = this.downloadPage(url);
//解析
this.processPage(page);
List<String> urlList = page.getUrlList();
for(String eachurl : urlList){
this.urlQueue.add(eachurl);
}
//if(page.getUrl().startsWith("http://list.youku.com/show_page")){
//儲存資料
this.storePageInfo(page);
//}
}else{
System.out.println("url解析完畢!");
}
try {
Thread.sleep(2000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
先爬取電影的標題,電影訪問的次數,評論的人數,電影豆瓣的評分等資訊。
String seeNum = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("seeXpath"),
LoadPropertyUtil.getYOUKU("seeRegex"));
page.setSeeNum(seeNum);
// 獲取評論數
String commentNum = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("commentXpath"),
LoadPropertyUtil.getYOUKU("commentRegex"));
page.setCommentNum(commentNum);
// 獲取豆瓣評分
String score = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("scoreXpath"),
LoadPropertyUtil.getYOUKU("scoreRegex"));
page.setScore(score);
String title = HtmlUtil.getFieldByRegex2(rootNode, LoadPropertyUtil.getYOUKU("titleXpath"),
LoadPropertyUtil.getYOUKU("titleRegex"));
page.setTitle(title);
需要下載原始碼可點選 豔學網
下載原始碼後,記住分享喲!
第一步:微信關注公眾號豔學網!
第二步:關注後開啟選單“豔輝福利”——“java福利”,轉發文章至朋友圈。
長按自動識別二維碼,即可關注微信公眾號“豔學網”
相關文章
- 企業資料爬蟲專案(二)爬蟲
- 資料分析專案(一)——爬蟲篇爬蟲
- 大資料爬蟲專案實戰教程大資料爬蟲
- Linux企業級專案實踐之網路爬蟲(28)——爬蟲socket處理Linux爬蟲
- 爬蟲專案爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 爬蟲小專案爬蟲
- 爬蟲專案部署爬蟲
- 建立爬蟲專案爬蟲
- Linux企業級專案實踐之網路爬蟲(21)——擴充套件為多工爬蟲Linux爬蟲套件
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲
- 奇伢爬蟲專案爬蟲
- 爬蟲專案總結爬蟲
- 網路爬蟲專案爬蟲
- scrapyd 部署爬蟲專案爬蟲
- Scrapy建立爬蟲專案爬蟲
- Linux企業級專案實踐之網路爬蟲(7)——DNS解析Linux爬蟲DNS
- Linux企業級專案實踐之網路爬蟲(19)——epoll介面Linux爬蟲
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- python爬蟲簡歷專案怎麼寫_爬蟲專案咋寫,爬取什麼樣的資料可以作為專案寫在簡歷上?...Python爬蟲
- Linux企業級專案實踐之網路爬蟲(24)——定製規則擴充套件為垂直爬蟲Linux爬蟲套件
- Linux企業級專案實踐之網路爬蟲(5)——處理配置檔案Linux爬蟲
- Linux企業級專案實踐之網路爬蟲(4)——主程式流程Linux爬蟲
- Linux企業級專案實踐之網路爬蟲(8)——認識URLLinux爬蟲
- 爬蟲作業03-爬取解密大資料專欄下的所有文章爬蟲解密大資料
- 爬蟲專案實戰(一)爬蟲
- 爬蟲實戰專案集合爬蟲
- 爬蟲的例項專案爬蟲
- 爬蟲實戰專案合集爬蟲
- gerapy框架爬蟲專案部署框架爬蟲
- 爬蟲小專案(一)淘寶爬蟲
- Python爬蟲專案整理Python爬蟲
- 網路爬蟲專案蒐集爬蟲
- 11.4. 爬蟲專案爬蟲
- Linux企業級專案實踐之網路爬蟲(22)——編寫爬蟲系統服務控制指令碼Linux爬蟲指令碼
- Linux企業級專案實踐之網路爬蟲(17)——儲存頁面Linux爬蟲