使用webmagic爬蟲對百度百科進行簡單的爬取

我命傾塵發表於2019-02-20

原文網址 : https://www.cnblogs.com/guobin-/p/10409591.html

分析要爬取的網頁原始碼：

　　1、開啟要分析的網頁，檢視原始碼，找到要爬取的內容：

　　（選擇網頁裡的一部分右擊審查元素也行）

　　2、匯入jar包，這個就直接去網上下吧；

　　3、寫爬蟲：

 1 package com.gb.pachong;
 2 import java.sql.SQLException;
 3 import com.gb.util.AddNum;
 4 import us.codecraft.webmagic.Page;
 5 import us.codecraft.webmagic.Site;
 6 import us.codecraft.webmagic.Spider;
 7 import us.codecraft.webmagic.processor.PageProcessor;
 8 public class BaikePaChong implements PageProcessor 
 9 {
10     private static String key;
11     public static String res=null;
12     // 抓取網站的相關配置，包括編碼、重試次數、抓取間隔 
13     private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
14     public void run(String key) 
15     {
16         this.key = key;
17         //addUrl就是種子url，Page物件就是當前獲取的頁面，getUrl()可以獲得當前url，addTargetRequests()就是把連結放入等待爬取，getHtml()獲得頁面的html元素
18         //啟動爬蟲
19         Spider.create(new BaikePaChong()).addUrl("https://baike.baidu.com/item/" + key).thread(5).run();
20     }
21     @Override
22     public Site getSite() 
23     {
24         return site;
25     }
26     @Override
27     public void process(Page page) 
28     {
29         //獲取頁面內容
30         res = page.getHtml().xpath("//meta[@name='description']/@content").toString();
31         //把包含資料新增到資料庫的方法的類例項化成物件
32         AddNum addNum=new AddNum();
33         try 
34         {
35             //資料新增進資料庫
36             addNum.store(key, res);
37         } 
38         catch (SQLException e) 
39         {
40             e.printStackTrace();
41         }
42     }
43     public void search(String string) 
44     {
45         BaikePaChong baikePaChong = new BaikePaChong();
46         baikePaChong.run(string);
47     }
48     public String getRes()
49     {
50         return res;
51     }
52 }

　　4、上面只是簡單的爬取，可以仿照這樣的方法進行一些別樣的擴充套件使用。

　　5、Xpath可以在這裡直接複製：

python爬蟲十二：middlewares的使用，爬取糗事百科
2018-05-31
Python爬蟲
使用python爬取百度百科
2022-07-05
Python
WebMagic 爬蟲框架淺析
2019-02-13
Web爬蟲框架
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
對於反爬蟲偽裝瀏覽器進行爬蟲
2018-04-12
爬蟲瀏覽器
簡單的爬蟲程式
2024-03-24
爬蟲
如何對爬蟲程式進行配置
2021-09-11
爬蟲
Python代理IP爬蟲的簡單使用
2019-03-04
Python爬蟲
大規模非同步新聞爬蟲：簡單的百度新聞爬蟲
2018-12-02
非同步爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
python多執行緒爬蟲與單執行緒爬蟲效率效率對比
2021-03-19
Python執行緒爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
python 爬蟲簡單實現百度翻譯
2020-04-14
Python爬蟲
那些年，我爬過的北科(四)——爬蟲進階之極簡併行爬蟲框架開發
2019-03-04
爬蟲框架
使用Python和requests庫的簡單爬蟲程式
2023-11-13
Python爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
使用requests+BeautifulSoup的簡單爬蟲練習
2018-04-06
爬蟲
Python爬取中國銀行外匯牌價(爬蟲 + PyFlux簡單預測分析)--(一)
2018-11-07
Python爬蟲UX
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
簡單瞭解python爬蟲
2020-10-13
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲之股票定向爬取
2018-12-06
爬蟲
python爬取糗事百科
2018-08-14
Python
提高爬蟲爬取效率的辦法
2022-04-06
爬蟲
Python使用多程式提高網路爬蟲的爬取速度
2019-02-01
Python爬蟲
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
python爬蟲獲取百度熱搜
2024-06-15
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
如何使用python進行網頁爬取?
2020-08-06
Python網頁
爬蟲使用代理時能更高效進行的因素
2022-04-19
爬蟲

使用webmagic爬蟲對百度百科進行簡單的爬取

相關文章