04、部落格文章

三角形發表於2019-04-11
    題目要求:你需要爬取的是部落格人人都是蜘蛛俠,首頁的四篇文章資訊,並且列印提取到的資訊。
 
    提取每篇文章的:文章標題、釋出時間、文章連結
 
    網頁URL:https://spidermen.cn/
 
 1 #4、部落格文章
 2 #    題目要求:你需要爬取的是部落格人人都是蜘蛛俠,首頁的四篇文章資訊,並且列印提取到的資訊。
 3 #    提取每篇文章的:文章標題、釋出時間、文章連結
 4 #    網頁URL:https://spidermen.cn/
 5 
 6 import requests
 7 from bs4 import BeautifulSoup
 8 res = requests.get('https://spidermen.cn/')
 9 html = res.text
10 soup = BeautifulSoup(html,'html.parser')
11 items = soup.find_all('header',class_='entry-header')
12 for item in items:
13     print(item.find('h2').text,end='\t')
14     print(item.find('time',class_='entry-date published')['datetime'],end='\t')
15     print(item.find('a')['href'],end='\n')
16 
17 
18 '''
19 執行結果如下:
20 未來已來(四)——Python學習進階圖譜    2018-12-18T11:17:37+00:00       https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/
21 未來已來(三)——同九義何汝秀  2018-12-18T11:12:02+00:00       https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_03/
22 未來已來(二)——擁抱AI        2018-12-18T10:50:33+00:00       https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_02/
23 未來已來(一)——技術變革      2018-12-18T10:23:16+00:00       https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_01/
24 '''
25 
26 
27 '''
28 老師程式碼
29 
30 import requests
31 from bs4 import BeautifulSoup
32 
33 url_destnation = 'https://spidermen.cn/';
34 res_destnation = requests.get (url_destnation)
35 # 列印響應碼
36 print(res_destnation.status_code)
37 
38 bs_articles = BeautifulSoup(res_destnation.text,'html.parser')
39 # 首先找到每篇文章所在的相同的元素
40 list_articles = bs_articles.find_all('header', class_ = "entry-header")
41 for tag_article in list_articles: # 遍歷列表
42     tag_title = tag_article.find('h2',class_ = "entry-title") # 找文章標題
43     tag_url = tag_article.find('a',rel = "bookmark")  # 找文章連結
44     tag_date = tag_article.find('time',class_="entry-date published") # 找文章釋出時間
45     print(tag_title.text,'釋出於:',tag_date.text) # 列印文章標題與釋出時間
46     print(tag_url['href'])  # 換行列印文章連結,需要使用屬性名提取屬性值
47 '''

 

items中每個Tag的內容如下
 
 1 <header class="entry-header">
 2     <div class="entry-meta">
 3         <span class="screen-reader-text">釋出於</span>
 4             <a href="https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/" rel="bookmark">
 5                 <time class="entry-date published" datetime="2018-12-18T11:17:37+00:00">2018-12-18</time>
 6                 <time class="updated" datetime="2018-12-18T11:25:15+00:00">2018-12-18</time>
 7             </a>
 8     </div>
 9     <!-- .entry-meta
10         -->
11     <h2 class="entry-title"><a href="https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/"
12             rel="bookmark">未來已來(四)——Python學習進階圖譜</a></h2>
13 </header>

 

 

相關文章