題目要求:你需要爬取的是部落格人人都是蜘蛛俠,首頁的四篇文章資訊,並且列印提取到的資訊。
提取每篇文章的:文章標題、釋出時間、文章連結
網頁URL:https://spidermen.cn/
1 #4、部落格文章 2 # 題目要求:你需要爬取的是部落格人人都是蜘蛛俠,首頁的四篇文章資訊,並且列印提取到的資訊。 3 # 提取每篇文章的:文章標題、釋出時間、文章連結 4 # 網頁URL:https://spidermen.cn/ 5 6 import requests 7 from bs4 import BeautifulSoup 8 res = requests.get('https://spidermen.cn/') 9 html = res.text 10 soup = BeautifulSoup(html,'html.parser') 11 items = soup.find_all('header',class_='entry-header') 12 for item in items: 13 print(item.find('h2').text,end='\t') 14 print(item.find('time',class_='entry-date published')['datetime'],end='\t') 15 print(item.find('a')['href'],end='\n') 16 17 18 ''' 19 執行結果如下: 20 未來已來(四)——Python學習進階圖譜 2018-12-18T11:17:37+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/ 21 未來已來(三)——同九義何汝秀 2018-12-18T11:12:02+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_03/ 22 未來已來(二)——擁抱AI 2018-12-18T10:50:33+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_02/ 23 未來已來(一)——技術變革 2018-12-18T10:23:16+00:00 https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_01/ 24 ''' 25 26 27 ''' 28 老師程式碼 29 30 import requests 31 from bs4 import BeautifulSoup 32 33 url_destnation = 'https://spidermen.cn/'; 34 res_destnation = requests.get (url_destnation) 35 # 列印響應碼 36 print(res_destnation.status_code) 37 38 bs_articles = BeautifulSoup(res_destnation.text,'html.parser') 39 # 首先找到每篇文章所在的相同的元素 40 list_articles = bs_articles.find_all('header', class_ = "entry-header") 41 for tag_article in list_articles: # 遍歷列表 42 tag_title = tag_article.find('h2',class_ = "entry-title") # 找文章標題 43 tag_url = tag_article.find('a',rel = "bookmark") # 找文章連結 44 tag_date = tag_article.find('time',class_="entry-date published") # 找文章釋出時間 45 print(tag_title.text,'釋出於:',tag_date.text) # 列印文章標題與釋出時間 46 print(tag_url['href']) # 換行列印文章連結,需要使用屬性名提取屬性值 47 '''
items中每個Tag的內容如下
1 <header class="entry-header"> 2 <div class="entry-meta"> 3 <span class="screen-reader-text">釋出於</span> 4 <a href="https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/" rel="bookmark"> 5 <time class="entry-date published" datetime="2018-12-18T11:17:37+00:00">2018-12-18</time> 6 <time class="updated" datetime="2018-12-18T11:25:15+00:00">2018-12-18</time> 7 </a> 8 </div> 9 <!-- .entry-meta 10 --> 11 <h2 class="entry-title"><a href="https://wordpress-edu-3autumn.localprod.forc.work/all-about-the-future_04/" 12 rel="bookmark">未來已來(四)——Python學習進階圖譜</a></h2> 13 </header>