Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示

zmy愛吃炸雞發表於2020-09-14

我們以  fox新聞 網的文章來舉例子,把整篇文章爬取出來。

首先是標題,透過結構可以看出來  class 為  article-header 的節點下的  h1 裡的內容即是標題,透過  string 可以獲取  dom 節點裡的文字內容。

# 獲取文章標題alert_header = soup.find('header', class_="article-header").find('h1')print(alert_header.string)123

在這裡插入圖片描述
然後是正文,透過結構可以看出來  class 為  article-body 的節點下的  p 元素組成了正文內容,透過  contents 可以獲取  body 下所有的節點。再遍歷所有的節點,把所有  p 元素的下的內容列印出來。
在這裡插入圖片描述

from urllib.request import urlopenfrom bs4 import BeautifulSoup
url = urlopen(')soup = BeautifulSoup(url, 'html.parser')   # parser 解析# 獲取文章標題alert_header = soup.find('header', class_="article-header").find('h1')print("標題如下:")print(alert_header.string)# 獲取文章正文alert_body = soup.find('div', class_="article-body").contents   # 所有body裡的p節點# 列印文章正文print("正文如下:")for i in alert_body:
    if(i.name == "p"):
        print(i.getText())
        print()1234567891011121314151617181920

執行效果圖:
如果中間夾雜了廣告,可以看看文章正文跟廣告在結構上有什麼區別,然後進一步把廣告剔除。
在這裡插入圖片描述

轉自 https://blog.csdn.net/qq_38161040/article/details/104021581?

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69983768/viewspace-2719408/,如需轉載,請註明出處,否則將追究法律責任。

相關文章