我們以 fox新聞網的文章來舉例子，把整篇文章爬取出來。

首先是標題，透過結構可以看出來 class 為 article-header 的節點下的 h1 裡的內容即是標題，透過 string 可以獲取 dom 節點裡的文字內容。

# 獲取文章標題alert_header = soup.find('header', class_="article-header").find('h1')print(alert_header.string)123

在這裡插入圖片描述
然後是正文，透過結構可以看出來 class 為 article-body 的節點下的 p 元素組成了正文內容，透過 contents 可以獲取 body 下所有的節點。再遍歷所有的節點，把所有 p 元素的下的內容列印出來。

from urllib.request import urlopenfrom bs4 import BeautifulSoup
url = urlopen(')soup = BeautifulSoup(url, 'html.parser')   # parser 解析# 獲取文章標題alert_header = soup.find('header', class_="article-header").find('h1')print("標題如下：")print(alert_header.string)# 獲取文章正文alert_body = soup.find('div', class_="article-body").contents   # 所有body裡的p節點# 列印文章正文print("正文如下：")for i in alert_body:
    if(i.name == "p"):
        print(i.getText())
        print()1234567891011121314151617181920

執行效果圖：
如果中間夾雜了廣告，可以看看文章正文跟廣告在結構上有什麼區別，然後進一步把廣告剔除。
在這裡插入圖片描述

轉自 https://blog.csdn.net/qq_38161040/article/details/104021581?

Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示

相關文章