Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示
我們以 fox新聞 網的文章來舉例子,把整篇文章爬取出來。
首先是標題,透過結構可以看出來 class 為 article-header 的節點下的 h1 裡的內容即是標題,透過 string 可以獲取 dom 節點裡的文字內容。
然後是正文,透過結構可以看出來
class 為
article-body 的節點下的
p 元素組成了正文內容,透過
contents 可以獲取
body 下所有的節點。再遍歷所有的節點,把所有
p 元素的下的內容列印出來。
執行效果圖:
如果中間夾雜了廣告,可以看看文章正文跟廣告在結構上有什麼區別,然後進一步把廣告剔除。
轉自 https://blog.csdn.net/qq_38161040/article/details/104021581?
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69983768/viewspace-2719408/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python爬蟲:使用BeautifulSoup修改網頁內容Python爬蟲網頁
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- python 爬蟲如何爬取動態生成的網頁內容Python爬蟲網頁
- Python爬蟲之BeautifulSoup庫Python爬蟲
- [譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容Python網站
- JB的Python之旅-爬蟲篇-新浪微博內容爬取Python爬蟲
- Python 爬蟲網頁內容提取工具xpath(二)Python爬蟲網頁
- Python 爬蟲網頁內容提取工具xpath(一)Python爬蟲網頁
- python爬蟲 之 BeautifulSoup庫入門Python爬蟲
- 利用requests+BeautifulSoup爬取網頁關鍵資訊網頁
- Python爬蟲之BeautifulSoupPython爬蟲
- python 爬蟲 爬取 learnku 精華文章Python爬蟲
- 爬取網頁文章網頁
- python爬蟲常用庫之BeautifulSoup詳解Python爬蟲
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- python爬取換頁_爬蟲爬不進下一頁了,怎麼辦Python爬蟲
- 手把手教你利用爬蟲爬網頁(Python程式碼)爬蟲網頁Python
- Python爬蟲爬取B站up主所有動態內容Python爬蟲
- Python靜態網頁爬蟲專案實戰Python網頁爬蟲
- Python網路爬蟲實戰Python爬蟲
- node:爬蟲爬取網頁圖片爬蟲網頁
- 【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址(1)爬蟲Python
- 利用post請求傳送內容進行爬蟲爬蟲
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- Python爬蟲實戰詳解:爬取圖片之家Python爬蟲
- python 小爬蟲 DrissionPage+BeautifulSoupPython爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- python3網路爬蟲開發實戰_Python3 爬蟲實戰Python爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- Python 爬蟲實戰Python爬蟲
- [實戰演練]python3使用requests模組爬取頁面內容Python
- 簡單的爬蟲:爬取網站內容正文與圖片爬蟲網站
- 爬蟲進階:反反爬蟲技巧爬蟲
- Python爬蟲實戰:爬取淘寶的商品資訊Python爬蟲
- 爬蟲(6) - 網頁資料解析(2) | BeautifulSoup4在爬蟲中的使用爬蟲網頁
- Python爬蟲實踐--爬取網易雲音樂Python爬蟲
- Python 爬取網頁中JavaScript動態新增的內容(一)Python網頁JavaScript
- Python 爬取網頁中JavaScript動態新增的內容(二)Python網頁JavaScript