文章內容提取庫 goose 簡介

Crossin先生發表於2018-10-13

原文網址 : https://juejin.im/post/5bc185ed6fb9a05d011d04e2

爬蟲抓取資料有兩個頭疼的點，寫過爬蟲的小夥伴們一定都深有體會：

網站的防抓取機制。你要儘可能將自己偽裝成“一個人”，騙過對方的伺服器反爬驗證。
網站的內容提取。每個網站都需要你做不同的處理，而且網站一旦改版，你的程式碼也得跟著更新。

第一點沒什麼捷徑可走，套路見得多了，也就有經驗了。關於第二點，今天我們們就來介紹一個小工具，在某些需求場景下，或許可以給你省不少事。

Goose

Goose 是一個文章內容提取器，可以從任意資訊文章類的網頁中提取文章主體，並提取標題、標籤、摘要、圖片、視訊等資訊，且支援中文網頁。它最初是由 http://Gravity.com 用 Java 編寫的。python-goose 是用 Python 重寫的版本。

有了這個庫，你從網上爬下來的網頁可以直接獲取正文內容，無需再用 bs4 或正規表示式一個個去處理文字。

專案地址：
（py2） https://github.com/grangier/python-goose
（py3） https://github.com/goose3/goose3

安裝

網上大多數教程提到的 python-goose 專案目前只支援到 python 2.7。可以通過 pip 安裝：

pip install goose-extractor
複製程式碼

或者安裝官網上的方法從原始碼安裝：

mkvirtualenv --no-site-packages goose
git clone https://github.com/grangier/python-goose.git
cd python-goose
pip install -r requirements.txt
python setup.py install
複製程式碼

我找到一個 python 3 的版本 goose3：

pip install goose3
複製程式碼

經過我一些簡單的測試，未發現兩個版本在結果上有太大的差異。

快速上手

這裡使用 goose3，而 python-goose 只要把其中的 goose3 改成 goose 即可，介面都是一樣的。以我之前發過的一篇文章如何用Python抓抖音上的小姐姐為抓取目標來做個演示。

from goose3 import Goose
from goose3.text import StopWordsChinese
# 初始化，設定中文分詞
g = Goose({'stopwords_class': StopWordsChinese})
# 文章地址
url = 'http://zhuanlan.zhihu.com/p/46396868'
# 獲取文章內容
article = g.extract(url=url)
# 標題
print('標題：', article.title)
# 顯示正文
print(article.cleaned_text)
複製程式碼

輸出：

除了標題 title 和正文 cleaned_text 外，還可以獲取一些額外的資訊，比如：

meta_description：摘要
meta_keywords：關鍵詞
tags：標籤
top_image：主要圖片
infos：包含所有資訊的 dict
raw_html：原始 HTML 文字

如有有些網站限制了程式抓取，也可以根據需要新增 user-agent 資訊：

g = Goose({'browser_user_agent': 'Version/5.1.2 Safari/534.52.7'})
複製程式碼

如果是 goose3，因為使用了 requests 庫作為請求模組，因此還可以以相似方式配置 headers、proxies 等屬性。

在上述示例中使用到的 StopWordsChinese 為中文分詞器，可一定程度上提高中文文章的識別準確率，但更耗時。

其他說明

1.
Goose 雖然方便，但並不能保證每個網站都能精確獲取，因此適合大規模文章的採集，如熱點追蹤、輿情分析等。它只能從概率上保證大多數網站可以相對準確地抓取。我經過一些嘗試後發現，抓取英文網站優於中文網站，主流網站優於小眾網站，文字的提取優於圖片的提取。

2.
從專案中的 requirements.txt 檔案可以看出，goose 中使用到了 Pillow、lxml、cssselect、jieba、beautifulsoup、nltk，goose3 還用到了 requests，我們之前很多文章和專案中都有所涉及：

這個男人讓你的爬蟲開發效率提升8倍
 【程式設計課堂】jieba-中文分詞利器

3.
如果你是使用基於 python2 的 goose，有可能會遇到編碼上的問題（尤其是 windows 上）。這方面可以在公眾號對話裡回覆關鍵詞編碼，我們有過相關的講解。

4.
除了 goose 外，還有其他的正文提取庫可以嘗試，比如 python-boilerpipe、python-readability 等。

例項

最後，我們來用 goose3 寫小一段程式碼，自動抓取 愛範兒、雷鋒網、DoNews 上的新聞文章：

from goose3 import Goose
from goose3.text import StopWordsChinese
from bs4 import BeautifulSoup

g = Goose({'stopwords_class': StopWordsChinese})
urls = [
    'https://www.ifanr.com/',
    'https://www.leiphone.com/',
    'http://www.donews.com/'
]
url_articles = []
for url in urls:
    page = g.extract(url=url)
    soup = BeautifulSoup(page.raw_html, 'lxml')
    links = soup.find_all('a')
    for l in links:
        link = l.get('href')
        if link and link.startswith('http') and any(c.isdigit() for c in link if c) and link not in url_articles:
            url_articles.append(link)
            print(link)

for url in url_articles:
    try:
        article = g.extract(url=url)
        content = article.cleaned_text
        if len(content) > 200:
            title = article.title
            print(title)
            with open('homework/goose/' + title + '.txt', 'w') as f:
                f.write(content)
    except:
        pass
複製程式碼

這段程式所做的事情就是：

抓取網站首頁
從頁面上提取地址中帶有數字的連結（因為文章頁基本帶數字，這裡為了演示簡單以此判斷）
抓取這些連結，提取正文。如果結果超過 200 個字，就儲存成檔案

效果：

在此基礎上，你可以繼續改進這個程式，讓它不停地去尋找新的地址並抓取文章，並對獲取到的文章進行詞頻統計、生成詞雲等後續操作。類似我們之前的分析案例資料分析：當趙雷唱民謠時他唱些什麼？。進一步完善，相信你能做出更有意思的專案。

相關程式碼已上傳，獲取地址請在公眾號（Crossin的程式設計教室）裡回覆關鍵字 goose

歡迎微信搜尋及關注：Crossin的程式設計教室

網站文章內容修改如何修改網站文章內容
2024-11-30
網站
Python提取文字指定內容
2024-03-26
Python
《WCF全面剖析》-章節內容簡介
2021-09-09
提取動態html網頁內容
2018-09-06
HTML網頁
如何用Python批量提取PDF文字內容？
2018-06-27
Python
如何使用htmlq提取html檔案內容
2022-12-08
HTML
PbootCMS呼叫公司簡介等單頁內容的方法
2024-11-20
boot
PbootCMS首頁呼叫公司簡介等頻道內容
2024-09-14
boot
部落格開張及本部落格內容簡介
2024-07-19
文章內容分頁功能實現
2021-09-09
openGauss資料庫原始碼解析系列文章——openGauss簡介（三）
2022-12-26
資料庫原始碼
openGauss資料庫原始碼解析系列文章--openGauss簡介（一）
2022-11-11
資料庫原始碼
openGauss資料庫原始碼解析系列文章——openGauss簡介（二）
2022-12-02
資料庫原始碼
“飯堂集合，遊戲結束！”——《Goose Goose Duck》關卡設計簡談
2023-02-14
遊戲Go
學習內容介紹
2024-06-24
用python3教你任意Html主內容提取
2018-11-05
PythonHTML
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
發表文章時提示有垃圾內容？
2019-01-01
帝國CMS內容頁模板簡介描述增加判斷功能
2024-11-14
核對不同資料夾所含內容的差異並提取缺失內容：Python程式碼
2024-07-03
Python
解決Bilibili無法選中文章內容
2019-04-15
JSON簡介和Ajax簡介--bea這兩篇文章介紹的不錯
2019-04-29
JSON
php文章內容替換為內鏈，有助於SEO優化
2018-03-07
PHP優化
10個ChatGPT提示詞從書籍中提取所有內容
2024-10-14
ChatGPT
中文Rhino 8新增內容介紹
2023-11-24
數論內容簡要整理
2021-02-04
PbootCMS模板如何在首頁上呼叫公司簡介等單頁內容
2024-11-02
boot
PHP顯示文章內容點選數加一
2020-12-30
PHP
Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示
2020-09-14
Python爬蟲網頁
NYUD V2資料集的簡介與提取
2018-08-13
Page Ability生命週期內容介紹！
2021-07-26
文章錯別字檢測，提升你的內容質量，幫你進行內容分發
2020-06-15
httprunner3原始碼解讀（1）簡單介紹原始碼模組內容
2021-11-04
HTTP原始碼
Unknown Mother-Goose
2024-03-08
Go
MongoDB資料庫簡介
2023-11-29
MongoDB資料庫
WIOD資料庫簡介
2024-11-04
資料庫
oceanbase資料庫簡介
2022-12-15
資料庫

文章內容提取庫 goose 簡介

Goose

安裝

其他說明

相關文章