網頁正文及內容圖片提取演算法

發表於2015-09-10

問題：如何提取任意（尤其是新聞、資訊類）網頁的正文內容，提取與文章內容相關的圖片，原始碼可見：extractor.py。

抓取單個網站網頁內容時通常採用正則匹配的方式，但不同網站之間結構千奇百怪，很難用統一的正規表示式進行匹配。《基於行塊分佈函式的通用網頁正文抽取演算法》的作者總結了一般從網頁中提取文章正文的方法，提出基於行塊分佈的正文抽取演算法，並給出了 PHP 、Java 等實現。這一演算法的主要原理基於兩點：

正文區密度：在去除HTML中所有tag之後，正文區字元密度更高，較少出現多行空白；
行塊長度：非正文區域的內容一般單獨標籤（行塊）中較短。

演算法步驟如下：

去除所有tag，包括樣式、Js指令碼內容等，但保留原有的換行符 \n ：

reCOMM = r'<!--.*?-->'  
reTRIM = r'<{0}.*?>([\s\S]*?)<\/{0}>'  
reTAG  = r'<[\s\S]*?>|[ \t\r\f\v]'

def processTags(body=""):  
  body = re.sub(reCOMM, "", body)
  body = re.sub(reTRIM.format("script"), "" ,re.sub(reTRIM.format("style"), "", body))
  body = re.sub(reTAG, "", body)
  return body

reCOMM = r''

reTRIM = r'<{0}.*?>([\s\S]*?)<\/{0}>'

reTAG = r'<[\s\S]*?>|[ \t\r\f\v]'

def processTags(body=""):

body = re.sub(reCOMM, "", body)

body = re.sub(reTRIM.format("script"), "" ,re.sub(reTRIM.format("style"), "", body))

body = re.sub(reTAG, "", body)

return body

將網頁內容按行分割，定義行塊 block i 為第 [i,i+blockSize] 行文字之和並給出行塊長度基於行號的分佈函式：

def processBlocks(body=""):  
  ctexts = body.split("\n")
  textLens = [len(text) for text in ctexts]
  cblocks  = [0] * (len(ctexts) - blockSize)

  lines = len(ctexts)
  for i in range(blockSize):
    cblocks = list(map(lambda x,y: x+y, textLens[i : lines-1-blockSize+i], cblocks))
  return cblocks

def processBlocks(body=""):

ctexts = body.split("\n")

textLens = [len(text) for text in ctexts]

cblocks = [0] * (len(ctexts) - blockSize)

lines = len(ctexts)

for i in range(blockSize):

cblocks = list(map(lambda x,y: x+y, textLens[i : lines-1-blockSize+i], cblocks))

return cblocks

正文出現在最長的行塊，擷取兩邊至行塊長度為 0 的範圍：

def getContext(ctexts, cblocks):  
  maxTextLen = max(cblocks)

  start = end = cblocks.index(maxTextLen)
  while start > 0 and cblocks[start] > min(textLens):
      start -= 1
  while end < lines - blockSize and cblocks[end] > min(textLens):
    self.end += 1

  return "".join(ctexts[start:end])

def getContext(ctexts, cblocks):

maxTextLen = max(cblocks)

start = end = cblocks.index(maxTextLen)

while start > 0 and cblocks[start] > min(textLens):

start -= 1

while end < lines - blockSize and cblocks[end] > min(textLens):

self.end += 1

return "".join(ctexts[start:end])

如果需要提取正文區域出現的圖片，只需要在第一步去除tag時保留<img>標籤的內容：

Python

reIMG = re.compile(r'<img[\s\S]*?src=[\'|"]([\s\S]*?)[\'|"][\s\S]*?>') def processImages(body): return reIMG.sub(r'{{\1}}', body)

1
2
3

reIMG  = re.compile(r'<img[\s\S]*?src=[\'|"]([\s\S]*?)[\'|"][\s\S]*?>')
def processImages(body):
  return reIMG.sub(r'{{\1}}', body)

總結

以上演算法基本可以應對大部分（中文）網頁正文的提取，針對有些網站正文圖片多於文字的情況，可以採用保留<img> 標籤中圖片連結的方法，增加正文密度。目前少量測試發現的問題有：1）文章分頁或動態載入的網頁；2）評論長度過長喧賓奪主的網頁。

參考
- cx-extractor
- cix-extractor-py

網頁正文提取演算法介紹
2014-04-11
網頁演算法
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
提取動態html網頁內容
2018-09-06
HTML網頁
java 爬取網頁內容。標題、圖片等
2021-09-24
Java網頁
將網頁內容以圖片形式儲存在本地
2012-02-01
網頁
CURL抓取網頁內容並用正則提取。
2017-06-05
網頁
c#簡單實現提取網頁內容
2009-11-30
C#網頁
網頁設計內容網頁中關於圖片預覽的設計
2019-01-14
網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
實現java讀取網頁內容並下載網頁中出現的圖片
2011-03-18
Java網頁
大規模非同步新聞爬蟲：網頁正文的提取
2018-12-03
非同步爬蟲網頁
帝國CMS釋出資訊時替換正文IMG圖片標籤裡的ALT內容
2024-10-05
Python網頁正文結構化提取庫：jparser 0.0.11釋出
2017-05-18
Python網頁
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
PDF 轉換圖片然後識別圖片內容
2019-07-09
ASP使用正則提取內容裡所有圖片路徑SRC的實現程式碼
2019-11-02
【學習圖片】15.影像內容分發網路
2023-03-15
修改網頁內容的方法
2024-10-07
網頁
ps切圖實用小技巧、圖片格式的區別及相關內容
2017-04-11
提取rpm檔案內容
2012-01-31
Python提取文字指定內容
2024-03-26
Python
C#抓取網頁HTML內容
2014-07-14
C#網頁HTML
巧用網頁顯示硬碟內容
2006-10-25
網頁硬碟
帝國cms內容頁圖片自動獲取alt和title的方法
2020-06-10
使用C#傳送正文帶圖片郵件
2013-09-21
C#
Docx4j 簡單操作文字圖片（包含頁首頁尾和主體內容）
2015-11-12
網頁圖片模糊到清晰
2011-06-16
網頁
文章內容提取庫 goose 簡介
2018-10-13
Go
網頁內容部分設滾動條
2017-11-12
網頁
使用pl/sql獲得網頁內容~~~
2007-04-12
SQL網頁
SDWebImage支援URL不變時更新圖片內容
2018-12-05
Web
將treeview控制元件內容匯出圖片
2015-05-08
View控制元件
爬網入門：JAVA抓取網站網頁內容
2011-03-17
Java網站網頁
網頁圖片不能顯示網頁圖片顯示不出來的解決辦法
2016-06-14
網頁
win10系統如何提取網頁中視訊_win10提取網頁中視訊的圖文教程
2020-03-16
Win10網頁
win10系統如何提取網頁中影片_win10提取網頁中影片的圖文教程
2020-03-16
Win10網頁
給網頁新增標題圖片
2016-09-27
網頁

網頁正文及內容圖片提取演算法

總結

參考

相關文章