網頁正文提取演算法介紹

edagarli發表於2014-04-11

網頁演算法

查詢發現了兩個比較好的網頁正文提取演算法：

國內：哈工大的《基於行塊分佈函式的通用網頁正文抽取》該演算法開源網址為http://code.google.com/p/cx-extractor/，效果為親測，文章中呈准確率95%以上，對1000個網頁抽取耗時21.29秒。看了文章感覺不錯，無需html解析，效率應該會高些。
國外：大名鼎鼎的arc90實驗室的Readability，該演算法已經商業化實現了firefox,chrome外掛，及flipboard，並且已經整合進了safari瀏覽器。未詳細測試，大致測試感覺準確率應該至少在90%以上。該演算法需要解析DOM樹，因此稍執行效率稍微慢一些。大致過程為，先解析DOM樹，所有標籤小寫。然後去除所有“script”標籤內容，再通過一對正規表示式的配合提取。具體演算法還未看。其外掛中包含演算法JAVASCRIPT原始碼。有熱心人士已將其用c#和php實現，原始碼地址如下:
1. 官方網站http://www.readability.com/
2. c#實現一：https://github.com/marek-stoj/NReadability（親測，效果不錯）
3. c#實現二：http://code.google.com/p/nreadability/（未親測）　
4. php實現一:　http://code.fivefilters.org/p/php-readability/(未親測)
5. php實現二:https://github.com/feelinglucky/php-readability(未親測)作者主頁:http://www.gracecode.com/archives/3061/
6. node.js版：https://github.com/arrix/node-readability/（未親測）

網頁正文及內容圖片提取演算法
2015-09-10
網頁演算法
大規模非同步新聞爬蟲：網頁正文的提取
2018-12-03
非同步爬蟲網頁
Python網頁正文結構化提取庫：jparser 0.0.11釋出
2017-05-18
Python網頁
網頁抓取的重要性介紹
2021-12-16
網頁
python 網頁文字提取
2018-07-25
Python網頁
如何提取網頁上的顏色，網頁顏色程式碼提取工具ColorWell
2021-01-05
網頁
spark相關介紹-提取hive表（一）
2021-09-19
SparkHive
javascript實現網頁截圖操作介紹
2017-04-09
JavaScript網頁
網頁被劫持什麼？防止頁面劫持方法介紹
2020-12-31
網頁
網頁提取資料常用正則
2018-09-05
網頁
提取動態html網頁內容
2018-09-06
HTML網頁
HTML頁面Meta介紹
2011-12-09
HTML
介紹兩個測試網頁開啟速度的網站
2017-11-01
網頁網站
限流演算法介紹
2021-09-09
演算法
GC演算法介紹
2018-08-15
GC演算法
介紹Cloudflare頁面：構建JAMstack網站的最佳方法
2021-01-21
Cloud網站
網頁中使用css的幾種方式簡單介紹
2017-02-11
網頁CSS
網頁中插入百度地圖詳細介紹
2017-02-13
網頁地圖
win10系統如何提取網頁中視訊_win10提取網頁中視訊的圖文教程
2020-03-16
Win10網頁
win10系統如何提取網頁中影片_win10提取網頁中影片的圖文教程
2020-03-16
Win10網頁
常用 API 演算法介紹
2023-03-07
API演算法
Apriori演算法的介紹
2015-06-27
演算法
提取pdf指定頁
2024-11-21
CSS實現的網頁柵格佈局簡單介紹
2017-03-24
CSS網頁
點選載入更多網頁內容效果簡單介紹
2017-04-06
網頁
NLPIR大資料平臺的文字資訊提取功能介紹
2019-09-16
大資料
RabbitMQ的web頁面介紹（三）
2021-10-13
MQWeb
oracle 大頁配置詳細介紹
2024-01-22
Oracle
智慧演算法---蟻群演算法介紹
2016-09-08
演算法
Salsa20演算法介紹
2021-05-15
演算法
回溯演算法介紹以及模板
2024-08-14
演算法
利用釦子（coz）API自動重寫課件PPT網頁標題和正文
2024-06-10
API網頁
Python lxml ：從網頁HTML/XML提取資料
2019-07-04
PythonXML網頁HTML
CURL抓取網頁內容並用正則提取。
2017-06-05
網頁
c#簡單實現提取網頁內容
2009-11-30
C#網頁
蘋果釋出全新Siri網頁系統介紹語音助手功能
2015-04-12
蘋果網頁
預載入插頁式廣告介紹
2017-03-16
Retrofit網路框架介紹
2018-04-16
框架

網頁正文提取演算法介紹

相關文章