網頁正文提取演算法介紹
查詢發現了兩個比較好的網頁正文提取演算法:
- 國內:哈工大的《基於行塊分佈函式的通用網頁正文抽取》該演算法開源網址為http://code.google.com/p/cx-extractor/,效果為親測,文章中呈准確率95%以上,對1000個網頁抽取耗時21.29秒。看了文章感覺不錯,無需html解析,效率應該會高些。
- 國外:大名鼎鼎的arc90實驗室的Readability,該演算法已經商業化實現了firefox,chrome外掛,及flipboard,並且已經整合進了safari瀏覽器。未詳細測試,大致測試感覺準確率應該至少在90%以上。該演算法需要解析DOM樹,因此稍執行效率稍微慢一些。大致過程為,先解析DOM樹,所有標籤小寫。然後去除所有“script”標籤內容,再通過一對正規表示式的配合提取。具體演算法還未看。其外掛中包含演算法JAVASCRIPT原始碼。有熱心人士已將其用c#和php實現,原始碼地址如下:
- 官方網站http://www.readability.com/
- c#實現一:https://github.com/marek-stoj/NReadability(親測,效果不錯)
- c#實現二:http://code.google.com/p/nreadability/(未親測)
- php實現一: http://code.fivefilters.org/p/php-readability/(未親測)
- php實現二:https://github.com/feelinglucky/php-readability(未親測)作者主頁:http://www.gracecode.com/archives/3061/
- node.js版:https://github.com/arrix/node-readability/(未親測)
相關文章
- 網頁正文及內容圖片提取演算法網頁演算法
- 大規模非同步新聞爬蟲:網頁正文的提取非同步爬蟲網頁
- Python網頁正文結構化提取庫:jparser 0.0.11釋出Python網頁
- 網頁抓取的重要性介紹網頁
- python 網頁文字提取Python網頁
- 如何提取網頁上的顏色,網頁顏色程式碼提取工具ColorWell網頁
- spark相關介紹-提取hive表(一)SparkHive
- javascript實現網頁截圖操作介紹JavaScript網頁
- 網頁被劫持什麼?防止頁面劫持方法介紹網頁
- 網頁提取資料常用正則網頁
- 提取動態html網頁內容HTML網頁
- HTML頁面Meta介紹HTML
- 介紹兩個測試網頁開啟速度的網站網頁網站
- 限流演算法介紹演算法
- GC演算法介紹GC演算法
- 介紹Cloudflare頁面:構建JAMstack網站的最佳方法Cloud網站
- 網頁中使用css的幾種方式簡單介紹網頁CSS
- 網頁中插入百度地圖詳細介紹網頁地圖
- win10系統如何提取網頁中視訊_win10提取網頁中視訊的圖文教程Win10網頁
- win10系統如何提取網頁中影片_win10提取網頁中影片的圖文教程Win10網頁
- 常用 API 演算法介紹API演算法
- Apriori演算法的介紹演算法
- CSS實現的網頁柵格佈局簡單介紹CSS網頁
- 點選載入更多網頁內容效果簡單介紹網頁
- NLPIR大資料平臺的文字資訊提取功能介紹大資料
- RabbitMQ的web頁面介紹(三)MQWeb
- oracle 大頁配置詳細介紹Oracle
- 智慧演算法---蟻群演算法介紹演算法
- Salsa20演算法介紹演算法
- 回溯演算法介紹以及模板演算法
- 利用釦子(coz)API自動重寫課件PPT網頁標題和正文API網頁
- Python lxml :從網頁HTML/XML提取資料PythonXML網頁HTML
- CURL抓取網頁內容並用正則提取。網頁
- c#簡單實現提取網頁內容C#網頁
- 蘋果釋出全新Siri網頁 系統介紹語音助手功能蘋果網頁
- 預載入插頁式廣告介紹
- Retrofit網路框架介紹框架
- Docker 網路基礎介紹Docker