Python網頁正文結構化提取庫：jparser 0.0.11釋出

pythontab發表於2017-05-18

Python網頁

jparser 0.0.11 釋出了。jparser是一個python庫，用於網頁轉碼，也就是從html原始碼中抽取正文的結構化資料：文字段落和圖片。目前主要針對新聞資訊類頁面進行了最佳化。主要更新內容如下：

Bug fix：

title提取錯誤

正文區域判斷失誤bad case

li標籤內容遺漏

線上測試Demo：http://jparser.duapp.com/

程式碼例項：

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://www.pythontab.com").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()
print "**title**"
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

網頁正文提取演算法介紹
2014-04-11
網頁演算法
網頁正文及內容圖片提取演算法
2015-09-10
網頁演算法
大規模非同步新聞爬蟲：網頁正文的提取
2018-12-03
非同步爬蟲網頁
python 網頁文字提取
2018-07-25
Python網頁
vue 釋出網頁
2017-12-14
Vue網頁
Python lxml ：從網頁HTML/XML提取資料
2019-07-04
PythonXML網頁HTML
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
如何提取網頁上的顏色，網頁顏色程式碼提取工具ColorWell
2021-01-05
網頁
Python3結構化資料庫操作包pymysql
2018-07-15
Python資料庫MySql
網頁提取資料常用正則
2018-09-05
網頁
提取動態html網頁內容
2018-09-06
HTML網頁
透過結構化資料構建頁面
2024-10-19
Python呼叫graphviz繪製結構化圖形網路
2018-03-21
Python
python網站的結構
2019-01-02
Python網站
Python網頁應用開發神器fac 0.3.0全新版本釋出
2024-08-13
Python網頁
標準化/結構化 JSON 輸出
2018-11-19
JSON
win10系統如何提取網頁中視訊_win10提取網頁中視訊的圖文教程
2020-03-16
Win10網頁
win10系統如何提取網頁中影片_win10提取網頁中影片的圖文教程
2020-03-16
Win10網頁
Python 自動化提取基因 CDS
2021-03-18
Python
元件化之CocoaPods釋出私有庫
2018-06-21
元件化
Google釋出網頁體驗新演算法，網站該如何最佳化調整
2021-06-29
Go網頁演算法網站
資料庫結構的優化
2019-02-27
資料庫優化
Jailer 4.0.14 釋出，智慧資料提取工具
2012-09-19
AI
在網頁上釋出統計曲線 (轉)
2007-12-04
網頁
純Python的ODBC庫 PyPyODBC 1.0 釋出
2013-02-23
Python
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
Python中用PyPDF2拆分pdf提取頁面
2021-09-11
Python
釋出大幅重構優化的 TouchVG 1.0.2
2013-10-18
優化
Keras輸出網路結構圖
2020-11-21
Keras
提取pdf指定頁
2024-11-21
C#簡單的web網頁html抓取並提取指定a標籤連結
2019-05-11
C#Web網頁HTML
python字典和結構化資料
2019-07-03
Python
結構化與非結構化
2020-12-06
前端自動化釋出實戰總結
2018-06-15
前端
從連結中提取github倉庫名
2020-03-17
Github
使用python uiautomation從釘釘網頁版提取公司所有聯絡人資訊
2018-12-12
PythonUI網頁
Adobe釋出網頁設計軟體Muse
2012-05-18
網頁

Python網頁正文結構化提取庫：jparser 0.0.11釋出

相關文章