Python Xpath 提取html整個元素（標籤與內容）

右介發表於2018-01-16

提取html某標籤中文字時，文字中含有：“<sub>2</sub>O<sub>5</sub>”，導致提取的文字不符合預期。

解決方法：

#coding=utf-8
from lxml import etree
from HTMLParser import HTMLParser

html = u'''
<html>
    <span id="chTitle">退火對Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影響</span>
</html>
'''

tree = etree.HTML(html)

# 結果為：退火對Nb
content1 = tree.xpath("//span[@id='chTitle']/text()")[0]
print content1

# 結果為：退火對Nb<sub>2</sub>O<sub>5</sub>薄膜的折射率和厚度的影響
table = tree.xpath("//span[@id='chTitle']")[0]
content2 = etree.tostring(table, method='html')
print HTMLParser().unescape(content2)[19:-8]

Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
從a標籤為什麼不能包含div標籤-瞭解HTML5元素分類與內容模型
2017-12-12
HTML模型
獲取html標籤包裹的文字內容
2017-02-17
HTML
詳細瞭解HTML標籤內容模型
2015-12-31
HTML模型
html之標籤內聯塊元素的那些事
2015-09-14
HTML
Android之去掉文字內容的HTML標籤
2018-09-30
AndroidHTML
用python3教你任意Html主內容提取
2018-11-05
PythonHTML
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
提取動態html網頁內容
2018-09-06
HTML網頁
HTML span標籤：用來組合文件中的行內元素
2018-01-09
HTML
如何使用htmlq提取html檔案內容
2022-12-08
HTML
Python提取文字指定內容
2024-03-26
Python
通過JavaScript獲取標籤,修改標籤內容
2017-09-04
JavaScript
python去除html標籤
2013-08-19
PythonHTML
Sql Server資料庫如何去掉內容裡面的Html標籤
2018-12-27
SQLServer資料庫HTML
PbootCMS可使用的列表標籤內容tags標籤呼叫
2024-08-16
boot
html指令碼標籤與
2020-04-01
HTML指令碼
HTML 標籤與佈局
2019-04-05
HTML
HTML 基本骨架與常用標籤
2020-11-26
HTML
C#操作Word之根據標籤名清除標籤內容
2009-02-05
C#
【前端】HTML__內聯元素與塊元素
2019-02-16
前端HTML
HTML <a> 標籤
2018-10-08
HTML
HTML 標籤
2017-09-10
HTML
HTML 標籤
2010-12-07
HTML
html標籤
2024-03-26
HTML
html中常用的標籤都有哪些，指出他們的語義化內容
2017-10-27
HTML
如何用Python批量提取PDF文字內容？
2018-06-27
Python
HTML標籤(基本標籤的使用)
2018-08-30
HTML
jquery實現的設定指定元素的文字內容和html內容
2017-03-19
jQueryHTML
HTML 標籤與屬性大小寫
2019-01-07
HTML
Java中用正則從HTML標籤中提取文字2種方法
2024-05-19
JavaHTML
Python全棧Web（HTML標籤大全）
2018-09-08
Python全棧WebHTML
HTML <var> 標籤
2020-03-13
HTML
HTML <canvas> 標籤
2020-03-13
HTMLCanvas
HTML <article> 標籤
2019-07-30
HTML
HTML <section> 標籤
2019-07-30
HTML
HTML <main> 標籤
2019-07-30
HTMLAI

Python Xpath 提取html整個元素（標籤與內容）

相關文章