htmlparsing: 純淨簡單的 HTML 解析庫

小眾程式碼發表於2018-02-26

HTML Parsing

純淨的HTML解析庫, 取代複雜的beautifulsoup4, pyquery, lxml

安裝

pip install htmlparsing

# or

pip install git+https://github.com/gaojiuli/htmlparsing
複製程式碼

用法

import requests

from htmlparsing import Element

url = 'https://python.org'
r = requests.get(url)
複製程式碼

初始化

e = Element(text=r.text, base_url=url)
複製程式碼

獲取頁面中的連結

print(e.links)
"""
{...'/users/membership/', '/events/python-events', '//docs.python.org/3/tutorial/controlflow.html#defining-functions'}
"""


print(e.absolute_links)
"""
{...'https://python.org/download/alternatives',  'https://python.org/about/success/#software-development', 'https://python.org/download/other/', 'https://python.org/community/irc/'}
"""
複製程式碼

選擇器以及選擇屬性

print(e.xpath('//a')[0].attrs)
"""{'href': '#content', 'title': 'Skip to content'}"""

print(e.xpath('//a')[0].attrs.title)
"""Skip to content"""

print(e.css('a')[0].attrs)
"""{'href': '#content', 'title': 'Skip to content'}"""

print(e.parse('<a href="#content" title="Skip to content">{}</a>'))
"""<Result ('Skip to content',) {}>"""
複製程式碼

獲取文字內容和整個HTML

print(e.xpath('//a')[5].text)
"""PyPI"""

print(e.xpath('//a')[5].html)
"""<a href="https://pypi.python.org/" title="Python Package Index">PyPI</a>"""

print(e.xpath('//a')[5].markdown)
"""[PyPI](https://pypi.python.org/ "Python Package Index")"""

複製程式碼

目前支援的選擇器: xpath, css ,parse

github: github.com/gaojiuli/ht…

純淨搭建簡歷工具
2021-10-29
簡單純粹
2024-05-18
kaarbe/html-extractor：從HTML中提取文字的簡單Java庫
2022-12-05
HTMLJava
iOS第三方HTML解析 TFHpple 的簡單使用
2015-10-15
iOSHTML
簡單html
2016-12-15
HTML
如何建立一個“純淨”的物件
2019-04-20
物件
原生純淨的Boot腳手架
2021-08-11
boot
Gumbo：Google推出純C編寫的HTML5解析器
2013-08-15
GoHTML
【postgresl】PG資料庫sql特性簡單解析
2019-03-22
資料庫SQL
我的if else程式碼純淨無暇，一個字也不能簡化
2018-12-29
HTML簡單介紹
2018-07-17
HTML
HTML很簡單？不！
2020-10-23
HTML
HTML 簡單介紹
2018-05-26
HTML
mysqldump簡單解析
2017-08-13
MySql
HTML簡單知識的總結
2018-06-24
HTML
Win10系統純淨版好用嗎？Win10純淨版系統的弊端介紹
2021-11-23
Win10
HTML之簡單標籤
2018-03-16
HTML
住宅IP：高純淨度的代理服務
2023-05-08
怎麼樣純淨安裝win10系統_純淨安裝win10系統的方法
2020-04-30
Win10
使用Python語言編寫簡單的HTML5語法解析器
2016-01-07
PythonHTML
win10純淨版怎麼安裝步驟_windows10純淨版安裝教程
2020-07-07
Win10Windows
簡單的js工具庫
2020-10-25
JS
HTML標籤，簡單歸納
2019-01-18
HTML
HTML簡單網頁製作
2024-07-28
HTML網頁
簡單解析C++基於Boost庫實現命令列
2021-07-14
C++命令列
PHP GD庫解析一張簡單圖片並輸出
2020-10-22
PHP
解析對偶理論與對偶單純性法
2021-09-11
包含(處理)HTML的最簡單方法包括
2021-01-13
HTML
Servlet實現、與html的簡單互動
2020-10-08
ServletHTML
html的reset按鈕的作用簡單介紹
2018-03-01
HTML
Linux一鍵DD純淨系統
2024-06-20
Linux
win10裝機版和純淨版哪個好 win10裝機版和純淨版的區別
2021-11-26
Win10
1.物件和類的簡單解析
2021-07-02
物件
簡單介紹PostgreSQL解析URL的方法
2022-12-10
SQL
簡單介紹HTML5 Landmark
2020-09-07
HTML
html文件結構簡單介紹
2017-04-05
HTML
HTML字元實體簡單介紹
2017-04-02
HTML字元
html中註釋簡單介紹
2017-02-10
HTML

htmlparsing: 純淨簡單的 HTML 解析庫

HTML Parsing

安裝

用法

初始化

獲取頁面中的連結

選擇器以及選擇屬性

獲取文字內容和整個HTML

相關文章