python四種方式解析網頁獲取頁面中的連結

還需要學習的萌新發表於2020-12-31

原文網址 : https://blog.csdn.net/zhangge138/article/details/112006766

# 連結直譯器
# 使用三種不同直譯器 環境python3.8
#
from html.parser import HTMLParser
from urllib.request import urlopen
from urllib.parse import urljoin
import time
# 非標準庫
from bs4 import BeautifulSoup, SoupStrainer

# 非標準庫
# from html5lib import html5parser, treebuilders,treewalkers

# 要解析的網站
URLS = ('http://python.org',)


# 定義輸出函式
def output(x):
    print('\n'.join(sorted(list(set(x)))))


def simpleBS(url, f):
    """
    使用BeautifulSoup庫來解析所有標籤以獲得錨點
    :param url: url
    :param f: 檔案資料
    :return:
    """
    list_href = [x for x in BeautifulSoup(f).findAll('a')]
    output(urljoin(url, x['href']) for x in list_href)


def fasterBS(url, f):
    """
    使用BeautifulSoup來只解析a標籤
    :param url: url
    :param f: 文加資料
    :return:
    """
    list_href = [x for x in BeautifulSoup(f, parse_only=SoupStrainer('a'))][1:]
    output(urljoin(url, x['href']) for x in list_href)


def htmlparser(url, f):
    """
    自定義HTMLParser 子類來解析錨點
    :param url: url
    :param f: 檔案資料
    :return:
    """

    class AnchorParser(HTMLParser):
        def handle_starttag(self, tag, attrs):
            if tag != 'a':
                return
            # 若沒有data值，增加data屬性
            if not hasattr(self, 'data'):
                self.data = []
            for attr in attrs:
                if attr[0] == 'href':
                    self.data.append(attr[1])

    parser = AnchorParser()
    # 只能feed字串，故將位元組串轉化為字串
    parser.feed(data=f.decode())
    output(urljoin(url, x) for x in parser.data)


def html5libparse(url, f):
    """
    使用html5lib庫作為bs的直譯器來解析錨點
    :param url: url
    :param f: 檔案資料
    :return:
    """
    list_href = [x for x in BeautifulSoup(f.decode(), 'html5lib').findAll('a')]
    output(urljoin(url, x['href']) for x in list_href)


def process(url, data):
    print('\n*** simple BS')
    start = time.time()
    simpleBS(url, data)
    print('simple BS:%.3fs used'% (time.time() - start))
    print('\n*** faster BS')
    start = time.time()
    fasterBS(url, data)
    print('faster BS %.3fs used'% (time.time() - start))
    print('\n*** HTMLParse')
    start = time.time()
    htmlparser(url, data)
    print('HTMLParse %.3fs used' % (time.time() - start))
    print('\n*** HTML5lib')
    start = time.time()
    html5libparse(url, data)
    print('HTML5lib %.3fs used'% (time.time() - start))

    # 主函式


def main():
    for url in URLS:
        f = urlopen(url)
        data = f.read()
        f.close()
        # 處理資料
        process(url, data)


main()

易優CMS根據aid獲取文件頁面連結
2024-07-17
AI
WKWebView 獲取網頁高度，圖片點選檢視，網頁連結點選
2021-03-03
WebView網頁
python3中編碼如何獲取網頁?
2021-09-11
Python網頁
python獲取頁面亂碼時的處理
2021-11-11
Python
php獲取網頁內容的三種方法
2018-10-17
PHP網頁
解析網站CSS中文字型連結造成404頁面
2019-05-11
網站CSS
Spring6 當中獲取 Bean 的四種方式
2024-04-30
SpringBean
398、Java框架52 -【Hibernate - 分頁、兩種獲取方式】 2020.10.27
2020-10-27
Java框架
JavaScript 獲取div在頁面中座標
2019-04-15
JavaScript
css中四種頁面編寫樣式
2021-09-11
CSS
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
網頁用python爬取後如何解析
2021-09-11
網頁Python
Python頁面載入的等待方式
2021-09-11
Python
HTML頁面插入SVG的多種方式
2020-05-19
HTMLSVG
用 js 獲取頁面元素的位置圖文總結
2019-03-01
JS
前端效能優化(四)——網頁載入更快的N種方式
2021-09-02
前端優化網頁
vue+element-ui中獲取頁面資料
2018-08-15
VueUI
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
基於Sql server資料庫的四種分頁方式總結
2019-02-10
SQLServer資料庫
getBoundingClientRect方法獲取元素在頁面中的相對位置
2018-04-25
GCclient
SQL中的四種連線方式
2020-04-05
SQL
QWebView獲取網頁原始碼
2018-11-01
WebView網頁原始碼
PHP中獲取當前頁面的各種URL格式
2019-02-16
PHP
java獲取前端頁面傳送的cookie中的資訊
2018-06-13
Java前端Cookie
手淘首頁改版，如何打造首頁流量，快速獲取猜你喜歡流量的四種方法
2020-10-09
appium 獲取混合頁面元素失敗
2021-01-14
APP
JavaScript-滑鼠獲取頁面座標
2020-11-29
JavaScript
layui獲取頁面checkbox核取方塊值
2019-04-19
UI
SpringBoot獲取HttpServletRequest的3種方式總結
2024-06-17
Spring BootHTTPServlet
js/jq 獲取網頁寬高
2018-12-12
JS網頁
Python網路爬蟲之爬取淘寶網頁頁面 MOOC可以執行的程式碼
2018-11-24
Python爬蟲網頁
想獲取JS載入網頁的源網頁的原始碼，不想獲取JS載入後的資料
2024-04-10
JS網頁原始碼
微信小程式攜帶引數跳轉頁面/獲取頁面棧
2020-08-13
微信小程式
如何用jst獲取DOM元素在頁面中的絕對位置？
2024-12-03
JS
直播系統中網頁類似app頁面切換動畫的實現方式
2021-10-10
網頁APP動畫
Go和JavaScript結合使用：抓取網頁中的影像連結
2023-11-07
GoJavaScript網頁
關於python爬取網頁
2021-03-10
Python網頁
獲取微信小程式頁面路徑
2024-07-12
微信小程式

python四種方式解析網頁獲取頁面中的連結

相關文章