py 爬取某網站直播集錦-抓取組裝得到詳情頁視訊集錦 url-現場敲程式碼

kuibatian發表於2020-03-31

py 爬取某網站直播集錦-抓取組裝得到詳情頁視訊集錦url-現場敲程式碼

這裡二級頁,開啟檢視元素。

py 爬取某網站直播集錦-抓取組裝得到詳情頁視訊集錦url-現場敲程式碼

如圖,找到li 中的 v-full,下的a 標籤。
附上程式碼



<a href="https://weibo.com/tv/v/IBaGL40Hu?fid=1034:4488591628501002" target="_blank">
  [微博視訊] 第一局 LGD錘石迅猛開團EDG泰坦沒能走掉被秒,雷克塞又一次被集火殺掉,LGD02拿下峽谷   </a>

附上程式碼


# 根據傳入的 錄影 集錦 來 執行爬蟲。
def getVideoList(matches):
    video_list = []
    for i in matches:
        doc = getLxml(i , lambda resp: BeautifulSoup(resp.text, 'lxml'))
        # print('resp: ', doc)
        if doc is None:
            continue
        for a in doc.select('.v-full a'):
            title, href = a.text.strip(), a.attrs['href']
            if next(filter(lambda v: v[1] == href, video_list), None) is None:
                video_list.append((title, href))

    print('video_list: ', video_list)

技術解析 BeautifulSoup

BeautifulSoup4簡介

BeautifulSoup4和 lxml 一樣,Beautiful Soup 也是一個HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 資料。

BeautifulSoup支援Python標準庫中的HTML解析器,還支援一些第三方的解析器,如果我們不安裝它,則 Python 會使用 Python預設的解析器,lxml 解析器更加強大,速度更快,推薦使用lxml 解析器。

Beautiful Soup自動將輸入文件轉換為Unicode編碼,輸出文件轉換為utf-8編碼。你不需要考慮編碼方式,除非文件沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。然後,你僅僅需要說明一下原始編碼方式就可以了。

下一篇會介紹。請檢視。

同理

py 爬取某網站直播集錦-抓取組裝得到詳情頁視訊集錦url-現場敲程式碼

本作品採用《CC 協議》,轉載必須註明作者和本文連結

每天5分鐘,與你一起蛻變!上海php自學中心,目前專注於php,python,golang~撒花!
S3d25uqwht.png!large
公眾號7Dn78VKKcW.jpg!large

相關文章