這裡二級頁,開啟檢視元素。
如圖,找到li 中的 v-full,下的a 標籤。
附上程式碼
<a href="https://weibo.com/tv/v/IBaGL40Hu?fid=1034:4488591628501002" target="_blank">
[微博視訊] 第一局 LGD錘石迅猛開團EDG泰坦沒能走掉被秒,雷克塞又一次被集火殺掉,LGD0換2拿下峽谷 </a>
附上程式碼
# 根據傳入的 錄影 集錦 來 執行爬蟲。
def getVideoList(matches):
video_list = []
for i in matches:
doc = getLxml(i , lambda resp: BeautifulSoup(resp.text, 'lxml'))
# print('resp: ', doc)
if doc is None:
continue
for a in doc.select('.v-full a'):
title, href = a.text.strip(), a.attrs['href']
if next(filter(lambda v: v[1] == href, video_list), None) is None:
video_list.append((title, href))
print('video_list: ', video_list)
技術解析 BeautifulSoup
BeautifulSoup4簡介
BeautifulSoup4和 lxml 一樣,Beautiful Soup 也是一個HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 資料。
BeautifulSoup支援Python標準庫中的HTML解析器,還支援一些第三方的解析器,如果我們不安裝它,則 Python 會使用 Python預設的解析器,lxml 解析器更加強大,速度更快,推薦使用lxml 解析器。
Beautiful Soup自動將輸入文件轉換為Unicode編碼,輸出文件轉換為utf-8編碼。你不需要考慮編碼方式,除非文件沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。然後,你僅僅需要說明一下原始編碼方式就可以了。
下一篇會介紹。請檢視。
同理
本作品採用《CC 協議》,轉載必須註明作者和本文連結