爬蟲案例2-爬取影片的三種方式之一：selenium篇(2)

laity17發表於2024-09-11

原文網址 : https://www.cnblogs.com/laity17/p/18408830

前言
selenium簡介
實戰案例
共勉
部落格

前言

繼使用requests庫爬取好看影片的文章後，本文分享使用python第三方庫selenium庫接著來爬取影片網站，後續也會接著分享使用第三方庫DrissionPage爬取影片。

selenium簡介

selenium是一個用於web應用測試的工具集，它可以直接執行在瀏覽器中，就像真正的使用者在操作一樣。它主要應用在自動化測試，web爬蟲和自動化任務中。selenium提供了很多程式語言的介面，如java，python，c#等。這讓開發者可以自己編寫指令碼來自動化web應用的測試。

實戰案例

話不多說，直接上原始碼

from selenium import webdriver   # 瀏覽器驅動
from selenium.webdriver.common.by import By  # 用來定位web頁面上的元素
import time             # 時間函式
import os               # 檔案管理模組
import requests        # 資料請求模組


if not os.path.exists('./videos1'):  # 建立資料夾
    os.mkdir('./videos1')
def video(data):     # 定義請求每個詳細影片的函式
    for url in data:   # 遍歷每個詳細影片的地址
        driver=webdriver.Chrome()   # 初始化瀏覽器例項
        driver.get(url)               # 開啟url頁面
        src=driver.find_element(by=By.CLASS_NAME, value='art-video')  # 獲取每個詳細影片的詳細地址
        src=src.get_attribute('src')
        name=driver.find_element(by=By.CLASS_NAME, value='videoinfo-title')  # 獲取每個詳細影片的標題
        name=name.text
        video_detail=requests.get(src).content     # 對每個詳細影片進行請求
        with open('./videos1/'+name+'.mp4','wb') as f:  # 儲存影片
            f.write(video_detail)
        print(name,src)
        driver.quit()        # 關閉瀏覽器
driver=webdriver.Chrome()     # 初始化瀏覽器例項
driver.get("https://haokan.baidu.com/")  # 開啟網址
for i in range(1,6):
    driver.execute_script("document.documentElement.scrollTop=2000")  # 頁面下滑
    time.sleep(1)
time.sleep(2)
data_video=driver.find_elements(by=By.CLASS_NAME,value='videoItem_videoitem__Z_x08') # 對影片資訊進行定位
data=[]        # 定義空列表，用來儲存每個時評的地址
for a in data_video:  # 
    href=a.get_attribute("href")  # 獲取影片地址
    data.append(href)
print(data)
time.sleep(2)
driver.quit()   # 關閉瀏覽器
video(data)   # 呼叫video()函式

共勉

能力決定下限，機會決定上限

部落格

本人是一個滲透愛好者，不時會在微信公眾號（laity的滲透測試之路）更新一些實戰滲透的實戰案例，感興趣的同學可以關注一下，大家一起進步。
- 之前在公眾號釋出了一個kali破解WiFi的文章，感興趣的同學可以去看一下，在b站（up主:laity1717）也釋出了相應的教學影片。

爬蟲案例2-爬取影片的三種方式之一：DrissionPage篇(3)
2024-09-24
爬蟲
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
【爬蟲】專案篇-使用selenium爬取大魚潮汐網
2024-04-05
爬蟲
爬蟲-selenium的使用
2021-02-04
爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
獲取爬蟲動態IP的三種方法
2022-06-06
爬蟲
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
擼個爬蟲，爬取電影種子
2019-05-11
爬蟲
爬蟲案例
2024-03-31
爬蟲
Python爬蟲——批次爬取douyin影片，下載到本地
2024-12-06
Python爬蟲
爬蟲實戰（二）：Selenium 模擬登入並爬取資訊
2018-07-15
爬蟲
爬蟲案例（六）
2020-11-03
爬蟲
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
爬取資料時防止爬蟲被限制的四種方法
2022-06-07
爬蟲
selenium爬蟲學習1
2024-08-29
爬蟲
爬蟲受限的三種解決方案
2022-05-13
爬蟲
防止爬蟲被限制的三種方法
2022-06-13
爬蟲
常見的三種反爬蟲措施
2022-05-31
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
Python爬蟲實戰案例-爬取幣世界標紅快訊
2019-02-16
Python爬蟲
爬蟲之股票定向爬取
2018-12-06
爬蟲
呼叫瀏覽器的爬蟲——selenium
2020-03-27
瀏覽器爬蟲
3、爬蟲-selenium-獲取使用者cookie的使用
2024-07-01
爬蟲Cookie
提高爬蟲爬取效率的辦法
2022-04-06
爬蟲
scrapy突破反爬的幾種方式（三）
2018-09-17
利用爬蟲掙錢系列2-細說資料整合
2018-12-04
爬蟲
9.爬蟲案例
2024-12-06
爬蟲
Python爬蟲基礎之selenium
2022-07-13
Python爬蟲
Java爬蟲系列四：使用selenium-java爬取js非同步請求的資料
2021-10-17
Java爬蟲JS非同步
爬蟲爬取微信小程式
2019-02-16
爬蟲微信小程式
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
如何合理控制爬蟲爬取速度？
2022-06-02
爬蟲
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊
2021-03-24
Python爬蟲
Python爬蟲之Selenium庫的基本使用
2018-11-30
Python爬蟲

爬蟲案例2-爬取影片的三種方式之一：selenium篇(2)

前言

selenium簡介

實戰案例

共勉

部落格

相關文章