概要
針對批次爬取douyin影片分為兩期進行講解,本期(第一期)內容是講解如何在上批次下載影片,如何快速的搭建環境,修改引數,讓小夥伴們邊看邊學,半個小時內就可以輕鬆將douyin影片批次進行下載。第二期內容主要是對程式碼進行詳解,對爬蟲感興趣的小夥伴可以深入瞭解一下。
程式碼完整版及結果展示
廢話不多說 直接放完整版程式碼,如果有小夥伴不想去研究的太深,直接拿走用就OK,參照下面我所講解到所需要更換的引數進行修改,就可以批次下載各種各樣的douyin影片啦
import requests #===================== ###################### 需修改url 主頁地址F12獲取具體URL值 ###################### 0 ###################### 需修改headers中 Referer ###################### 需修改headers中 Cookie ###################### 需修改headers中 User-Agent #===================== url = 'https://www.douyin.com/aweme/v1/web/aweme/post/?device_pla0000000000000000004' headers = { 'Cookie':'UIFID_TEMP=000000000000000000000000=true', 'Referer':'https://ww00000000000000000', 'User-Agent':'Moz000000000000000000000' } res = requests.get(url, headers=headers) aweme_list = res.json().get("aweme_list") for aweme in aweme_list: title = aweme.get("desc") url = aweme.get("video").get("play_addr").get("url_list")[-1] res = requests.get(url) with open(f"./{title}.mp4", "wb") as f: f.write(res.content) print(f"{title}下載成功!")
在這裡要提醒大家一下,如果在爬取時間較長的影片時,儘量在網速比較快的情況下進行爬取
具體操作流程
1、程式碼環境搭建
2、程式碼簡單介紹
為了能夠快速的讓大家掌握,並且調整引數,下面我將分成4步,快速的為大家進行介紹
2.1、檔案的建立
第一步要在剛建立的資料夾下,建立一個Python檔案,這個檔案是用來存放程式碼的,同時在這個檔案下建立一個新的資料夾,這個資料夾是用來存放下載影片的(在這裡要注意一下,這個檔名稱要和第四步的名稱一樣)
2.2、標頭引數
大家可以看到這個標頭下,有三個頭,分別是Cookie、Referer和User-Agent。
這裡就用大白話為大家說明一下這三個的作用。這三個標頭大家可以理解為,當我們要回家,開啟一扇門時,需要一把鑰匙,這樣才能夠正常的進入到房間內,進行一系列的活動
在這裡三個標頭就是一把鑰匙,當我們想要請求伺服器的時候,就需要用一把鑰匙來證明我們的身份,當我們的身份合法時,就可以獲取裡面的內容了
2.3、請求地址
這個地址就是我們需要訪問的網址
2.4、資料夾名稱
大家在這裡要注意的是,要和第一步建立存放影片的資料夾保持一致,否則會儲存失敗
3、修改引數
在修改引數這一步,大家將2、程式碼簡單介紹的第2步和第3步程式碼中的引數修改為自己所要爬取影片的引數就OK啦 為了方便大家快速的應用,依舊是使用圖片讓大家更加清晰的瞭解引數所在的位置
在你想要爬取的頁面滑鼠右鍵,點選檢查
1、點選順序
在點選檢查後,依次點選網路>Fetch/XHR>輸入post,對post請求進行篩選,然後點選下方的post,就可以看到右方的一對資料
2、標頭調參
右側分別有標頭、負載、預覽、響應等等,目前我們只需用到標頭中的引數對程式碼中的內容進行修改 首先可以看到請求URL,將URL全部複製下來,貼上到程式碼中響應的位置
然後在請求URL下面這個模組中就是響應標頭,滑動滑鼠找到請求標頭,對應著(程式碼簡單介紹中的第二步),這三個標頭都可以依次找到,然後進行復制貼上,替換引數。
爬取資料
到這一步小夥伴們就可以在程式碼中點選右鍵,執行程式碼就可以批次下載影片啦
————————————————
原文連結:https://blog.csdn.net/YCH0309/article/details/141268110