多執行緒下載nginx站點目錄下檔案

&UnstopPable發表於2024-09-18

原文網址 : https://www.cnblogs.com/Unstoppable9527/p/18418783

程式碼如下

import os
import time
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from concurrent.futures import ThreadPoolExecutor, as_completed 
from tqdm import tqdm

base_url = ""  # 要下載檔案的基礎URL
download_dir = ""  # 儲存下載檔案的目錄
max_workers = 10  # 最大併發數

# 下載單個檔案
def download_file(file_url, download_dir):
    if not os.path.exists(download_dir):
        os.makedirs(download_dir)

    file_name = file_url.split('/')[-1]  # 提取檔名
    file_path = os.path.join(download_dir, file_name)

    if os.path.isdir(file_path):
        print(f"錯誤：路徑 {file_path} 是一個目錄，無法作為檔案儲存！")
        return

    # 如果檔案不存在則開始下載
    if not os.path.exists(file_path): 
        with requests.get(file_url, stream=True) as r:
            r.raise_for_status()  # 確保請求成功
            total_size = int(r.headers.get('content-length', 0))  # 獲取檔案大小
            with open(file_path, 'wb') as f, tqdm(
                    desc=file_path,
                    total=total_size,
                    unit='B',
                    unit_scale=True,
                    unit_divisor=1024
            ) as bar:
                for chunk in r.iter_content(chunk_size=1024):
                    if chunk:
                        f.write(chunk)
                        bar.update(len(chunk))
    else:
        print(f"檔案 {file_path} 已存在，跳過下載。")

# 獲取目錄中的所有檔案和子目錄連結
def get_links(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    files = []  # 存放檔案連結
    subdirs = []  # 存放子目錄連結

    for link in soup.find_all('a'):
        href = link.get('href')
        if href not in ['../', '/']:  # 排除上級目錄連結
            full_url = urljoin(url, href)  # 構建完整URL
            if href.endswith('/'):
                subdirs.append(full_url)  # 是子目錄則新增到子目錄列表
            else:
                files.append(full_url)  # 是檔案則新增到檔案列表

    return files, subdirs

# 併發下載檔案和子目錄中的檔案
def download_concurrently(base_url, download_dir):
    files, subdirs = get_links(base_url)

    if not subdirs:  # 如果沒有子目錄，只順序下載檔案
        print(f"檢測到目錄下全是檔案，順序下載...")
        for file_url in files:
            download_file(file_url, download_dir)
    else:
        print(f"檢測到有子目錄，進行併發下載...")
        with ThreadPoolExecutor(max_workers=max_workers) as executor:
            futures = []
            for subdir in subdirs:
                subdir_name = subdir.split('/')[-2]
                subdir_path = os.path.join(download_dir, subdir_name)

                # 避免檔案和目錄同名衝突
                if os.path.isfile(subdir_path):
                    print(f"錯誤：路徑 {subdir_path} 已存在且是檔案，無法建立為目錄！")
                    continue

                futures.append(executor.submit(download_files, subdir, subdir_path))

            # 順序下載當前目錄下的檔案
            for file_url in files:
                futures.append(executor.submit(download_file, file_url, download_dir))

            # 顯示併發任務的進度
            for future in as_completed(futures):
                try:
                    future.result()
                except Exception as e:
                    print(f"下載出錯: {e}")

# 遞迴下載子目錄中的檔案
def download_files(url, download_dir):
    files, subdirs = get_links(url)

    if not os.path.exists(download_dir):
        os.makedirs(download_dir)

    for file_url in files:
        download_file(file_url, download_dir)

    for subdir in subdirs:
        subdir_name = subdir.split('/')[-2]
        subdir_path = os.path.join(download_dir, subdir_name)

        if os.path.isfile(subdir_path):
            print(f"錯誤：路徑 {subdir_path} 已存在且是檔案，無法建立為目錄！")
            continue

        download_files(subdir, subdir_path)

if __name__ == "__main__":
    start_time = time.time()  # 記錄開始時間
    download_concurrently(base_url, download_dir)
    end_time = time.time()  # 記錄結束時間

    total_time = end_time - start_time
    print(f"總下載時間: {total_time:.2f} 秒")

說明

指令碼用於從一個目錄中下載檔案，並且支援遞迴處理子目錄。它使用了concurrent.futures庫來實現多執行緒併發下載，從而提高下載速度。指令碼的主要功能包括：

下載單個檔案：使用requests模組獲取檔案，配合tqdm顯示進度條。
獲取目錄連結：透過解析HTML頁面，提取當前目錄下的所有檔案和子目錄。
併發下載：如果有子目錄，則建立執行緒池併發處理子目錄和檔案。
遞迴下載：對於每個子目錄，遞迴下載其中的檔案。

多執行緒下載檔案
2018-10-17
執行緒
Android原生下載（下篇）多檔案下載+多執行緒下載
2018-11-14
Android執行緒
Java多執行緒檔案分片下載實現
2020-03-05
Java執行緒
多執行緒斷點下載原理
2018-03-19
執行緒斷點
多執行緒下載工具 NeatDownloadManager下載
2020-11-08
執行緒
Nginx 站點配置多目錄管理
2024-06-29
Nginx
ftp多執行緒下載工具
2024-03-23
FTP執行緒
Java多執行緒下載分析
2022-06-26
Java執行緒
多執行緒下載原理解析
2018-11-23
執行緒
https多執行緒下載程式碼
2024-03-23
HTTP執行緒
Chrome 開啟多執行緒下載
2024-06-29
Chrome執行緒
刪除當前目錄下的所有可執行檔案
2024-08-10
Android多執行緒+單執行緒+斷點續傳+進度條顯示下載
2018-06-18
Android執行緒斷點
強推！多執行緒下載工具 NeatDownloadManager
2021-07-21
執行緒
Camtd - Chrome 多執行緒下載管理器外掛，可滿速下載百度網盤檔案
2018-05-06
Chrome執行緒
005.Nginx配置下載站點
2020-07-09
Nginx
windows下ftp定時執行批次下載檔案，windows下ftp定時執行批次下載檔案的一種方法
2020-09-21
WindowsFTP
多執行緒下的list
2020-07-03
執行緒
超強Mac多執行緒下載工具 NeatDownloadManager Mac
2021-02-25
Mac執行緒
從CSV檔案中讀取jpg圖片的URL地址並多執行緒批量下載
2019-02-16
執行緒
Scrapy：根據目錄來下載github上的檔案
2019-03-01
Github
gitignore 忽略目錄下檔案僅保留目錄形態
2020-08-10
Git
遍歷目錄下的所有檔案
2020-12-09
通用的上傳下載（執行緒）
2024-04-14
執行緒
IDEA多執行緒下空指標斷點除錯
2020-12-31
Idea執行緒指標斷點除錯
Chrome、Edge瀏覽器內建多執行緒下載
2024-03-16
Chrome瀏覽器執行緒
Java多執行緒下載器FileDownloader（支援斷點續傳、代理等功能）
2019-07-21
Java執行緒斷點
Java 從指定URL下載檔案並儲存到指定目錄
2018-05-31
Java
8.var目錄下的檔案和目錄詳解
2020-04-04
檔案下載那點事
2019-04-14
Linux下如何對目錄中的檔案進行統計
2020-08-24
Linux
window下執行sh檔案
2020-10-22
SpringMVC檔案上傳下載(單檔案、多檔案)
2020-07-30
SpringMVC
第十節：詳細講解一下Java多執行緒，隨機檔案
2018-04-22
Java執行緒隨機
多執行緒考點
2019-04-03
執行緒
Java下如何保證多執行緒安全
2021-07-30
Java執行緒
C#多執行緒下的調優
2022-04-06
C#執行緒
【分享】Composer 國內映象及多執行緒下載利器 hirak/prestissimo
2019-10-08
執行緒REST

多執行緒下載nginx站點目錄下檔案

程式碼如下

說明

相關文章