批量抓取網頁pdf檔案

justchenhao發表於2019-02-16

原文網址 : https://flycode.co/archives/78519

網頁

任務：批量抓取網頁pdf檔案

有一個excel，裡面有數千條指向pdf下載連結的網頁地址，現在，需要批量抓取這些網頁地址中的pdf檔案。
python環境：

anaconda3
openpyxl
beautifulsoup4

讀取excel，獲取網頁地址

使用openpyxl庫，讀取.xslx檔案；
（曾嘗試使用xlrd庫讀取.xsl檔案，但無法獲取超連結）

安裝openpyxl
```
pip install openpyxl
```
提取xslx檔案中的超連結

示例檔案構造

公告日期	證券程式碼	公告標題
2018-04-20	603999.SH	讀者傳媒:2017年年度報告
2018-04-28	603998.SH	方盛製藥:2017年年度報告

def  readxlsx(path):
    workbook = openpyxl.load_workbook(path)
    Data_sheet = workbook.get_sheet_by_name(`sheet1`)
    rowNum = Data_sheet.max_row #讀取最大行數
    c =  3  # 第三列是所需要提取的資料
    server =  `http://news.windin.com/ns/`
    for  row  in  range(1, rowNum  +  1):
        link = Data_sheet.cell(row=row, column=c).value
        url = re.split(r`"`, link)[1]
        print(url)
        downEachPdf(url, server)

獲取網頁pdf下載地址

進入讀者傳媒:2017年年度報告，在chrome瀏覽器中可以按F12檢視網頁原始碼，以下擷取部分原始碼：

<div class="box4"><div style=`float:left;width:40px;background-color:#ffffff;`>附件:</div>  <div style=float:left;width:660px;background-color:#f3f3f3;`>  <a href=[getatt.php?id=91785868&att_id=32276645](http://news.windin.com/ns/getatt.php?id=91785868&att_id=32276645) class=`big` title=603999讀者傳媒2017年年度報告.pdf>603999讀者傳媒2017年年度報告.pdf </a>&nbsp;&nbsp; (2.00M) &nbsp;&nbsp</div></div>

可見，herf下載連結在a標籤中，可以通過解析html原始碼獲取下載連結。
這裡使用BeautifulSoup解析html。

Beautiful Soup 是用Python寫的一個HTML/XML的解析器，它可以很好的處理不規範標記並生成剖析樹(parse tree)。它提供簡單又常用的導航（navigating），搜尋以及修改剖析樹的操作。它可以大大節省你的程式設計時間。

安裝BeautifulSoup4

pip install beautifulsoup4

獲取pdf下載連結並下載

def  downEachPdf(target, server):
    req = requests.get(url=target)
    html = req.text
    bf = BeautifulSoup(html, features="lxml")
    a = bf.find_all(`a`)
    for each in a:
        url = server + each.get(`href`)
        print("downloading:", each.string, url)
        urllib.request.urlretrieve(url, `./report/` + each.string)

同一ip重複訪問同一伺服器被拒絕

利用以上方法已經能夠實現批量網頁pdf的下載了，但是，在實際操作過程中，會發現如果同一ip頻繁地訪問某一伺服器，訪問會被拒絕（可能被誤判為DOS攻擊，通常做了Rate-limit的網站都會停止響應一段時間，你可以Catch這個Exception，sleep一段時間，參考）。因此，對下載邏輯進行了調整。
利用try-catch，具體邏輯是：正常情況下，按次序下載檔案，如果同一檔案，下載失敗次數超過10，則跳過，下載下一個檔案，並記錄錯誤資訊。

import os
import time
def  downloadXml(flag_exists, file_dir, file_name, xml_url):
    if  not flag_exists:
        os.makedirs(file_dir)
        local = os.path.join(file_dir, file_name)
    try:
        urllib.request.urlretrieve(xml_url, local)
    except  Exception  as e:
        print(`the first error: `, e)
        cur_try =  0
        total_try =  10
        if cur_try < total_try:
            cur_try +=  1
            time.sleep(15)
            return downloadXml(flag_exists, file_dir, file_name, xml_url)
    else:
        print(`the last error: `)
        with  open(test_dir +  `error_url.txt`, `a`) as f:
            f.write(xml_url)
        raise  Exception(e)

批量擷取pdf檔案
2019-02-16
BatchOutput PDF ——批量自動列印PDF檔案
2021-10-18
BAT
BatchOutput PDF for Mac(批量自動列印PDF檔案)
2021-10-17
BATMac
網頁中Office和pdf相關檔案匯出
2020-11-22
網頁
Python | 實現pdf檔案分頁
2021-10-31
Python
一款免費使用的PDF檔案批量合併工具，可操作pdf檔案順序，按順序合併pdf檔案。
2022-01-27
使用canvas儲存網頁為pdf檔案支援跨域
2018-11-22
Canvas網頁跨域
對pdf檔案批量重新命名，便於合併
2020-12-12
如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案
2019-01-12
Web
【Vue 實踐】頁面生成 pdf 檔案-01
2019-03-26
Vue
線上將網頁轉成PDF檔案\JPG圖片的工具
2019-05-11
網頁
如何將一個PDF檔案裡的圖片批量匯出
2018-11-27
「Python實用祕技04」為pdf檔案批量新增文字水印
2022-01-20
Python
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
騰牛網抓取（單頁）
2024-08-07
如何抓取網頁資訊？
2022-06-02
網頁
網頁資料抓取之噹噹網
2020-12-21
網頁
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
使用代理抓取網頁的原因
2021-09-11
網頁
網頁佈局-----引入檔案
2024-05-16
網頁
BatchOutput PDF for Mac(PDF批量列印工具)
2022-06-08
BATMac
Shell指令碼 | 抓取log檔案
2019-02-22
指令碼
怎麼把pdf檔案縮小？如何使用PDF Expert壓縮pdf檔案大小？
2021-11-09
PDF檔案轉換為DWF檔案
2022-02-11
Linux批量刪除檔案
2018-07-05
Linux
Nodejs檔案批量重全名
2019-10-24
NodeJS
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
PDF Squeezer - PDF Toolbox for Mac(PDF檔案工具箱)
2022-05-06
Mac
網頁特效,網頁模板,pdf下載 - IT書包
2019-05-11
網頁特效
PDF檔案批次列印工具：BatchOutput PDF for Mac
2023-12-29
BATMac
pdf檔案搜尋工具：PDF Search Mac
2022-03-27
Mac
PDF檔案搜尋工具PDF Search for Mac
2022-07-22
Mac
PDF Search for Mac(pdf檔案搜尋工具)
2022-07-18
Mac
批量抓取豆瓣電影圖片
2021-11-15
使用playwright控制瀏覽器在伺服器端將網頁轉化為PDF檔案
2024-05-15
瀏覽器伺服器網頁
爬蟲抓取網頁的詳細流程
2023-11-28
爬蟲網頁
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
網頁抓取的重要性介紹
2021-12-16
網頁

批量抓取網頁pdf檔案

任務：批量抓取網頁pdf檔案

讀取excel，獲取網頁地址

獲取網頁pdf下載地址

同一ip重複訪問同一伺服器被拒絕

相關文章