自動下載MarkDown格式會議論文的程式

未名w發表於2021-11-13

原文網址 : https://www.cnblogs.com/weimingai/p/15547573.html

近期師兄發給我一個壓縮包讓我整理文獻，而我發現壓縮包裡的內容是這樣：

這樣：

和這樣的：

我大概看了一下，可能有270多篇文章是這種格式，俗話說的好，沒有困難的工作，只有勇敢的研究僧。所以決定用Python自己寫一個指令碼。

儘管這個程式還有許多不足之處：1）對於檔案很大的時候會只下載一個18kb左右的無法開啟檔案；2）程式中間出現網路或者檔案異常，沒有對異常進行處理；3）因為md檔案裡面的pdf文章地址，有的開啟是網站、有的開啟可以直接下載，有的開啟是pdf檔案......，所以還需要人工去分一下哪一類域名下的網址可以直接下載或是pdf檔案，一共可能也就20種以內，列印一下選幾個關鍵詞判斷一下就行。

這個程式的主要思想：1）利用Python對資料夾和檔案進行遍歷；2）讀取md檔案內容並且根據# 標識識別文章標題，利用“pdf”和正規表示式識別出pdf下載的地址；3）使用urllib庫的urlretrieve對指定網址的資原始檔進行下載到指定資料夾。

結果：實現173篇文章的自動下載，並將無法下載的文章名和網址儲存在相關的檔案內。最後希望能夠對你產生幫助，如果有幫助可以點個贊。

程式碼如下：

import os
import re
from urllib.request import urlretrieve
import ssl

from urllib import request
opener = request.build_opener()
opener.addheaders = ([('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36')])
request.install_opener(opener)

# 關閉證照驗證，方便下載
ssl._create_default_https_context = ssl._create_unverified_context
# md根路徑
ori_path=r'D:\User\Weiming\Desktop\conference_publication'
pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')  # 網頁地址匹配模式
listdir=os.listdir(ori_path)
# print(listdir)
# 文章名和網頁地址
paper_title=''
pdf_path=''
# 文獻儲存路徑
save_dir=r'D:\User\Weiming\Desktop\conference paper'
# 可訪問的地址
access_strings=['aaai.org','dl.acm.org','playbiqdata','pasinit','platanios','muhaochen.github.io',
                            'arxiv.org','openreview.net','proceedings.mlr.press','semantic-web-journal.net','aidanhogan.com']

# 儲存下載失敗的地址
fail_file=os.path.join(save_dir,'fail_down.txt')
for son_path in listdir: # 遍歷每個會議資料夾
    new_dir=os.path.join(ori_path,son_path) # 生成會議資料夾路徑
    # print('會議資料夾路徑：',new_dir)
    son_listdir=os.listdir(os.path.join(ori_path,son_path)) # 會議資料夾下文章資料夾陣列
    # print('會議文章：',son_listdir)

    for new_son_path in son_listdir: # 遍歷 每個會議資料夾下，每個文章資料夾
        if new_son_path != 'README.md': # 不訪問會議資料夾下的README.md檔案
            file_dir = os.path.join(new_dir, new_son_path) # 生成文章資料夾路徑
            print('文章資料夾路徑：',file_dir)
            file_name=os.listdir(file_dir) # 獲取README檔名稱，發現有一些檔案命名不是很統一
            # print(file_name)
            # print(len(file_name))
            # 如果不是一個檔案，理論上是一個md檔案
            if len(file_name)>1:
                print('該資料夾下不止一個檔案？',file_dir)
            # 如果資料夾下沒有md檔案
            if len(file_name)==0:
                print('該資料夾下沒有檔案：',file_dir)
                continue
            md_file = os.path.join(file_dir, file_name[0])
            # print('文章README檔案路徑：',md_file)
            f=open(md_file,encoding='utf-8')
            for line in f:
                # print(line)
                if '# ' in line:
                    paper_title=line[2:]
                    print('Paper Title: ',paper_title) # 列印一下文章名
                if '**pdf**' in line:
                    url = re.findall(pattern, line)
                    pdf_path=url[0][:-1]
                    print('PDF DownPath: ',pdf_path) # 匹配到的第一個字串，去除最後面的 )
            exist=0
            for sub_string in access_strings:
                if sub_string in pdf_path:
                    exist=1
            if exist==1:
                paper_title=paper_title.rstrip()
                paper_title=paper_title.replace('\n','')
                paper_title=paper_title.replace(':','_').replace('?','_').replace('!','_').replace('/','_')
                save_file_path=save_dir+'\\'+str(son_path)+'_'+paper_title+'.pdf'
                # 判斷檔案是否存在：
                if os.path.exists(save_file_path) == True:
                    print('已存在')
                    continue
                request.urlretrieve(pdf_path,save_file_path) # 請求下載
            else:
                print('下載失敗...')
                print(paper_title,'  ',pdf_path)
                failop = open(fail_file, 'a', encoding='utf-8')
                failop.write(paper_title.replace('\n',''))
                failop.write('\n')
                failop.write(pdf_path)
                failop.write('\n')
                failop.write('\n')
                failop.close()
            f.close()

人工智慧頂級會議論文彙總（全文下載 | 報告視訊）
2018-07-12
人工智慧
icml和nips等會議論文地址
2020-06-28
【論文】核心電腦科學會議排名
2020-10-06
分享免費下載論文的網站
2019-05-25
網站
Markdown格式
2024-07-02
Pycharm如何自動規範程式碼的格式?
2024-02-20
PyCharm
webstorm自動格式化程式碼
2020-03-17
WebORM
期刊、會議、論文集
2024-05-17
vs code 自動調整程式碼格式
2024-05-28
MQTT協議 -- 訊息報文格式
2019-04-18
MQQT協議
用python做youtube自動化下載器程式碼
2021-01-12
Python
先知白帽大會2018 | 議題下載
2018-06-25
python自動下載圖片
2020-03-30
Python
騰訊會議自動連線音訊怎麼設定？騰訊會議自動連線音訊的設定教程
2020-06-19
音訊
如何實現 AppStore App 的自動下載
2018-05-27
APP
傳送markdown格式郵件時推薦的兩款非常漂亮的markdown格式css樣式
2021-11-05
CSS
收藏 | 做人工智慧必看的45篇論文-附下載地址
2020-04-06
人工智慧
AMiner會議論文推薦第二十二期：AAAI2021,IJCAI2020,NeurIPS2020論文
2020-12-22
AI
糾文網一鍵幫你解決頭疼的論文格式修改
2019-10-28
AAAI 2021論文：利用深度元學習對城市銷量進行預測（附論文下載）
2020-12-31
AI
找論文程式碼
2018-04-28
SCI-HUB，免費科研論文下載的網址（親測有效）
2019-02-21
word轉化為markdown格式
2024-08-15
vscode使用stylelint儲存自動格式化程式碼
2023-05-05
VSCode
安裝Python下載的是asc格式？
2020-12-25
Python
【爬蟲工具】下載部落格轉成Markdown的形式
2019-02-16
爬蟲
NET 5.0 Swagger API 自動生成MarkDown文件
2021-03-14
SwaggerAPI
vscode配置vue的自動格式化
2018-08-25
VSCodeVue
AI基礎：入門人工智慧必看的論文【附下載連結】
2020-04-06
AI人工智慧
IDEA如何整理程式碼格式，格式化程式碼，去除無效依賴，自動縮排等
2024-11-26
Idea
土建職稱論文發表的格式標準是什麼
2020-12-30
推薦一個markdown格式轉html格式的開源JavaScript庫
2018-10-04
HTMLJavaScript
學習記錄-----關於下載的PDF參考文獻（論文）無法編輯的問題
2021-01-02
如何使用air自動過載程式碼
2021-03-22
AI
VSCode回車換行後自動調整程式碼格式
2020-10-27
VSCode
硬幣系列三 | 硬幣自動分類的一個論文復現
2020-07-13
Thinkphp核心自動下載原始碼系統
2019-05-11
PHP原始碼
配置crontab+ftp自動下載檔案
2021-09-21
FTP

自動下載MarkDown格式會議論文的程式

相關文章