使用Selenium從IEEE與谷歌學術批量爬取BibTex文獻引用

頎周發表於2021-05-30

原文網址 : https://www.cnblogs.com/qizhou/p/14826589.html

　　搞科研的小夥伴總是會被期刊嚴苛的引用文獻格式搞的很頭疼。雖然常用的文獻軟體可以一鍵匯出BibTex，但由於很多論文在投稿之前都會先發上Arxiv佔坑，軟體就很可能會把文獻引出為來自Arxiv。我用的是Zotero，就有這個毛病。

　　因此，如果是IEEE的期刊，最好是直接去IEEE官網搜尋並匯出引用，否則可以使用谷歌學術。為了減少重複性的動作，我使用selenium來幫我完成這些操作。Selenium是Python的一個爬蟲包，具體可以看：Python Selenium庫的使用。

　　在此之前，需要安裝的有：

　　1、谷歌瀏覽器。也可以用別的瀏覽器，具體看上面的Selenium教程。

　　2、Selenium控制谷歌瀏覽器的驅動。網址

　　3、配置驅動的環境變數，就是把驅動解壓的位置放到PATH裡。感覺可有可無，因為程式碼中還是會用到驅動的位置。

　　下面是Python程式碼，具體操作就是先從IEEE官網找，如果找不到再去谷歌學術找。需要具體配置的地方已在程式碼中註釋：

#%% 從IEEE與谷歌學術爬取論文引用
from selenium import webdriver
from urllib import parse
from time import sleep

class GetBibs():
  def __init__(self, driver_path, option_path, ie_search_url, gg_search_url) -> None:
    self.ie_search_url = ie_search_url
    self.gg_search_url = gg_search_url
    # 啟用帶外掛的瀏覽器
    option = webdriver.ChromeOptions()
    option.add_argument("--user-data-dir="+option_path)
    self.browser = webdriver.Chrome(executable_path = driver_path, options = option)   # 開啟chrome瀏覽器
    self.browser.set_window_size(800,800) #不要隨意修改，太窄會導致按鈕的隱藏，模擬點選失效

  def get_bib_from_IEEE(self, paper_title):
    strto_pn=parse.quote(paper_title)
    url = self.ie_search_url + strto_pn
    self.browser.get(url)  
    compare_title = ''.join(list(filter(str.isalnum, paper_title))).lower()    
    #等待詞條載入
    for i in range(100):
      try:
        elements=self.browser.find_elements_by_css_selector("[class='List-results-items']")
        elements[0].get_attribute('id')
        break
      except:
        sleep(0.1)
    #掃描所有詞條，是否存在所需文獻
    paper_url = r'https://ieeexplore.ieee.org/document/'
    for i in elements:
      s_title = i.text.split('\n')[0]
      s_title = ''.join(list(filter(str.isalnum, s_title))).lower()
      if s_title == compare_title:
        paper_url += i.get_attribute('id')
        break
    if paper_url == r'https://ieeexplore.ieee.org/document/': #沒找到
      return ''
    # 進入文獻頁面
    self.browser.get(paper_url) 
    # 等待載入bib按鈕     
    for i in range(100):
      try:
        element=self.browser.find_element_by_css_selector("[class='layout-btn-white cite-this-btn']")
        element.click()
        break
      except:
        sleep(0.1)
    # 點選bibtex
    for i in range(100):
      try:
        element=self.browser.find_element_by_css_selector("[class='modal-dialog']")
        element=element.find_elements_by_css_selector("[class='document-tab-link']")[1]
        element.click()
        break
      except:
        sleep(0.1) 
    for i in range(100):
      try:    
        self.browser.find_element_by_css_selector("[class='text ris-text']")
        break
      except:
        sleep(0.1) 
    sleep(2)
    bib = self.browser.find_element_by_css_selector("[class='text ris-text']").text
    return bib 

  def get_bib_from_google_scholar(self, paper_title):
    strto_pn=parse.quote(paper_title)
    url = self.gg_search_url + strto_pn
    self.browser.get(url)      
    #等待詞條載入
    for i in range(100):
      try:
        element=self.browser.find_element_by_css_selector("[class='gs_r gs_or gs_scl']")
        element=element.find_element_by_css_selector("[class='gs_fl']")
        element=element.find_element_by_css_selector("[class='gs_or_cit gs_nph']")
        element.click()
        break
      except:
        sleep(0.1)
    for i in range(100):
      try:
        element=self.browser.find_element_by_id("gs_citi")
        element=element.find_element_by_css_selector("[class='gs_citi']")
        element.click()
        break
      except:
        sleep(0.1)
    for i in range(100):
      try:
        bib = self.browser.find_element_by_tag_name('pre').text
        break
      except:
        sleep(0.1)
    return bib

  def get_bib(self, paper_title):
    bib = self.get_bib_from_IEEE(paper_title)
    if bib != '':
      return "IEEE", bib
    return "Google", self.get_bib_from_google_scholar(paper_title) 

driver_path = r'C:/chromedriver/chromedriver' # 瀏覽器驅動位置
option_path = r"C:/Users/Administrator/AppData/Local/Google/Chrome/User Data/" # 使瀏覽器能用你自定義的設定，否則Selenium建立的瀏覽器物件是預設設定，一些外掛就不能用了
ie_search_url = r'https://ieeexplore.ieee.org/search/searchresult.jsp?newsearch=true&queryText=' # 在執行程式碼之前，先開啟IEEE官網的搜尋頁面，把類似的網址複製到這裡，等號=後面就是一會兒要搜尋的內容
gg_search_url = r'https://scholar.google.com/scholar?hl=zh-CN&as_sdt=0%2C5&inst=1597255436240989024&q=' # 谷歌學術也是一樣
get_bibs = GetBibs(driver_path, option_path, ie_search_url, gg_search_url)
#%% **********************以上定義爬蟲物件，以下開始爬取*******************************
paper_titles = { # 要爬取的論文，key用於標記，value是論文題目。下面是一些樣例
  "ESPCN":'Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network',
  "Sparse_Coding":'Image Super-Resolution Via Sparse Representation',
  "ESRGAN":'ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks',
  "EnhanceNet":'EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis',
  'Meta-SR': 'Meta-SR: A Magnification-Arbitrary Network for Super-Resolution',
  'SAN': 'Second-Order Attention Network for Single Image Super-Resolution',
}

for k in paper_titles.keys():
  source, bib = get_bibs.get_bib(paper_titles[k]) 
  print(source+":",k)
  print(bib)
  print()

　　IEEE與谷歌學術可能需要VPN，在爬之前要先做好準備。另外IEEE還需要登入機構賬號，在此之前也要先登入好。

使用Latex匯出IEEE格式參考文獻
2020-11-21
selenium 知網爬蟲之根據【關鍵詞】獲取文獻資訊
2023-10-28
爬蟲
Word交叉引用參考文獻如何更改文獻格式？
2024-04-20
【爬蟲】專案篇-使用selenium爬取大魚潮汐網
2024-04-05
爬蟲
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
3、爬蟲-selenium-獲取使用者cookie的使用
2024-07-01
爬蟲Cookie
爬蟲-selenium的使用
2021-02-04
爬蟲
selenium + xpath爬取csdn關於python的博文博主資訊
2020-12-19
Python
使用selenium進行爬取掘金前端小冊的資料
2019-08-13
前端
selenium爬蟲學習1
2024-08-29
爬蟲
EndNote 21：文獻整理與引用，一鍵輕鬆搞定 mac/win啟用版
2024-02-20
Mac
Selenium + Scrapy爬取某商標資料
2018-06-27
如何利用 Selenium 爬取評論資料？
2018-04-12
【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊
2021-03-24
Python爬蟲
預處理技術文獻
2024-04-01
教材與參考文獻
2024-06-21
IEEE 論文投稿
2024-11-24
Java爬蟲系列四：使用selenium-java爬取js非同步請求的資料
2021-10-17
Java爬蟲JS非同步
面向文獻的學習
2024-05-02
使用selenium爬取網頁，如何在scrapy shell中除錯響應
2018-09-12
網頁除錯
python3 使用 Selenium 自動化測試或爬取資料
2023-09-27
Python
《文獻管理與資訊分析》慕課學習心得
2020-12-27
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
[Python3網路爬蟲開發實戰] 7-動態渲染頁面爬取-4-使用Selenium爬取淘寶商品
2018-03-30
Python爬蟲
[Python3]selenium爬取淘寶商品資訊
2021-09-09
Python
爬蟲實戰（二）：Selenium 模擬登入並爬取資訊
2018-07-15
爬蟲
EndNote X9 for Mac/win：高效管理文獻，助力學術研究
2024-03-06
Mac
提升學術研究效率，EndNote 21 for Mac/win助您高效管理文獻
2024-01-03
Mac
【0基礎學爬蟲】爬蟲基礎之自動化工具 Selenium 的使用
2023-04-21
爬蟲
一起學爬蟲——使用Beautiful Soup爬取網頁
2018-11-26
爬蟲網頁
科研基本功——高效文獻檢索與文獻閱讀保姆級教程
2020-04-04
Python爬蟲之Selenium庫的基本使用
2018-11-30
Python爬蟲
Python網路爬蟲 - Phantomjs, selenium/Chromedirver使用
2019-01-22
Python爬蟲JSChrome
Python爬蟲之selenium庫使用詳解
2018-05-16
Python爬蟲
JAVA爬蟲使用Selenium自動翻頁
2024-05-15
Java爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
從古代文學到雲端技術
2022-06-06
selenium自動爬取網易易盾的驗證碼
2020-07-20

使用Selenium從IEEE與谷歌學術批量爬取BibTex文獻引用

相關文章