ScienceDirect內容爬蟲

小豬玥發表於2021-07-21

原文網址 : https://www.cnblogs.com/righdflf/p/15038546.html

爬蟲違法，本貼方法只限於個人對資料的分析使用，其爬蟲程式已作相關設定，以減小伺服器壓力。不適宜長期使用。

一、前期準備

1、使用chrome開啟ScienceDirect網站(https://www.sciencedirect.com)，在搜尋框輸入想要查詢的關鍵詞再點選放鏡按鈕搜尋，比如：extreme water level

2、在新跳轉搜尋結果列表頁面開啟瀏覽器的開發者工具（右鍵點選-檢視網頁原始碼），搜尋我們想要的內容，比如文章標題，看看是否能搜到。如果能搜尋到表明我們需要的內容在html中，如果沒有，那麼這個網站很可能採用前後端分離的技術，我們所需要的資料很可能在json中，這種情況則需要找介面來獲取。

3、通過檢視原始碼發現沒有我們想要的資料。那麼再試試看是否在json中，方法是在搜尋列表頁面右鍵-檢查-網路-重新整理瀏覽器以抓包-找出可能的資料包（檢視preview標

得到介面為：https://www.sciencedirect.com/search/api

二、開始程式獲取

1、首先匯入必要庫（有的庫在本次例項中不一定用上）

1 import requests
2 import json,re,os
3 from bs4 import BeautifulSoup
4 from urllib.parse import quote

2、實際上這裡還可以通過html的方式，嘗試看看能否獲取到資料

第1行：我們查詢的關鍵詞

第2行：前半部分的網址是搜尋列表頁面的地址，其中的quote(key)是將其轉為瀏覽器中的編碼格式。

第3行：是為了防止反爬蟲而設定的

第7行：獲取html資料

第8行：防止因為編碼問題出現亂碼情況

第9行：用BeautifulSoup解析html，方便對資料切片，因為html為字串型別資料，不太方便定位資料位置

第10行：定位標題內容的類位置，（通過上面的元素標籤中定位的方法，找出標題內容對應的類位置）

第11行：列印檢視是否有內容，結果為一個空的列表，表明沒有資料

 1 key = 'extreme water level'
 2 url = 'https://www.sciencedirect.com/search?qs='+quote(key)
 3 headers = {
 4     'cookie': 'search_ab=%7B%221%22%3A23%7D; sd_search=eyJhdXRoSGlzdG9yeSI6eyJwcmV2aW91c0N1c3RvbWVyIjp0cnVlLCJwcmV2aW91c0xvZ0luIjpmYWxzZX19.uRn%2Fj4TgvLEmApohDX%2FmiA2G8WsVm1yImoH3Mot2ZxY; EUID=5a74edc0-f0c2-4918-a17a-66731930dc86; id_ab=AEG; sd_session_id=012e12f879e18845c30b0a9170ac4912ea42gxrqa; acw=012e12f879e18845c30b0a9170ac4912ea42gxrqa%7C%24%7C7655A62AC882D5B269BB32EC1CC1FA66BFB036F913742AB6843F53CFFBCDE26B054E9D90CFD61FB88103979492FFB4EA4ACF86F54EABC9A63FBA44D1BD4E4F2EAFE9C31A29ED2080B6DA1F7CB1786ABB; ANONRA_COOKIE=AC4FAB305B9736FF9E8F009F581F56B5B5BD34D45FE243EBB2FAC7271249E9F096D5E4A555833E115E4A5D76175BE9945F2CB26604FED07A; has_multiple_organizations=false; __cf_bm=6ee31fd3af4f560d4d5d0906c971f77575face0b-1626413997-1800-AXcVXU6yJAqWmH+hPTzES7cu4h8ITDKR9SaZsBJK1MgUadBZjqCsmSDCdmc0zHagqGT1PM9GDgr1k0mS1T76Gb6SE5IQHj24mXluDvZ+eHDK; fingerPrintToken=e1fe7953298449ebbfc118c358a167eb; AMCVS_4D6368F454EC41940A4C98A6%40AdobeOrg=1; AMCV_4D6368F454EC41940A4C98A6%40AdobeOrg=-1124106680%7CMCIDTS%7C18824%7CMCMID%7C12297380359548630414269390810591070709%7CMCAID%7CNONE%7CMCOPTOUT-1626421207s%7CNONE%7CMCAAMLH-1627018807%7C11%7CMCAAMB-1627018807%7Cj8Odv6LonN4r3an7LhD3WZrU1bUpAkFkkiY1ncBR96t2PTI%7CMCCIDH%7C-582229202%7CMCSYNCSOP%7C411-18831%7CvVersion%7C5.2.0; s_pers=%20v8%3D1626414014787%7C1721022014787%3B%20v8_s%3DLess%2520than%25201%2520day%7C1626415814787%3B%20c19%3Dsd%253Asearch%253Aresults%253Acustomer-standard%7C1626415814789%3B%20v68%3D1626414007149%7C1626415814795%3B; MIAMISESSION=deb5a6e8-4414-46d9-b806-916bfbb38018:3803866821; SD_REMOTEACCESS=eyJhY2NvdW50SWQiOiI2MjYyNiIsInRpbWVzdGFtcCI6MTYyNjQxNDAyMTI4NX0=; s_sess=%20s_cpc%3D1%3B%20s_cc%3Dtrue%3B%20s_ppvl%3D%3B%20c21%3Dqs%253Dwater%2520level%3B%20e13%3Dqs%253Dwater%2520level%253A1%3B%20c13%3Drelevance-desc%3B%20e41%3D1%3B%20s_ppv%3Dsd%25253Asearch%25253Aresults%25253Acustomer-standard%252C18%252C18%252C801%252C813%252C801%252C1368%252C912%252C2%252CP%3B',
 5     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.67'
 6 }
 7 html = requests.get(url,headers=headers)
 8 html.encoding=html.apparent_encoding
 9 soup = BeautifulSoup(html.text,'lxml')
10 results = soup.select('.ResultItem.col-xs-24.push-m')
11 print(results)

3、通過json方法獲取

第6行：引數需要在找到的包的Header標籤中獲取

再列印html可以發現存在資料，那麼可以成功獲取資料了

 1 key = 'extreme water level'
 2 url = 'https://www.sciencedirect.com/search/api'
 3 headers = {
 4     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.70'
 5 }
 6 params = {
 7     'qs': key,
 8     't': '9NwQbtENcKA3t6ec13yc3J0oVqdNg1DW8FkZ4fWmlbcNo377tsI2SJxXzbXzVwMMUWW%2BAzqQnWkVBhGgXl1YEZB2ZEiI4q7ewQjm6xR64IyvpCFFhj%2FhSSA7wBjoACIKvKdDbfVcomCzYflUlyb3MA%3D%3D',
 9     'hostname': 'www.sciencedirect.com'
10 }
11 html = requests.get(url,headers=headers,params=params)

4、以下是完整程式碼：

為了防止給伺服器造成壓力，這裡我們對for迴圈設定間隔一定的時間，首先匯入相關包

import time
import random

第12行：是將json格式轉化為python中的字典格式

第13行：在2-6（不包括6）之間隨機生成一個整數，time.sleep(**)，表示程式暫停，括號中的數值表示暫停的時間（秒）

for迴圈中的標題、出版日等欄位都是在網頁json包中的preview中查詢到的。

 1 key = 'extreme water level'
 2 url = 'https://www.sciencedirect.com/search/api'
 3 headers = {
 4     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.70'
 5 }
 6 params = {
 7     'qs': key,
 8     't': '9NwQbtENcKA3t6ec13yc3J0oVqdNg1DW8FkZ4fWmlbcNo377tsI2SJxXzbXzVwMMUWW%2BAzqQnWkVBhGgXl1YEZB2ZEiI4q7ewQjm6xR64IyvpCFFhj%2FhSSA7wBjoACIKvKdDbfVcomCzYflUlyb3MA%3D%3D',
 9     'hostname': 'www.sciencedirect.com'
10 }
11 html = requests.get(url,headers=headers,params=params)
12 data = json.loads(html.text)['searchResults']
13 time.sleep(random.randint(2,6))
14 for d in data:
15     article_type = d['articleTypeDisplayName']
16     print('文章型別：',article_type)
17     publication_date = d['publicationDate']
18     print('出版日：',publication_date)
19     journal_name = d['sourceTitle']
20     print('期刊：',journal_name)
21     title = d['title']
22     print('標題：',title.replace("<em>",'').replace("</em>",''))
23     doi = d['doi']
24     print('doi號：',doi)
25     # 獲取作者列表
26     authors = d['authors']
27     author_lists = []
28     for au in authors:
29         author_lists.append(au['name'])
30     print('作者：',author_lists)
31     url2 = d['pdf']['downloadLink']
32     print('下載地址：')
33     print('https://www.sciencedirect.com'+str(url2))
34     url3 = d['pdf']['getAccessLink']
35     innerUrl = 'https://www.sciencedirect.com'+str(url3)
36     headers = {
37         'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.70'
38     }
39     html = requests.get(innerUrl,headers=headers)
40     soup = BeautifulSoup(html.text,'lxml')
41     data = soup.select('.abstract.author div p')
42     abstract = ''
43     for d in data:
44         abstract += d.text+'\n'
45     print('摘要：')
46     print(abstract)
47     print('----'*10)
48     time.sleep(random.randint(2,6))

最後是輸入的結果，當然還可以寫一個儲存程式，將爬蟲到的資料儲存下來

python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
利用post請求傳送內容進行爬蟲
2018-04-13
爬蟲
python爬蟲之快速對js內容進行破解
2019-07-08
Python爬蟲JS
學習python做爬蟲主要學習哪些內容呢?
2020-07-20
Python爬蟲
Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示
2020-09-14
Python爬蟲網頁
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
爬蟲：多程式爬蟲
2021-05-19
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析
2020-10-29
Python爬蟲Redis
《Python3網路爬蟲開發實戰（第二版）》內容介紹
2021-11-07
Python爬蟲
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
[爬蟲手記] 我是如何在3分鐘內開發完一個爬蟲的
2019-05-27
爬蟲
爬蟲
2024-11-16
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
爬取Elastic Stack採集的Nginx內容
2023-11-07
ASTNginx
爬蟲工程師 “養成” 指南（內附書單）
2020-01-14
爬蟲工程師
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
request爬蟲
2019-02-16
爬蟲
nodejs 爬蟲
2019-02-16
NodeJS爬蟲
科普：爬蟲
2018-06-29
爬蟲
python 爬蟲
2024-04-20
Python爬蟲

ScienceDirect內容爬蟲

相關文章