python爬蟲—學習筆記-2

wind风语發表於2024-04-10

原文網址 : https://www.cnblogs.com/windfengyu/p/18126527

Python爬蟲筆記

python爬蟲—學習筆記-2

ps：因為本人近一個月住院，文章為隊友所著。

任務

獲取豆瓣網站內容。

單頁獲取

網址：https://movie.douban.com/top250

獲取網頁資訊

程式碼：

import requests


url="https://movie.douban.com/top250"

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0"}
response=requests.get(url,headers=headers)
print(response.text)

為了方便檢視，獲取的程式碼建立一個html網頁放進其中。

獲取第一頁的電影名字

電影名字包含在

<span class="title">([^&nbsp].*?)</span>

這個標籤之中，所以需要

import requests
import re

url="https://movie.douban.com/top250"

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:123.0) Gecko/20100101 Firefox/123.0"}
response=requests.get(url,headers=headers)


#獲取電影名字
movieName=re.findall( '<span class="title">([^&nbsp].*?)</span>',response.text)
print(movieName)
#^:意為除了

將電影名字與評分聯絡起來

多頁獲取

構建url

首頁：https://movie.douban.com/top250

第二頁：https://movie.douban.com/top250?start=25&filter=

第三頁：https://movie.douban.com/top250?start=50&filter=

………………

最後一頁：https://movie.douban.com/top250?start=250&filter=

可以看出其中存在一些關係

‘https://movie.douban.com/top250?start=‘+25的倍數+‘&filter= ’

所以url可以這樣構建

url="https://movie.douban.com/top250?start=" + str(i) + "&filter="

import requests
import re

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0"}
movieName=[]
score=[]
for i in range(0,250,25):
    url="https://movie.douban.com/top250?start=" + str(i) + "&filter="


    response=requests.get(url,headers=headers)

    movieName+=re.findall('<span class="title">([^&nbsp].*?)</span>',response.text)

    score=score+ re.findall('<span class="rating_num" property="v:average">(.*?)</span>',response.text)

print(movieName)
print(score)

l=[]
for i in range(250):
   l.append((i+1,movieName[i],score[i]))
print(l)

for i in l:
   print(i)

import requests
import re

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0"}
movieName=[]
score=[]
for i in range(0,250,25):
    url="https://movie.douban.com/top250?start=" + str(i) + "&filter="


    response=requests.get(url,headers=headers)

    movieName+=re.findall('<span class="title">([^&nbsp].*?)</span>',response.text)

    score=score+ re.findall('<span class="rating_num" property="v:average">(.*?)</span>',response.text)

print(movieName)
print(score)

l=[]
for i in range(250):
   l.append((i+1,movieName[i],score[i]))
print(l)

for i in l:
   print(i)

獲取網頁圖片

首先找到圖片所在的標籤

import requests
import re

url="https://movie.douban.com/top250?start=0&filter="


headers={"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}
response=requests.get(url,headers=headers)


movieName=re.findall('<span class="title">([^&nbsp].*?)</span>',response.text)

imgurl=re.findall('src="(.*?)" class="">',response.text)

for i in range(25):
    imgres=requests.get(imgurl[i],headers=headers)
    filename="./images/" + movieName[i] + ".jpg"
    with open (filename,mode="wb") as f:
        f.write(imgres.content)

注意：

獲取圖片時不應太平頻繁，可以的話適當加上一個獲取時間間隔。

python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
一入爬蟲深似海，總結python爬蟲學習筆記！
2019-02-14
爬蟲Python筆記
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲學習筆記（三、儲存資料）
2020-10-03
Python爬蟲筆記
【Python學習筆記1】Python網路爬蟲初體驗
2018-10-28
Python筆記爬蟲
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
python爬蟲學習筆記4-正規表示式
2020-12-12
Python爬蟲筆記
爬蟲入門學習筆記3
2021-01-05
爬蟲筆記
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
《Python3 網路爬蟲開發實戰》—學習筆記
2019-07-30
Python爬蟲筆記
python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））
2020-04-30
Python爬蟲筆記
Python學習筆記(2)
2019-01-05
Python筆記
python爬蟲學習1
2020-11-29
Python爬蟲
python爬蟲是什麼?學習python爬蟲難嗎
2021-03-31
Python爬蟲
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
爬蟲學習日記（六）
2019-01-14
爬蟲
爬蟲學習日記（八）
2019-01-18
爬蟲
爬蟲學習日記（七）
2019-01-15
爬蟲
爬蟲學習日記（五）
2018-12-14
爬蟲
爬蟲學習日記（三）
2018-12-07
爬蟲
爬蟲學習日記（二）
2018-11-28
爬蟲
爬蟲學習日記（一）
2018-11-28
爬蟲
python爬蟲2
2019-01-07
Python爬蟲
Python爬蟲--2
2024-03-24
Python爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
一個Python爬蟲工程師學習養成記
2020-06-29
Python爬蟲工程師
什麼是爬蟲?學習Python爬蟲難不難?
2019-11-05
爬蟲Python
python爬蟲js逆向學習（二）
2020-07-03
Python爬蟲JS
爬蟲筆記（一）
2019-03-27
爬蟲筆記
讀書筆記：《Python3網路爬蟲開發實戰》——第2章：爬蟲基礎
2019-04-09
筆記Python爬蟲
學習C語言還是學習Python爬蟲?
2020-11-23
C語言Python爬蟲
Python爬蟲系統化學習(3)
2021-02-25
Python爬蟲
Python爬蟲系統化學習(4)
2021-03-01
Python爬蟲
爬蟲學習日記（六）完成第一個爬蟲任務
2019-01-10
爬蟲

python爬蟲—學習筆記-2

python爬蟲—學習筆記-2

任務

單頁獲取

多頁獲取

獲取網頁圖片

相關文章