python——豆瓣top250爬取

夜ギ聲(ಥ_ಥ)~\(≧▽≦)/~發表於2021-01-02
					Python——豆瓣top250爬取

1.分析網頁
1.1為什麼要分析網頁
我們需要從一個網頁中爬取東西時,如果對網頁中有什麼東西、網頁如何構成都不清楚,我們是很難進行爬取的,所以這一步是為了後面爬取的方便實施。
1.2如何分析網頁
在這裡,我要爬取的是豆瓣Top250上的東西。首先,我們得進入該網頁,檢視它的網頁結構。點選【下一頁】,檢視網頁的URL(也就是它的連結),多換幾頁之後會發現有如下圖所示規律:
在這裡插入圖片描述

2.請求網頁
接下來就是向伺服器發出請求了,我們先選擇第一個連結來進行測試,完成本頁所有內容的獲取,然後再獲取其他所有頁面的資訊
2.1匯入包
這裡需要用到requests這個,沒有安裝的話需要安裝這個包,安裝步驟如下:#pip安裝 pip install requests-------->win+r,執行--------->cmd,回車-------->輸入pip install requests
2.2設定瀏覽器代理
在網頁中點選右鍵,開啟檢查,選擇Network,All,重新整理網頁,選擇第一個檔案,雙擊,選擇headers

在這裡插入圖片描述

設定的瀏覽器代理必須為字典型,如:
headers={
‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36’
}

2.3請求伺服器
請求原始碼,向伺服器發出請求,200代表成功,使用get()獲取

test_url 是一個連結,第二個 headers 是用來做瀏覽器代理的內容
3.實現:
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

相關文章