爬蟲快速入門——Get請求的使用
直接上程式碼,解釋在註釋,不懂評論留言,必回
# 專案名稱:
# 專案簡介:
# 作 者:key
# 開發時間:2020/10/25 8:54
from urllib.request import urlopen, Request # 開啟url,和封裝請問
from fake_useragent import UserAgent # 獲取headers
from urllib.parse import quote # 轉為為url使用的Unicode編碼
from urllib.parse import urlencode # 和quote功能相同,但是傳入字典,可以一次轉化多個引數,並完成拼接
import random
# 這是我們直接在百度上搜尋武漢學院,得到的url
# url ='https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=%E6%AD%A6%E6%B1%89%E5%AD%A6%E9%99%A2&oq=%25E6%25AD' \
# '%25A6%25E6%25B1%2589%25E5%25AD%25A6%25E9%2599%25A2&rsv_pq=ad90e4730010b099&rsv_t=cbd2ILLVJvfZhsQ2Z' \
# '%2BtWYSyWCVqrPyPGSDeK4L2E%2FXMbeuI2lbvliJVzzxs&rqlang=cn&rsv_enter=0&rsv_dl=tb&rsv_btype=t '
# 但實際的呢?我們發出請求響應測試,只需要https://www.baidu.com/s?wd='武漢學院'就行了
# url ="https://www.baidu.com/s?wd='武漢學院'"
# 但是呢,中文的武漢學院,url並不能識別
# 所以,我們要用url.parse裡面的quote物件,轉化為url可以識別的unicode編碼
# print(quote('武漢學院')) # 輸出資訊: %E6%AD%A6%E6%B1%89%E5%AD%A6%E9%99%A2
# url = "https://www.baidu.com/s?wd='%E6%AD%A6%E6%B1%89%E5%AD%A6%E9%99%A2'" # 如果在瀏覽器訪問 wd之後就不需要加字串
# 一般使用{}.format(quote("輸入資訊"))去替換
url = 'https://www.baidu.com/s?wd={}'.format(quote('武漢學院'))
# 使用urlencode進行轉化
# args = {
# 'wd': "武漢學院",
# "ie": 'utf-8'
# }
# url = str("https://www.baidu.com/s?{}".format(urlencode(args)))
# print('https://www.baidu.com/s?{}'.format(urlencode(args)))
# 列印的資訊:https://www.baidu.com/s?wd=%E6%AD%A6%E6%B1%89%E5%AD%A6%E9%99%A2&ie=utf-8
# 開發者工具獲取headers
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/84.0.4147.89 Safari/537.36 "
}
# 建立物件獲取headers
# headers = {
# "User-Agent": UserAgent().random
# }
# 封裝
request = Request(url, headers=headers)
# 訪問
response = urlopen(request)
# 列印返回資訊,一定要用decode()轉化,才是可讀資料
print(response.read().decode())
相關文章
- 4.爬蟲 requests庫講解 GET請求 POST請求 響應爬蟲
- Requests如何在Python爬蟲中實現get請求?Python爬蟲
- 爬蟲0060:scrapy快速入門爬蟲
- Datawhale-爬蟲-Task1(學習get與post請求)爬蟲
- Python網路爬蟲第三彈《爬取get請求的頁面資料》Python爬蟲
- python爬蟲請求頭Python爬蟲
- 【0基礎學爬蟲】爬蟲基礎之網路請求庫的使用爬蟲
- Python3 爬蟲快速入門攻略Python爬蟲
- 爬蟲入門爬蟲
- 爬蟲 | 非同步請求aiohttp模組爬蟲非同步AIHTTP
- Python爬蟲(5-10)-編解碼、ajax的get請求、ajax的post請求、URLError/HTTPError、微博的cookie登入、Handler處理器Python爬蟲ErrorHTTPCookie
- 爬蟲入門系列(一):快速理解HTTP協議爬蟲HTTP協議
- 爬蟲入門系列(一):快速理解 HTTP 協議爬蟲HTTP協議
- Node 爬蟲入門爬蟲
- 使用request庫的get方法發起GET請求
- Scrapy使用入門及爬蟲代理配置爬蟲
- Python爬蟲(二)——傳送請求Python爬蟲
- Python網路爬蟲實戰(一)快速入門Python爬蟲
- Python爬蟲基礎-01-帶有請求引數的爬蟲Python爬蟲
- onethink 如何使用get請求?
- 使用HttpClient傳送GET請求HTTPclient
- Python爬蟲入門Python爬蟲
- 【爬蟲】第二章-基本請求庫爬蟲
- iOS 同步請求 非同步請求 GET請求 POST請求iOS非同步
- 【爬蟲】python爬蟲從入門到放棄爬蟲Python
- 爬蟲(1) - 爬蟲基礎入門理論篇爬蟲
- 爬蟲中的TCP請求自動切換ip爬蟲TCP
- [入門向]在Golang中像Python一樣快速使用HTTP請求GolangPythonHTTP
- Python3網路爬蟲快速入門實戰解析(一小時入門 Python 3 網路爬蟲)Python爬蟲
- XHR物件的get請求物件
- 爬蟲入門(字串相關)爬蟲字串
- 如何入門 Python 爬蟲?Python爬蟲
- python-爬蟲入門Python爬蟲
- 請求OpenFeign的GET請求時,請求為何失敗?
- Python 爬蟲入門 (二) 使用Requests來爬取圖片Python爬蟲
- Java爬蟲系列四:使用selenium-java爬取js非同步請求的資料Java爬蟲JS非同步
- Python3網路爬蟲快速入門實戰解析Python爬蟲
- Python爬蟲入門(2):爬蟲基礎瞭解Python爬蟲