python 代理在爬蟲中的作用

Jeff_zvz發表於2020-10-18

代理:偽裝IP,破解封IP這種反爬機制。
說明是代理:

  • :代理伺服器:網路資訊的中轉站
    代理的作用:
  • 突破自身IP訪問的限制
  • 隱藏自身真實IP。
    代理IP型別:
  • http: 應用到http協議對應的url協議中
  • https:應用到https協議對應的url協議中

在這裡插入圖片描述
搜尋ip點選百度一下,發起請求的IP就是本機IP,然後這裡就顯示出來、如果發起請求頻率過大,可能會被封。
如果用代理伺服器發起請求,則百度顯示的IP就是代理伺服器的IP。

import requests
if __name__ == '__main__':
    url = 'https://www.baidu.com/s?wd=ip'
    headers ={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.80 Safari/537.36 Edg/86.0.622.43'
        }

page_text =  requests.get(url=url,headers=headers).text

with open('./ip.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

顯示的IP是本機IP。

開啟http://www.goubanjia.com/

page_text = requests.get(url=url,headers=headers,proxies={'https':'171.35.146.108:9999'}).text
在requests.get里加入引數proxies,是一個字典,key為https或http,value為ID

代理IP匿名度:

  • 透明:意味著伺服器知道該次請求使用了代理,也知道請求對應真實IP
  • 匿名:知道使用了代理但不知道本機IP
  • 高匿名:不知道以上兩個

相關文章