python爬蟲利用代理IP分析大資料

暖陽下的好日子發表於2020-12-01

1,在這個網際網路時代,HTTP代理成了不可缺少的一部分。

我們都知道IP代理商也越來越多。那如何選擇代理商成了大家選擇的難題。其實爬蟲使用者完全可以通過代理IP的有效時間,代理IP的有效率,穩定性和自己去的需求去選擇自己需要的代理IP。
隨著爬蟲使用者越來越多,使用代理IP也多了起來,代理IP也幫助了爬蟲成功採集到資料,讓自己的業務有更好的發展。
大資料時代,離不開網路爬蟲,網路爬蟲也支援許多語言例如常見的python、java、php、c 語言等其他語言,每個語言對應的爬蟲需求和環境不同,爬蟲使用者選擇語言自然也不同。
一般爬蟲都會選擇python和java,python爬蟲之所以被大眾選擇,因為使用簡單。在使用python爬蟲進行資料抓取的時候,也有可能IP會被限制,避免業務效率下降,這時候就需要用到隧道轉發的http爬蟲代理。
爬蟲使用者如何利用python爬蟲成功採集到資料:
 

import aiohttp, asyncio

targetUrl = "http://httpbin.org/ip"

# 代理伺服器(產品官網 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理驗證資訊
proxyUser = "username"
proxyPass = "password"

proxyServer = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}

userAgent = "Chrome/83.0.4103.61"

async def entry():
    conn = aiohttp.TCPConnector(verify_ssl=False)
    async with aiohttp.ClientSession(headers={"User-Agent": userAgent}, connector=conn) as session:
        async with session.get(targetUrl, proxy=proxyServer) as resp:
            body = await resp.read()
            print(resp.status)
            print(body)

loop = asyncio.get_event_loop()
loop.run_until_complete(entry())
loop.run_forever()

2,以上就是用代理訪問伺服器

相關文章