學好python做兼職

mmz_77發表於2022-03-11

哈羅,大家好呀!又到了一年一度的“金三銀四”時間,對於做it技術的同學來說是跳槽旺季,也是我們這些做Python兼職接單的好機會啊,估計很多做爬蟲技術的朋友在工作之餘都在忙著接單吧 。想要是兼職接單必備的python技術肯定是需要掌握的。其實python還是比較容易學的,普通網頁爬蟲通常只有四個步驟:目標資訊網站、頁面抓取、頁面分析、資料儲存。

雖然掌握python技術爬取普通網站的資料很輕鬆,但是這並不意味著這就夠了,因為真正有價值的資源,往往都是在有著完善反爬蟲機制的大型網站裡面。這時,就需要用到Python爬蟲的重點技術——網站反爬蟲策略及其應對方案。對於一些常見的反爬蟲措施我們要有所瞭解,比如: 目標檢測出是爬蟲封了IP、 目標返回了加密過的資料或者髒資料無法辨認、目標網站必須登入才能訪等等。這些都是有應對措施的,像遇到封ip的情況,直接使用優質的代理ip就可以了,代理在程式裡面的使用也是非常簡單的,簡單示例給大家看下:

#! -*- encoding:utf-8 -*-
    import requests
    import random
    # 要訪問的目標頁面
    targetUrl = "
    # 要訪問的目標HTTPS頁面
    # targetUrl = "
    # 代理伺服器(產品官網 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理驗證資訊
    proxyUser = "username"
    proxyPass = "password"
    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }
    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }
    #  設定IP切換頭
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    print resp.status_code
    print resp.text

不同語言代理的使用有細微的差別,對這方面感興趣的可以在這裡瞭解下 搞不定網站設定的反爬蟲措施,就爬不到有價值的資源,更接不到高價值的單,所以小夥伴們好好學習爬蟲反爬技術吧。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2869437/,如需轉載,請註明出處,否則將追究法律責任。

相關文章