哈羅，大家好呀！又到了一年一度的“金三銀四”時間，對於做it技術的同學來說是跳槽旺季，也是我們這些做Python兼職接單的好機會啊，估計很多做爬蟲技術的朋友在工作之餘都在忙著接單吧。想要是兼職接單必備的python技術肯定是需要掌握的。其實python還是比較容易學的，普通網頁爬蟲通常只有四個步驟：目標資訊網站、頁面抓取、頁面分析、資料儲存。

雖然掌握python技術爬取普通網站的資料很輕鬆，但是這並不意味著這就夠了，因為真正有價值的資源，往往都是在有著完善反爬蟲機制的大型網站裡面。這時，就需要用到Python爬蟲的重點技術——網站反爬蟲策略及其應對方案。對於一些常見的反爬蟲措施我們要有所瞭解，比如：目標檢測出是爬蟲封了IP、目標返回了加密過的資料或者髒資料無法辨認、目標網站必須登入才能訪等等。這些都是有應對措施的，像遇到封ip的情況，直接使用優質的代理ip就可以了，代理在程式裡面的使用也是非常簡單的，簡單示例給大家看下：

#! -*- encoding:utf-8 -*-
    import requests
    import random
    # 要訪問的目標頁面
    targetUrl = "
    # 要訪問的目標HTTPS頁面
    # targetUrl = "
    # 代理伺服器(產品官網 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理驗證資訊
    proxyUser = "username"
    proxyPass = "password"
    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }
    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }
    #  設定IP切換頭
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    print resp.status_code
    print resp.text

不同語言代理的使用有細微的差別，對這方面感興趣的可以在這裡瞭解下。搞不定網站設定的反爬蟲措施，就爬不到有價值的資源，更接不到高價值的單，所以小夥伴們好好學習爬蟲反爬技術吧。

學好python做兼職

相關文章