最近在一些審計群裡，看到有一些小夥伴在問有沒有批量查詢企業工商資訊的，之前講了很多如何利用Python各種網站資料的文章，那麼我們今天再講講：如何用Python批量查詢企業工商資訊。
爬取一個網站的過程並不難，就是簡單的爬蟲步驟，爬取工商網站的難點在於，這個網站的反技術很強，比企查查、企查貓等網站都要強。爬取速度太快的話，會被系統自動識別為機器人，然後程式碼執行中斷。基本的反爬措施像隨機ua，cookie都是必須要做的，隨機ua更是越多越好，最重要的反爬措施是代理IP的新增，並且這樣的網站一般的代理效果是不行的，必須是高質量的才可以，這個網站我之前試了很多家代理，效果都不行，最近找到一家億牛雲代理訪問這個網站效果還可以。接下來就實踐看下效果：

Plain Text

複製程式碼

#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要訪問的目標頁面
    targetUrl = "

    # 要訪問的目標HTTPS頁面
    # targetUrl = "

    # 代理伺服器(產品官網 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理驗證資訊
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  設定IP切換頭
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

在我們訪問這樣反爬很嚴的網站的時候一定要分析好網站策略，不能盲目的去採集。

若有收穫，就點個贊吧

工商資訊資料採集思路

相關文章