工商資訊資料採集思路

mmz_77發表於2022-06-09
最近在一些審計群裡,看到有一些小夥伴在問有沒有批量查詢企業工商資訊的,之前講了很多如何利用Python各種網站資料的文章,那麼我們今天再講講:如何用Python批量查詢企業工商資訊。
爬取一個網站的過程並不難,就是簡單的爬蟲步驟,爬取工商網站的難點在於,這個網站的反技術很強,比企查查、企查貓等網站都要強。爬取速度太快的話,會被系統自動識別為機器人,然後程式碼執行中斷。基本的反爬措施像隨機ua,cookie都是必須要做的,隨機ua更是越多越好,最重要的反爬措施是代理IP的新增,並且這樣的網站一般的代理效果是不行的,必須是高質量的才可以,這個網站我之前試了很多家代理,效果都不行,最近找到一家億牛雲代理訪問這個網站效果還可以。接下來就實踐看下效果:
Plain Text
複製程式碼
1

#! -*- encoding:utf-8 -*-
2


3

    import requests
4

    import random
5


6

    # 要訪問的目標頁面
7

    targetUrl = "
8


9

    # 要訪問的目標HTTPS頁面
10

    # targetUrl = "
11


12

    # 代理伺服器(產品官網 )
13

    proxyHost = "t.16yun.cn"
14

    proxyPort = "31111"
15


16

    # 代理驗證資訊
17

    proxyUser = "username"
18

    proxyPass = "password"
19


20

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
21

        "host" : proxyHost,
22

        "port" : proxyPort,
23

        "user" : proxyUser,
24

        "pass" : proxyPass,
25

    }
26


27

    # 設定 http和https訪問都是用HTTP代理
28

    proxies = {
29

        "http"  : proxyMeta,
30

        "https" : proxyMeta,
31

    }
32


33


34

    #  設定IP切換頭
35

    tunnel = random.randint(1,10000)
36

    headers = {"Proxy-Tunnel": str(tunnel)}
37


38


39


40

    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
41


42

    print resp.status_code
43

    print resp.text
在我們訪問這樣反爬很嚴的網站的時候一定要分析好網站策略,不能盲目的去採集。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2899708/,如需轉載,請註明出處,否則將追究法律責任。

相關文章