利用python找到購物商城裡面的降價商品

mmz_77發表於2022-05-31
相信很多做爬蟲的同學都會爬電商網站,電商資料也是很有價值的。今天我們從一個特別的需求出發去獲取電商資料,那就是如何從大量的商品資料裡面去找到降價的商品。我們就以京東超市為實踐資料來源:
京東這樣大型的電商網站,想要獲取資料很不容易,他們的反爬機制是很嚴的,今天我們只是做個實踐,所要獲取的資料量不是很大,但是為了防止獲取資料過程中觸發反爬機制,所以簡單的做了些反爬措施。隨機ua的更換,cookie的獲取,代理IP的使用。關於代理的使用,訪問這樣的網站也是需要高質量的代理IP才行,這裡推薦億牛雲提供的爬蟲代理。代理在爬蟲程式裡面的具體使用如下所示:
Plain Text
複製程式碼
1

#! -*- encoding:utf-8 -*-
2


3

    import requests
4

    import random
5


6

    # 要訪問的目標頁面
7

    targetUrl = "
8


9

    # 要訪問的目標HTTPS頁面
10

    # targetUrl = "
11


12

    # 代理伺服器(產品官網 )
13

    proxyHost = "t.16yun.cn"
14

    proxyPort = "31111"
15


16

    # 代理驗證資訊
17

    proxyUser = "username"
18

    proxyPass = "password"
19


20

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
21

        "host" : proxyHost,
22

        "port" : proxyPort,
23

        "user" : proxyUser,
24

        "pass" : proxyPass,
25

    }
26


27

    # 設定 http和https訪問都是用HTTP代理
28

    proxies = {
29

        "http"  : proxyMeta,
30

        "https" : proxyMeta,
31

    }
32


33


34

    #  設定IP切換頭
35

    tunnel = random.randint(1,10000)
36

    headers = {"Proxy-Tunnel": str(tunnel)}
37


38


39


40

    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
41


42

    print resp.status_code
43

    print resp.text
每個商品每天都會爬一次,一共有 幾十w條資料。裡面有很多個商品降價了,現在需要把這些降價的商品找出來。在這幾十萬條資料裡面找出降價的商品這個工作量非常大,速度也會非常慢。所以我們在爬蟲的過程中也需要通過其他的技術讓我們的需求以更少的時間去實現。下次我們具體分享下如何用技術邏輯手段以更快的時間找到那些降價的商品。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2898213/,如需轉載,請註明出處,否則將追究法律責任。

相關文章