這個春天,淄博燒烤成了新晉“頂流”

mmz_77發表於2023-04-12

淄博燒烤在這個春天火出了圈,火到社交平臺到處都是,火到大學生組團坐高鐵到淄博打卡種草,火到你長久不聯絡的外省同學、朋友都要來山東品嚐,火到相關話題一次次登上熱搜熱榜,連央視主播康輝都深夜點贊,成為現象級IP。

從3月初突然爆火到如今依然熱度不減,“淄博燒烤”火出圈的原因首先就是短影片的加持,今年的爆火,則首先來自各平臺網友,特別是大學生大量釋出的種草影片。自2月下旬開始,淄博火車站旅客流量開始顯著上升,日均傳送旅客創下近3年來最高紀錄。大學生組團到淄博吃燒烤,成一時之景,在“淄博火車站打卡”、自創“淄博燒烤手勢”,各種花式打卡引發大學生集體模仿,前往淄博吃燒烤的年輕人“自主髮圈”,淄博燒烤開始“引爆”。

這裡我們透過使用Python爬蟲獲取熱門短影片上關於“淄博燒烤”的相關影片,評論,轉發等資料來分析下,而抖音是目前非常熱門的短影片平臺之一,所以這裡我們的目標就是抖音。抖音的資料獲取可以透過官方提供的介面實現,也可以透過爬取網頁來獲取。但是關於抖音的反爬機制大家肯定也是瞭解的, 在爬取過程中想要繞過被反的策略就是儘可能偽裝為真實使用者行為,比如自己偽裝成瀏覽器訪問網站,這可以極大程度降低被反的機率,那如何做到偽裝瀏覽器呢?

1、可以使用請求頭(headers)來掩飾自己,其中最常用的就是User Agent,User Agent也簡稱 UA 。

2、使用不同的User-Agent來規避反爬策略。

3、使用優質爬蟲帶來ip來規避反爬,ip的使用有2種方式,透過api連結獲取ip在進行資料請求,還有就是透過隧道轉發直接傳送請求。我們的爬蟲程式裡面直接使用的是隧道轉發模式的,使用過程如下:

#! -*- encoding:utf-8 -*-
    import requests
    import random
    # 要訪問的目標頁面
    targetUrl = "
    # 要訪問的目標HTTPS頁面
    # targetUrl = "
    # 代理伺服器(產品官網 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理驗證資訊
    proxyUser = "username"
    proxyPass = "password"
    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }
    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }
    #  設定IP切換頭
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    print resp.status_code
    print resp.text


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2945301/,如需轉載,請註明出處,否則將追究法律責任。

相關文章