大資料分析疫情下電影院的現狀

mmz_77發表於2022-04-08

疫情暴發3年多來,電影院已經成為受打擊最重的營業場所之一。不通風、長時間聚集等因素疊加,使得影院被想象成一個危險的病毒傳染源。雖然影院裡至今沒有暴發過一次聚集性疫情。並但是每一波疫情到來,電影院總是最先關門、最後開門,潛移默化地大家都覺得,去電影院觀影是個非常危險的事情。電影院開始走向“冰點”表面看是因為疫情導致,實質還是有很多其他重要因素。

今天我們就通過python獲取豆瓣那些高分電影資料來分析下為什麼現在的電影行業萎靡不振, 首先我們要收集資料才能進行資料分析。獲取資料的主要途徑:現成資料、自己用爬蟲爬取得到的資料。這裡我用python爬取豆瓣高分電影資訊,用以獲取其中的資料。這裡重點講下在訪問豆瓣這種反爬比較嚴的網站時,我們的爬蟲程式反爬措施需要做好,代理IP,隨機Ua,cookie等基本措施必不可少。獲取資料的簡單過程如下:

 #! -*- encoding:utf-8 -*-
    import requests
    import random
    # 要訪問的目標頁面
    targetUrl = "
    # 要訪問的目標HTTPS頁面
    # targetUrl = "
    # 代理伺服器(產品官網 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理驗證資訊
    proxyUser = "username"
    proxyPass = "password"
    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }
    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }
    #  設定IP切換頭
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    print resp.status_code
    print resp.text

資料得到手,我們就需要對我們爬取的資料進行清洗工作,為之後的資料分析做鋪墊,如果清洗的不到位勢必會對之後的資料分析造成影響。從大家對高分電影的評價裡面我們可以看出, 由於新媒體帶來的豐富資源,中國觀眾的觀影選擇和審美水平越來越與國際趨近,高品質娛樂片的缺失,是當下電影市場最引人注目的失衡,同質化的影片容易讓觀眾審美疲勞,影院如果無法提供足夠多元的影片型別,就更難有讓人走進影院的說服力。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2886246/,如需轉載,請註明出處,否則將追究法律責任。

相關文章