從資料角度探究《前任3》為什麼這麼火爆

一隻寫程式的猿發表於2018-08-30

原文網址 : https://flycode.co/archives/288555

1.《前任3》為什麼這麼火爆

截止發文時《前任3》票房15.50億，成為一匹黑馬，我習慣性的去豆瓣看了評分

豆瓣上8萬多人只打出了5.8的評分，其中1星-3星佔比72.6%，那麼問題來了，在絕大多數豆瓣粉絲都認為是“爛片”的情況下，究竟是什麼讓《前任3》票房意外火爆呢？

為了更能說明問題，通過一些輿情監測軟體，我參考了一些社交圈的一些資料

搜尋微信公眾號前任3相關的文章，我們可以看到相關結果2w多，總閱讀數6006w+
我檢視了點贊數最多的，竟然是蕊希的推文 **<前任3>：謝謝和你愛過，也不遺憾最終錯過。**點贊數22956 閱讀量10w+，這裡為什麼用竟然，是因為我也是蕊希忠實的聽眾啊，多少個成長的夜晚，是這個電臺陪我入睡，多少個... 跑題了跑題了，此處省略一萬字

點進去仔細看了一遍，這篇文章主要還是以一些經典的情感語錄和分手的撕心裂肺來引起讀者的共鳴或者是往事，蕊希的文章總是寫的很成功，因為她知道什麼樣的內容可以打動讀者的內心情感，看評論就知道了

所以前任三之所以火爆的原因也許是因為：分手？畢竟“分手”是感情世界裡永不褪色的話題，也是最能觸發觀影者內心情感的話題，不過這只是我們的猜測。

作為一名程式設計師，我們當然不能只靠這些來說話，資料是最有說服力的，於是我爬取了一下豆瓣的影評。

2.採集豆瓣影評

有朋友私我說之前沒怎麼寫過使用框架採集資料的教程，回過頭想了想好像是很少使用框架去爬蟲了，最早的一篇還是Python網路爬蟲（六）- Scrapy框架，戳我複習，發現突然讓自己用Scrapy還的確忘記從哪開始了，於是對著電腦開始發呆，大概度過了十分鐘的賢者時間一下子重新掌握了Scrapy的整體思路，(~~明明覆習了一兩個小時~~)。 戳我學習Scrapy 流程如下：

建立一個Scrapy專案；

定義提取的Item；

編寫爬取網站的 spider 並提取 Item；

編寫 Item Pipeline 來儲存提取到的Item(即資料)。

提取資料庫資料，處理展示

建立專案，終端輸入

# 建立專案
scrapy startproject douban_qrs

# 進入專案目錄
cd douban_qrs
# 建立爬蟲檔案
scrapy genspider douban https://movie.douban.com
複製程式碼

專案結構(不包括後續配置)

|-- douban_qrs/                        # 專案資料夾
    |-- scrapy.cfg                     # 專案釋出配置
    |-- spiders/                       # 專案模組儲存了實際的爬蟲程式碼
        |-- __init__.py                # 模組描述檔案
        |-- items.py                   # 定義了待抓取域的模型
        |-- pipelines.py               # 專案pipelines定義檔案
        |-- settings.py                # 專案全域性配置，定義了一些設定，如使用者代理、爬取延時等。
        |-- spiders/                   # 爬蟲模組<開發>
            |-- __init__.py            # 模組描述檔案
            |-- douban.py              # 爬蟲程式碼
複製程式碼

難題：scrapy實現模擬登入這裡我又重新去翻了一遍文件，發現文件中是有描述的參考文件

scrapy中cookies的寫法，可以與request中cookie的寫法對比下

這裡我用了兩種方法解決這個問題，第一個是加cookie，效果不太理想，我換了第二種採用登入的方式。

由於在登入過程中可能需要輸入驗證碼，目前採用把驗證碼圖片儲存至本地手動輸入 (藉助一些打碼平臺可以實現自動識別驗證碼輸入，收費)

    def logged_in(self, response):
        img_code = response.xpath("//img[@id='captcha_image']/@src").extract()
        if len(img_code) > 0:
            print("請輸入驗證碼登入")
            localpath = "/home/xsl/imgcode.jpg"
            # 將圖片下載到本地
            urllib.request.urlretrieve(img_code[0], filename=localpath)
            print("請檢視本地驗證碼圖片並輸入驗證碼")
            img_code_value = input()
            data = {
                "form_email": "你的賬號",
                "form_password": "您的密碼",
                "captcha-solution": str(img_code_value),
            }

        else:
            print("此時沒有驗證碼")
            data = {
                "form_email": "你的賬號",
                "form_password": "您的密碼",
            }
        print("登入中.(ง •̀_•́)ง")
        return [scrapy.FormRequest('https://www.douban.com/login',
                                   formdata=data,
                                   callback=self.movie)]
複製程式碼

3.詞雲和分佈圖展示

def word_cloud(comment):
    logger.info('製作詞雲圖...word_cloud')
    comment_text = ''
    back_coloring = imread("static/zzb.jpg")
    cloud = WordCloud(font_path='static/simhei.ttf',  # 若是有中文的話，這句程式碼必須新增，不然會出現方框，不出現漢字
                      background_color="white",  # 背景顏色
                      max_words=2000,  # 詞雲顯示的最大詞數
                      mask=back_coloring,  # 設定背景圖片
                      max_font_size=100,  # 字型最大值
                      random_state=42,
                      width=360, height=591, margin=2,  # 設定圖片預設的大小,但是如果使用背景圖片的話,那麼儲存的圖片大小將會按照其大小儲存,margin為詞語邊緣距離
                      )
    for li in comment:
        comment_text += ' '.join(jieba.cut(li, cut_all=False))
    wc = cloud.generate(comment_text)
    image_colors = ImageColorGenerator(back_coloring)
    plt.figure("wordc")
    plt.imshow(wc.recolor(color_func=image_colors))
    wc.to_file('前任三詞雲圖.png')


def snowlp_analysis(comment):
    logger.info('自然語言處理NLP...snow_analysis')
    sentimentslist = []
    for li in comment:
        s = SnowNLP(li)
        # logger.debug(li)
        # logger.debug(li, s.sentiments)
        print(li, s.sentiments)
        sentimentslist.append(s.sentiments)
    fig1 = plt.figure("sentiment")
    plt.hist(sentimentslist, bins=np.arange(0, 1, 0.02))
    plt.show()
複製程式碼

本來是想用至尊寶做一個詞雲圖的，找了好久沒找到素材，就用了之前我的一張桌布

話說，詞雲圖好像並不能看出什麼～而分佈圖表達的結果也並不直觀，那就代表本次的結果沒有什麼卵用，個人覺得是因為資料量太小了，而且詞雲圖本身對資料展示的結果只能看出高頻詞而已...我就不分析什麼了(我真的盡力了(ง •̀_•́)ง) ~~我也想像其他大佬一樣機器學習，資料分析啊~~

原始碼已上傳Github。

IPP SWAP】為什麼這麼火爆 ||
2023-05-08
資料運營為什麼這麼火爆？資料運營如何開展？
2021-12-29
為什麼線上盲盒商城這麼火爆
2023-04-10
Redis為何這麼快–資料儲存角度
2018-10-10
Redis
從玩家角度解析為什麼《星球大戰：銀河英雄》這麼耐玩
2022-03-29
為什麼一對一直播技術這麼火爆！
2019-02-27
區塊鏈遊戲開發為什麼這麼火爆？
2018-11-13
區塊鏈遊戲開發
從小眾到火爆，圖資料庫能為我們解決什麼問題?
2021-11-25
資料庫
為什麼NoSQL資料庫這麼受歡迎？
2022-12-26
SQL資料庫
探究為什麼在專案管理中使用資料視覺化？
2022-07-12
專案管理視覺化
大資料能做什麼,為什麼學大資料
2019-07-10
大資料
大資料為什麼這麼火？小白該如何去學習大資料
2018-11-18
大資料
合成遊戲是什麼模式，導致它這麼火爆呢
2021-12-02
遊戲模式
從內外兩方面解析：Python為什麼這麼火？
2019-05-10
Python
為什麼 Python 這麼慢？
2018-10-27
Python
為什麼Python這麼慢？
2018-08-14
Python
為什麼Julia這麼快？
2018-08-16
為什麼前端這麼多人
2018-04-21
前端
Redis為什麼這麼快？
2023-03-03
Redis
Nginx 為什麼這麼快？
2022-12-08
Nginx
python有什麼特性？為什麼這麼火？
2021-12-30
Python
Python是什麼?為什麼這麼搶手?
2021-07-30
Python
大資料最新綜合年薪37.8萬！大資料人才為什麼這麼值錢？
2021-01-21
大資料
為什麼需要資料治理
2023-12-20
雲列印為什麼這麼便宜？
2024-04-24
ippswap dapp為什麼這麼火？
2023-09-27
APP
Exadata為什麼這麼牛B
2024-05-09
為什麼 Laravel 這麼優秀
2024-01-25
Laravel
為什麼過了這麼久了
2020-10-10
快速排序為什麼這麼快？
2020-11-05
排序
Spring Boot 為什麼這麼火？
2019-06-03
Spring Boot
解析：Python為什麼這麼流行？
2021-12-08
Python
為什麼Kubernetes這麼難？ • Buttondown
2022-01-27
所以，chatGPT為什麼這麼火？
2023-02-10
ChatGPT
什麼是Python?Python為什麼這麼搶手?
2019-11-28
Python
Python能幹什麼?為什麼會這麼火?
2019-12-09
Python
等保費用是什麼？為什麼這麼貴？
2022-09-23
為什麼資料備份那麼重要?
2020-07-05

從資料角度探究《前任3》為什麼這麼火爆

1.《前任3》為什麼這麼火爆

2.採集豆瓣影評

3.詞雲和分佈圖展示

原始碼已上傳Github。

相關文章