大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

xulinlucas發表於2019-04-15


大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們


作者:徐麟,某網際網路公司資料分析獅,個人公眾號資料森麟(id:shujusenlin)

前言


近日,蔡徐坤一紙律師函發往B站,律師函內容顯示,“B站上存在著大量侵害委託人的內容,且點選率高,傳播範圍廣,影響十分惡劣。這些內容的製作、上傳、散佈、轉載都已侵害了委託人的名譽權、肖像權、表演權等權利。要求對方立即刪除侵權內容,確保不再出現任何侵犯內容。”

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

然而B站也毫不示弱,在其官微正面回覆蔡徐坤,並給蔡徐坤“友情推薦“了名譽權的相關文章,可謂有理有據

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

我們今天在這裡不去評判究竟孰是孰非,更多的是要用資料帶大家一起走進B站鬼畜影片的神秘世界,看看那些活躍在B站的“鬼畜“屆巨頭們

初識“鬼畜”

何為“鬼畜“?我們擷取了百度百科上對於鬼畜影片的定義,讓大家能夠對鬼畜影片有個初步的認知:

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

我們此次的資料來源就是B站的鬼畜影片專區的資訊,可以看到影片資訊是以列表形式進行給出:

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

透過審查元素,我們找到了對應的介面,並進行列表資訊的爬取,獲得了從2018年釋出至今的30000多條鬼畜影片的資訊,包括了彈幕數,釋出時間,作者,標籤等:

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

部分程式碼如下:

def get_list(j,start,end):
    attempts = 0
       success = False
       while attempts < 500 and not success:
        try:
                       url = '{}&pagesize=20&time_from={}&time_to={}'.format(str(j),str(start),str(end))
            header = {'User-Agent''Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0',
                                 'Connection''keep-alive'}
            cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18'
            cookie = {}
                       for line in cookies.split(';'):
                                name, value = cookies.strip().split('=', 1)
                 cookie[name] = value    
            html = requests.get(url,cookies=cookie, headers=header).content

            info = json.loads(html.decode('utf-8'))['result']
                       return info
               except:
            attempts = attempts+1
       return []

period = pd.read_excel('起止日期.xlsx')
guichu_all = []
for i in range(period.shape[0]):
   for j in range(100):
       this_guichu = get_list(j,period['start'][i],period['end'][i])
       guichu_all = guichu_all+this_guichu
       print('{} {}'.format(str(i),str(j)))

最後得到的資料如下:

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們


萬物皆可鬼畜

綜述

在鬼畜界中,有一句被大家所熟知的話:萬物皆可鬼畜。它的意思是,沒有什麼是不能成為鬼畜素材的。鬼畜的題材之廣泛,往往會超出大家的想象,從動漫到電視劇,網遊,甚至連《貓和老鼠》《小豬佩奇》這種動畫片都常常出現在了鬼畜豪華套餐之中。

首先我們來看一下鬼畜影片的“使用者畫像”,提到對鬼畜影片的理解和認知,阿婆主們說第二,沒有人敢說第一,那麼我們就看看阿婆主眼中的鬼畜影片:

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

阿婆主們為了讓自己的影片能夠得到更多關注,都會給自己的影片打上非常全面、精準的標籤,其中包括了對影片的描述以及素材的資訊,我們將這部分資訊進行提取,為鬼畜影片刻畫其“使用者畫像”,透過詞雲進行展現:


大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們


除了鬼畜調教本書,有許多其他的非常有意思的描述,比如洗腦迴圈、惡搞、蜜汁帶感、有毒、魔性、新人都是怪物,這基本上是對鬼畜影片非常精確的描述了。這些描述也很好的解釋了鬼畜影片能夠“病毒式“”的傳播的原因了

下面就進入“萬物皆可鬼畜”的正題,主要分為兩個部分:人物和素材,人物主要是指的現實生活中的人物,包括了傳統意義上的明星和鬼畜全明星兩部門,素材就指的是那些可以用來進行鬼畜創作的原始內容,包括了歌曲,電視劇,電影等等

人物篇

首先看一下人物篇,我們先來看下2018,2019兩年影片彈幕量最多的人物:


大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們


大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們


可以看到麵筋哥在18,19年的榜單上都排名第一,麵筋哥以其渾厚的嗓音,灑脫的風格,不羈的穿搭走入了b站,成為了鬼畜區的王者,未來期待麵筋哥更多的作品。同時看到2019年蔡徐坤進入了榜單,吳亦凡的排名也得到了明顯的提高,依然引起了越來越多的阿婆主的關注。

下面我們把維度從年切分至周,製作動態圖看下大家18年至今每週的排名變化,我們使用的是大神之前搭好的模板,使用方法可以參照github上的講解:

可以看到,麵筋哥在2018年很長一段時間都是獨領風騷,然而近期霸佔榜單頭名的依然變成了蔡徐坤,想必這也是蔡徐坤團隊最近行動的原因了,我們用詞雲圖將這些鬼畜屆的巨頭們放在一起,看看是否有你熟悉的:

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

涉及到的領域相當廣泛,不僅有面筋哥這些常年活躍於鬼畜屆的巨頭,也有吳亦凡、蔡徐坤這樣的明星,就連朱廣權這種央視的主播都出現在了榜單,網際網路界的四位巨頭也在榜單之中,未來也期待更多的網際網路巨頭們精彩的作品。看完了人物,我們看下鬼畜素材的情況:

素材篇

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們


大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們


可以看到18年和19年素材產生了比較大的變化,但是改革春風吹滿地和貓和老鼠已成為了鬼畜區的鎮區質保,在排名中名列前茅,這份榜單也很好的詮釋了“萬物皆可鬼畜”這一真理。小品、動漫、影視人物、熱門歌曲,只有你想不到的,沒有鬼畜區做不到的,同樣我們來看下每個周的動態變化情況:

同樣也把這些常見素材透過詞雲圖放在一起,進一步看一下鬼畜區阿婆主們令人驚歎的腦洞:


大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

部分程式碼如下:

tag_stat = Counter(guichu_tag['tag'])
back_color = imread('D:/爬蟲/鬼畜/bilibili.jpg')  # 解析該圖片

wc = WordCloud(background_color='white',  # 背景顏色
              max_words=100,  # 最大詞數
              mask=back_color,  # 以該引數值作圖繪製詞雲,這個引數不為空時,width和height會被忽略
              max_font_size=200,  # 顯示字型的最大值
              font_path="C:/Windows/Fonts/STFANGSO.ttf",  # 解決顯示口字型亂碼問題,可進入C:/Windows/Fonts/目錄更換字型
              random_state=42,  # 為每個詞返回一個PIL顏色
              # width=1000,  # 圖片的寬
              # height=860  #圖片的長
              )
# WordCloud各含義引數請點選 wordcloud引數
image_colors = ImageColorGenerator(back_color)
wc.generate_from_frequencies(tag_stat)

plt.figure(figsize=(8,8),dpi=80)
plt.imshow(wc.recolor(color_func=image_colors))
plt.axis('off')

## 繪製圖片
renwu_stat_year_18 = tag_count_year[(tag_count_year['year']=='2018') & (tag_count_year['type']=='人物')]
renwu_stat_year_18.sort_values('danmu',ascending=False,inplace=True)
attr = renwu_stat_year_18['tag'][0:10]
v1 = renwu_stat_year_18['danmu'][0:10]
bar = Bar("2018人物彈幕數量TOP10")
bar.add("彈幕數量", attr, v1, is_stack=True, xaxis_rotate=30,xaxis_label_textsize=18,
        xaxis_interval =0,is_splitline_show=False,label_text_size=12,is_label_show=True)
bar.render('2018人物彈幕數量TOP10.html')

火鉗留名

“火鉗留名“是鬼畜區影片彈幕常見用語,表示對某一影片未來的看好,我們也來看看那些在鬼畜區最火的影片:


大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們

最後我們放個彩蛋,那就是為大家精選的集合了鬼畜區全明星(波瀾哥,麵筋哥,兩位馬爸爸等人)的《火力種田王2》,看過之後,想必大家都會神清氣爽(sanguanjinhui)

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555699/viewspace-2641445/,如需轉載,請註明出處,否則將追究法律責任。

相關文章