大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們
作者:徐麟,某網際網路公司資料分析獅,個人公眾號資料森麟(id:shujusenlin)
前言
近日,蔡徐坤一紙律師函發往B站,律師函內容顯示,“B站上存在著大量侵害委託人的內容,且點選率高,傳播範圍廣,影響十分惡劣。這些內容的製作、上傳、散佈、轉載都已侵害了委託人的名譽權、肖像權、表演權等權利。要求對方立即刪除侵權內容,確保不再出現任何侵犯內容。”
然而B站也毫不示弱,在其官微正面回覆蔡徐坤,並給蔡徐坤“友情推薦“了名譽權的相關文章,可謂有理有據
我們今天在這裡不去評判究竟孰是孰非,更多的是要用資料帶大家一起走進B站鬼畜影片的神秘世界,看看那些活躍在B站的“鬼畜“屆巨頭們
初識“鬼畜”
何為“鬼畜“?我們擷取了百度百科上對於鬼畜影片的定義,讓大家能夠對鬼畜影片有個初步的認知:
我們此次的資料來源就是B站的鬼畜影片專區的資訊,可以看到影片資訊是以列表形式進行給出:
透過審查元素,我們找到了對應的介面,並進行列表資訊的爬取,獲得了從2018年釋出至今的30000多條鬼畜影片的資訊,包括了彈幕數,釋出時間,作者,標籤等:
部分程式碼如下:
def get_list(j,start,end):
attempts = 0
success = False
while attempts < 500 and not success:
try:
url = '{}&pagesize=20&time_from={}&time_to={}'.format(str(j),str(start),str(end))
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0',
'Connection': 'keep-alive'}
cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18'
cookie = {}
for line in cookies.split(';'):
name, value = cookies.strip().split('=', 1)
cookie[name] = value
html = requests.get(url,cookies=cookie, headers=header).content
info = json.loads(html.decode('utf-8'))['result']
return info
except:
attempts = attempts+1
return []
period = pd.read_excel('起止日期.xlsx')
guichu_all = []
for i in range(period.shape[0]):
for j in range(100):
this_guichu = get_list(j,period['start'][i],period['end'][i])
guichu_all = guichu_all+this_guichu
print('{} {}'.format(str(i),str(j)))
最後得到的資料如下:
萬物皆可鬼畜
綜述
在鬼畜界中,有一句被大家所熟知的話:萬物皆可鬼畜。它的意思是,沒有什麼是不能成為鬼畜素材的。鬼畜的題材之廣泛,往往會超出大家的想象,從動漫到電視劇,網遊,甚至連《貓和老鼠》《小豬佩奇》這種動畫片都常常出現在了鬼畜豪華套餐之中。
首先我們來看一下鬼畜影片的“使用者畫像”,提到對鬼畜影片的理解和認知,阿婆主們說第二,沒有人敢說第一,那麼我們就看看阿婆主眼中的鬼畜影片:
阿婆主們為了讓自己的影片能夠得到更多關注,都會給自己的影片打上非常全面、精準的標籤,其中包括了對影片的描述以及素材的資訊,我們將這部分資訊進行提取,為鬼畜影片刻畫其“使用者畫像”,透過詞雲進行展現:
除了鬼畜調教本書,有許多其他的非常有意思的描述,比如洗腦迴圈、惡搞、蜜汁帶感、有毒、魔性、新人都是怪物,這基本上是對鬼畜影片非常精確的描述了。這些描述也很好的解釋了鬼畜影片能夠“病毒式“”的傳播的原因了
下面就進入“萬物皆可鬼畜”的正題,主要分為兩個部分:人物和素材,人物主要是指的現實生活中的人物,包括了傳統意義上的明星和鬼畜全明星兩部門,素材就指的是那些可以用來進行鬼畜創作的原始內容,包括了歌曲,電視劇,電影等等
人物篇
首先看一下人物篇,我們先來看下2018,2019兩年影片彈幕量最多的人物:
可以看到麵筋哥在18,19年的榜單上都排名第一,麵筋哥以其渾厚的嗓音,灑脫的風格,不羈的穿搭走入了b站,成為了鬼畜區的王者,未來期待麵筋哥更多的作品。同時看到2019年蔡徐坤進入了榜單,吳亦凡的排名也得到了明顯的提高,依然引起了越來越多的阿婆主的關注。
下面我們把維度從年切分至周,製作動態圖看下大家18年至今每週的排名變化,我們使用的是大神之前搭好的模板,使用方法可以參照github上的講解:
可以看到,麵筋哥在2018年很長一段時間都是獨領風騷,然而近期霸佔榜單頭名的依然變成了蔡徐坤,想必這也是蔡徐坤團隊最近行動的原因了,我們用詞雲圖將這些鬼畜屆的巨頭們放在一起,看看是否有你熟悉的:
涉及到的領域相當廣泛,不僅有面筋哥這些常年活躍於鬼畜屆的巨頭,也有吳亦凡、蔡徐坤這樣的明星,就連朱廣權這種央視的主播都出現在了榜單,網際網路界的四位巨頭也在榜單之中,未來也期待更多的網際網路巨頭們精彩的作品。看完了人物,我們看下鬼畜素材的情況:
素材篇
可以看到18年和19年素材產生了比較大的變化,但是改革春風吹滿地和貓和老鼠已成為了鬼畜區的鎮區質保,在排名中名列前茅,這份榜單也很好的詮釋了“萬物皆可鬼畜”這一真理。小品、動漫、影視人物、熱門歌曲,只有你想不到的,沒有鬼畜區做不到的,同樣我們來看下每個周的動態變化情況:
同樣也把這些常見素材透過詞雲圖放在一起,進一步看一下鬼畜區阿婆主們令人驚歎的腦洞:
部分程式碼如下:
tag_stat = Counter(guichu_tag['tag'])
back_color = imread('D:/爬蟲/鬼畜/bilibili.jpg') # 解析該圖片
wc = WordCloud(background_color='white', # 背景顏色
max_words=100, # 最大詞數
mask=back_color, # 以該引數值作圖繪製詞雲,這個引數不為空時,width和height會被忽略
max_font_size=200, # 顯示字型的最大值
font_path="C:/Windows/Fonts/STFANGSO.ttf", # 解決顯示口字型亂碼問題,可進入C:/Windows/Fonts/目錄更換字型
random_state=42, # 為每個詞返回一個PIL顏色
# width=1000, # 圖片的寬
# height=860 #圖片的長
)
# WordCloud各含義引數請點選 wordcloud引數
image_colors = ImageColorGenerator(back_color)
wc.generate_from_frequencies(tag_stat)
plt.figure(figsize=(8,8),dpi=80)
plt.imshow(wc.recolor(color_func=image_colors))
plt.axis('off')
## 繪製圖片
renwu_stat_year_18 = tag_count_year[(tag_count_year['year']=='2018') & (tag_count_year['type']=='人物')]
renwu_stat_year_18.sort_values('danmu',ascending=False,inplace=True)
attr = renwu_stat_year_18['tag'][0:10]
v1 = renwu_stat_year_18['danmu'][0:10]
bar = Bar("2018人物彈幕數量TOP10")
bar.add("彈幕數量", attr, v1, is_stack=True, xaxis_rotate=30,xaxis_label_textsize=18,
xaxis_interval =0,is_splitline_show=False,label_text_size=12,is_label_show=True)
bar.render('2018人物彈幕數量TOP10.html')
火鉗留名
“火鉗留名“是鬼畜區影片彈幕常見用語,表示對某一影片未來的看好,我們也來看看那些在鬼畜區最火的影片:
最後我們放個彩蛋,那就是為大家精選的集合了鬼畜區全明星(波瀾哥,麵筋哥,兩位馬爸爸等人)的《火力種田王2》,看過之後,想必大家都會神清氣爽(sanguanjinhui)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555699/viewspace-2641445/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 用大資料扒一扒蔡徐坤的真假流量粉大資料
- 《雞你太美》,“黑蔡徐坤”怎麼讓它火了?
- 12萬行程式碼堆出來個「蔡徐坤」行程
- 有點厲害!用12萬行程式碼堆出來個"蔡徐坤",編譯還能透過!行程編譯
- 業界 | 電商落地時代:巨頭們如何兼得資料的“大”和“厚”
- 中國網際網路的巨頭們,為何敢“大資料殺熟”?大資料
- “雞你太美血洗B站”!坤坤帶領全民學習AI ?AI
- 巨頭們爭先佈局的互動視訊,會是愛奇藝騰訊B站們的新出路嗎?
- 讓蔡 xu 坤在你的命令列中打籃球命令列
- 使用Linux桌面系統的5大巨頭竟是他們!!!Linux
- 虎牙軒子我餓了第四期御姐撞上小鮮肉 小摳腳秒變“蔡徐坤”?
- 巨頭們的AI研究院戰事AI
- 矽谷巨頭們過去20年真正的麻煩:未能重塑現實世界
- AI巨頭們建造的“新世界”,進展如何?AI
- 海爾智家赴港IPO,白電巨頭們的資本博弈
- 巨頭們AI的角力戰正向農村滲透AI
- 科技巨頭們正在掀起AI收購戰AI
- 小程式背後:巨頭們各自為陣的四大移動新生態
- .NET開發不可錯過的25款必備工具,徐彙區網站設計網站
- B站的資料質量管理——理論大綱與實踐
- 網際網路巨頭究竟拿了你的哪些資料?
- B站大資料系統診斷實踐-SQLSCAN篇大資料SQL
- 陽振坤:OceanBase 4.0 核心技術解讀
- 我們都是透明人!看看網際網路巨頭們偷偷儲存了你的哪些資訊
- 快手、B站斥巨資逆勢投資小象大鵝,遊戲MCN背後真有300億市場?遊戲
- B站大資料開發治理平臺的產品設計心得大資料
- 如何用大資料解讀流浪漢的生活大資料
- 牛火火:淺談大資料的價值與影響大資料
- 美徵信巨頭Equifax因大規模資料洩露被罰7億美元UI
- 大資料公司雲端計算巨頭的耦合:神策資料與亞馬遜雲科技相互加持大資料亞馬遜
- 今日頭條:2018今日頭條兩會閱讀大資料(附下載)大資料
- 又一巨頭選擇將資料庫開源資料庫
- 大資料的火,程式設計師的樂大資料程式設計師
- [短文速讀-1] a=a+b和a+=b的區別
- Lapsus$迴歸,洩露IT巨頭Globant 70GB資料
- 兩個火車頭原創外掛網站網站
- 可穿戴市場的回暖,更像是巨頭們自導自演的遊戲遊戲
- B站難過“白嫖”關