用大資料扒一扒蔡徐坤的真假流量粉
作者 | AlfredWu
來源 | Alfred資料室
前段時間央視新聞公開披露流量明星資料造假。作為一名資料猿,我們秉著好奇心點開了NBA新春賀歲形象大使蔡徐坤的微博,發現他的微博轉發量除了最新一條之外,其它的基本每條都是轉發100萬+。
在我們的印象中,轉發100萬+可是某些明星官宣結婚、或者某些明星吸毒出軌被爆等能讓微博伺服器奔潰的流量呀。蔡徐坤真的那麼火嗎?他的100萬+轉發裡到底是否存在假流量?假流量所佔比重有多少呢?
為了解答這個問題,我們透過微博移動端隨機抓取了蔡徐坤最新一條微博《再見,“任性的”千千…》的10萬條轉發資料(時間節點2019年3月11日10時)。這條講訴蔡徐坤關愛小動物的短影片微博,於2019年3月9日01:23釋出,到2019年3月10日18:00的時候已經被轉發100萬+。
資料的維度包括轉發者的相關資訊(暱稱、性別、關注者數量和被關注者數量等)以及轉發時的評論等。
解答這個問題之前,我們其實對於蔡徐坤的粉絲性別比例更加感興趣。按理來說應該他的女粉絲所佔比例應該更大,但是我們統計了102313條轉發資料中,有93618條是男粉絲轉發的,只有8695條是女粉絲轉發的。
這不對呀,難道更多的男生喜歡蔡徐坤嗎?而且這比例也太懸殊了一點吧?於是我們隨機抽取了男生轉發的資料,發現這些轉發的男粉絲基本上都是關注0,粉絲1的使用者。
我們合理地推測:這些流量就是所謂的假流量。
那假流量所佔的比例有多少呢?在這隨機抓取的10萬條轉發資料中,有多少是假的流量呢?
透過一番探索分析,我們把轉發資料中轉發者的關注或者粉絲數少於等於5、沒有簡介、轉發之後被點贊數評論數再轉發數都為0、微博會員等級為0級的資料,以及轉發者的關注或者粉絲數大於等於5但暱稱長“使用者XXXXXXXX”這樣的資料抽取了出來。
這部分資料,便是我們所說的假流量。
可見,102313條轉發資料中,有95397條是由假粉絲轉發的,佔了總轉發的93.24%,只有6916條是由真粉絲轉發的,佔6.76%。原來假流量佔的比重那麼高啊!
那麼6919條真粉絲轉發的資料中,除去重複轉發刷榜的數量,裡面一共有多少個真粉絲在轉發呢?我們把這部分資料按照粉絲微博ID進行去重。發現這裡面只有3926個真粉絲在轉發,也就是說,真實轉發的粉絲數量,佔總轉發量的3.84%。
按照這個比例,可以推算出100萬的轉發中,真實轉發的粉絲數為3.84萬,說明蔡徐坤的粉絲群和影響力還是很大的,但遠沒有微博顯示的全是100萬+轉發量那麼大。
你可能會說:我們自己的微博,平時也有一些假粉絲在轉發呀。為了進行對比,我們還抓取了最近活躍在《歌手》舞臺的吳青峰叔叔(粉絲數1377萬)最新的一條微博轉發資料10006條(時間節點2019年3月11日10時)。
我們把這些資料按照跟上面一樣的步驟提取出真假粉絲轉發量,發現只有很少比例的假粉絲量,絕大部分都是真粉絲轉發的。
並且,在9658條真粉絲轉發資料中,真粉絲量也高達9318,說明不存在粉絲打榜的情況。跟蔡徐坤的資料相比,可以發現有明顯的不同。
三、假流量粉絲是如何生產出來的?
在高達93.24%的假轉發量中,這些假粉絲都是如何生產出來的呢?有什麼共同的行為特徵呢?我們先給假粉絲進行了使用者畫像。
可見95397條假轉發中,有40838個假粉絲。其中男性的比例高達95.42%!
我們把轉發中所攜帶的評論進行計數,看看假粉絲在轉發的時候都喜歡說什麼,卻發現了一些更有趣的事。
很多假粉絲去轉發微博使用者“蔡徐坤的南岸末陰大小姐”和“超超超超愛蔡蔡的思思”的微博(大家千萬不要去攻擊他們哈),我們搜尋了一下這兩個人,發現她們的粉絲量只有一兩百人,轉載的全是蔡徐坤的微博,並且很多微博再轉發量為0,卻有少數的微博再轉發量高達好幾千!
這,估計就是自己花錢為偶像買流量的粉絲。
另外,我們發現很多假流量粉在轉發的時候喜歡攜帶英文評論。搜尋了一下發現,這些英文評論,要麼是英文歌詞、要麼是美劇臺詞、要麼是泰戈爾或者聶魯達的詩句。
在假粉絲使用的Top10轉發裝置中,Android高居榜首,這也再次證明了這些粉絲是假粉絲。
另外還有一些有趣的發現:假粉絲的平均關注是3.44,平均粉絲數是1.04,沒有簡介,暱稱基本上都是“中文+英文和數字”這個格式,很多假粉絲的暱稱都帶有“坤”、“蔡”、“葵”、“kun”等字,頭像都是蔡徐坤(說明很多都是定製粉啊)。
四、真流量粉的粉絲畫像
先來看看真粉絲的性別比例。可見3926個真粉絲中,女生佔了絕大部分,這才是符合邏輯的粉絲比例嘛。
在這些粉絲轉發所攜帶的評論中可以看到,很多都是支援蔡徐坤拿下#明星勢力榜#或者#東方風雲榜#第一名而轉發的。
真粉絲所使用的轉發裝置,各種裝置分佈都比較均勻,最受歡迎的是iPhone客戶端。
真粉絲的平均關注量為222,平均粉絲數是179,同樣,很多粉絲名字中喜歡帶有“坤”、“蔡”、“葵”、“kun”等字。
我們把真粉絲的簡介做成了詞雲圖。
可見,真粉絲們的簡介都喜歡帶上蔡徐坤的名字,很喜歡蔡徐坤,想要一直陪著他走下去。看著裡面的“少年”、“努力”、“自由”“追夢”等字眼,發現這就是我們以前的青春呀。
另外還把轉發所帶的評論做成了詞雲圖。
可見,粉絲們都很在乎“風雲榜”這件事,並且要幫助蔡徐坤拿第一名。裡面有早安打卡的,有超級話題的,還有很多“開心”、“比心”、“溫暖”等字眼。說明絕大部分真粉還是很溫暖的。
五、總 結
資料顯示,蔡徐坤動輒100萬+的微博轉發中,確實存在絕大部分的假流量。這些假流量估計有兩方面的來源:一是自身經紀公司購買的,二是忠實的粉絲自費購買的。
若是自身經紀公司購買的話,這確實擾亂了整個娛樂圈市場的運作,對於娛樂圈乃至整個社會風氣都是不好的。若是忠實粉絲購買的,Alfred覺得,資料只是一個資料,這其中的資金,可以透過其它方面更好的方面去給自己的偶像新增影響力呀。我看最近蔡徐坤轉發的#脫貧攻堅戰星光行動# 這個話題就很好呀,透過自己的影響力,去做更多正能量的事情。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555699/viewspace-2638676/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 扒一扒安卓的渲染原理安卓
- 扒一扒 HTTP 的構成HTTP
- 扒一扒安卓渲染原理安卓
- 扒一扒ELF檔案
- 扒一扒 EventServiceProvider 原始碼IDE原始碼
- 扒一扒PROMISE的原理,大家不要怕!Promise
- 扒一扒Kotlin協程的底褲Kotlin
- 扒一扒React計算狀態的原理React
- 扒一扒 CSS 語言的誕生史CSS
- 扒一扒程式語言排行榜
- 扒一扒 Jetpack Compose 實現原理Jetpack
- 扒一扒「清華系」的 AI 安防大佬們AI
- 扒一扒Bean注入到Spring的那些姿勢BeanSpring
- 扒一扒我們生活中常見的品牌小程式
- 扒一扒「黑客軍團」中用到的黑客工具黑客
- 扒一扒移動網際網路裡的流氓
- 扒一扒隨機數(Random Number)的誕生歷史隨機random
- 扒一扒9.3閱兵直播如何採用虛擬現實技術
- BEM實戰之扒一扒淘票票頁面
- 防扒
- 扒一扒JVM的垃圾回收機制,下次面試你準備好了嗎JVM面試
- 非得從零開始學習?扒一扒強化學習的致命缺陷強化學習
- 五招扒掉創業公司的假資料創業
- 日入50000元,扒扒抖音本地生活小程式的變現模式模式
- 怎麼用python扒網頁?Python網頁
- 扒一下Redis的配置檔案Redis
- 從“掃月亮”到“掃福字”,扒一扒背後的支付寶AR框架體系框架
- 扒一扒spring,dom4j實現模擬實現讀取xmlSpringXML
- 我扒了Bugly的資料,只是想出個報表
- 釋出防扒提示,
- 人剛畢業,顛覆整個AI界:扒一扒Sora兩帶頭人博士論文AISora
- 基於node的微小爬蟲——扒了一下知乎爬蟲
- SiteSucker pro 最新漢化版,Mac扒站神器Mac
- 性感的Promise,擁抱ta然後扒光taPromise
- 淺扒Android動態設定字型大小Android
- 《吃透MQ系列》之扒開Kafka的神祕面紗MQKafka
- Macos 扒站神器推薦:SiteSucker for Mac最新啟用 支援M1Mac
- 大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們大資料