我分析了上萬個微信紅包資料,得到了這些發現(附資料集)
引子
筆者在2015年7月建立了一個以分享滴滴叫車紅包為主的微信群聊,建立的本意是為了方便大家在分享紅包時不打擾別人,在乘車需要紅包時能方便地領到紅包。隨著群人數和分享紅包種類的增加,該群已成為一個各類 O2O 服務APP優惠券紅包的集散地。從2015年8月到2017年8月,本群產生了約兩萬條紅包分享記錄,筆者最近將這些記錄匯出,通過數量,時間,語義等維度分析這些資料,下面將筆者自己的解讀分享出來以供大家學習交流。
數量維度
本群主要成員為北京某大學的大學生。兩年時間裡本群共產生21477條聊天記錄,其中有效的紅包分享記錄約為20000條,群成員在10個月內從幾十人增長到500人滿群。
聊天記錄可匯出為 Excel 表格格式,單條聊天記錄的格式如圖1所示。
圖1
每一列的資料分別為微信群群號(沒錯,微信群也有群號)、訊息傳送時間,傳送者微信暱稱,傳送者微訊號,傳送形式(接收或傳送),訊息型別(文字、網頁、動畫表情、照片桌布)和訊息內容。因為大部分紅包都是以網頁的形式分享,而且每種 APP 只使用各自固定的域名,例如滴滴叫車使用 xiaojukeji.com ,餓了麼使用 ele.me。通過對不同域名數量的統計,筆者分析出了紅包數量最多的12個APP 以及他們的數量比例(圖2),這12類 APP的紅包數量佔所有紅包總量的95%。
圖2
從圖中可以看出外賣紅包是所有紅包種類中數量最多的,因為衣食住行中,“食”的頻率最高。餓了麼紅包數量佔所有紅包數量的近一半,這與市場調查機構公佈的2016和2017年外賣 APP 市場份額報告的結論(餓了麼與美團外賣市場份額不相上下)不一致。這是因為微信群聊參與者身份和地域的侷限性導致該統計結果只能反應小範圍內外賣APP 的市場份額。
除了圖中的 APP 之外,紅包數量比較多的 APP 還有:去哪兒、由你單車、嘀嗒拼車、愛鮮蜂、一米鮮、攜程、 每日優鮮、樂惠、優酷、開心消消樂、Airbnb、中國移動、觸寶、有貨。需要補充的是,圖2中京東的紅包包括了京東商城、京東到家和京東金融,網易的紅包包括了網易嚴選,考拉海購和陰陽師。
以上 APP 基本上涵蓋了中國大部分主流提供 O2O 服務的APP,同時也體現了大學生的消費特徵。共享出行,外賣,生鮮配送,網購,娛樂休閒是當前大學生主要的消費形式。
從圖1中可以看到每個紅包在分享時都有一條相應的廣告語,筆者分析了這些廣告語的高頻詞彙,並將其做成詞雲圖,如圖3所示。
圖3
細心的讀者可能發現紅包的廣告語有幾種型別,一種是宣傳 APP (及其提供的服務)本身,一種是其他品牌的廣告,常見的有影視劇和品牌促銷活動等,還有一種型別是 APP 自身的明星代言,例如餓了麼的王祖藍和科比。我分析了2015年8月,2016年8月和2017年8月這三個月中這三類紅包的比例,如圖4所示。
圖4
2015年夏天是O2O服務剛開始迅猛發展的時候,那個時候他們的市場份額還不高,所以紅包主要還是以宣傳自家服務為主,到了2016年夏天, O2O服務競爭到了火熱階段(外賣領域和出行領域),那個時候的紅包折扣力度也比較大,分享人數較多,所以我們看到其他品牌廣告佔比明顯上升,紅包冠名廣告可以作為O2O服務提供商的收入來源之一。筆者沒有行業經驗,但猜測紅包冠名廣告的曝光率和點選率要高於一些其他的廣告形式。2017年夏天,這時外賣和出行市場格局已定,紅包的折扣力度減小,分享人數下降,所以大部分廣告是針對自己APP的宣傳,常見的廣告語是“第X個領到紅包的金額最大”,以刺激大家點選連結進而產生消費。
時間維度
圖5是紅包數量前七名的APP紅包數量兩年間的變化趨勢。
(建議橫屏觀看)
圖5
從紅包數量變化趨勢中可以得到以下幾點結論:首先,餓了麼和美團外賣的紅包是所有外賣紅包中的主流。在2016年8月之前,美團外賣的紅包數量要高於餓了麼紅包數量,之後餓了麼紅包數量一路反超,遠遠高於美團紅包數量。造成變化的原因不是餓了麼增加推廣力度,而是因為大部分群成員(北京某高校學生)從一個校區整體遷往了另一個校區,而美團外賣在原校區的規模相對於餓了麼要比新校區的規模大。同樣,在2017年6月之後,紅包數量的整體下跌是因為大部分群成員從大學畢業,對外賣的需求下降。這從另一個角度反映了小規模資料的不穩定性。
第二,同樣是外賣紅包,我們可以看到在2016年2月和2017年2月,也就是春節和寒假的時候,各類外賣 APP 的紅包的數量都明顯下跌,顯而易見,大部分群成員都回家過年,對外賣的需求大大減少。有趣的是,滴滴紅包數量並沒有明顯變化,一方面是春運的影響,另一方面說明滴滴對三四線城市的下沉做得比較好。
最後,我們看到滴滴紅包的數量穩定增長一直到2016年7月達到最高峰,從2016年8月開始一路下跌。筆者認為造成下跌原因和群成員的關係不大,主要原因是2016年8月1日滴滴宣佈收購優步中國,國內的共享出行領域滴滴一家獨大,筆者清楚記得從那時起滴滴的紅包優惠力度大打折扣,快車的價格也有了起步價。一方面是優惠力度的下降,另一方面部分搖擺乘客可能會選擇別的出行方式,筆者認為這才是導致滴滴紅包分享數量的下降的原因。
圖6
圖6將滴滴和ofo紅包數量變化趨勢專門列出來,這樣可以更直觀的看到其變化。之所以沒有列出摩拜,是因為摩拜的分享次數較少,在圖表上不明顯。如果說2015年夏天是汽車共享出行開始迅猛發展的時候,那麼從圖中可以看出2016年夏天就是共享單車迅猛發展的時候。事實上滴滴從2012年就開始做計程車叫車業務, ofo早在2014年就開始在大學校園推廣共享單車。隨著4G網路的和智慧手機的普及,微信使用人數越來越多,在多種因素的綜合作用下,這些出行O2O服務在2015年後才開始迅速發展。
下面我們將時間維度縮小到一天內,看看一天內出行紅包和外賣紅包的分享數量和時間的關係(圖7)。
圖7
一般而言,一次線上的紅包分享可以代表分享者同時線上下產生了相應的行為,通過變化紅包分享數量變化趨勢可以看到,在“食”和“行”方面,統計資料很好地體現了我們一般的認知。外賣集中在中午十二點和下午七點兩個飯點之前,出行則在白天相對均勻地分佈。
支付寶跨年紅包
相信大部分讀者都經歷了支付寶跨年紅包的洗禮,作為敏感的紅包群群主,我發現支付寶的吱口令在十二月中旬開始在群裡大量出現,到跨年時達到高峰,圖8是群聊中從2017年12月10日到2018年1月10日支付寶跨年紅包的分享數量變化。
圖8
由於筆者在國外,並沒有參與到瓜分紅包的行動中,但筆者好奇的是:在2017年12月12日到2017年12月22 日,支付寶分享紅包的吱口令中,“支付寶”三個字有大量變體字出現,讓人一度以為是欺詐訊息,我分析這十天所有的支付寶變體,將其做成圖9的詞雲。
圖9
支付寶一共產生了十種變體,起初筆者猜測支付寶是為了防止微信的追蹤和遮蔽,但我想這樣變體也不妨礙微信監測到訊息,況且在這之前和之後紅包都是正常的,所以我特別期待懂這個問題的朋友能夠解答我的疑問。
總結
總而言之,這份兩萬條記錄的資料集規模太小,所以很難得到巨集觀的結論,目前得到大部分結論也是顯而易見的。利用該資料集進行進一步例如行為預測,使用者畫像,也是不現實的。另外,該資料集的特殊性在於它的獨一無二,不同於微博等公開可獲取的資料,這樣的資料只能通過人為組織收集,所以即使此資料集的體量足夠大,基於它訓練出來的模型也難以有實用價值。
所以,假設我有足夠多的群成員,我可以通過收集他們的性別,職業和收入的情況,結合他們線上分享紅包的時間、種類、次數,可能會得到一些有趣的經濟學結論。進一步,如果我們能獲取到每個紅包群成員點選的情況,這樣又增加了一個資料維度,可以結合時間以及冠名廣告和點選率做紅包傳送的優化,也可以結合群內其他資料維度來進行使用者的畫像,行為預測等等。當然,這一切都是基於群成員和紅包數量足夠多的前提。在這個前提下,我們可以對O2O行業的發展做一個巨集觀的分析,從全新的角度觀察行業的發展。
不過以上所說的種種限制,對於微信官方來說都不是問題,微信利用自己的平臺優勢關聯了無數的APP,利用不同的資料來源,微信可以通過協同過濾(Collaborative Filtering)以及多視角學習(Multi-viewLearning)進行使用者畫像從而進行更精準的推薦。從另一個角度想,我們越來越多的行為都被 BAT 三家收集到,大家在網際網路上越來越透明,所以對隱私的保護越來越重要,這不僅要靠企業自律,還要靠國家加強立法。
通過這次分析,筆者最主要的發現就是小資料集的片面性,並不是說如果數量到百萬千萬級就不是小資料了,而是說得深刻認識到現有資料集的侷限性,不能以偏概全,並且儘量嘗試獲取到全面巨集觀的資料。這對資料探勘從業者有一定的啟示。
微信群聊記錄可以通過“同步助手”匯出到電腦上,可以匯出為文字文件、表格或者網頁格式,結合 Excel 和相關 Python工具包,可以輕鬆實現對微信群聊資料的挖掘,各位讀者可以自己動手挖掘感興趣的微信聊天記錄。我也把本文用到的資料集匿名化處理後釋出在網上以供大家學習使用。
資料集下載地址:
http://ytongdou.com/wp-content/uploads/2018/01/WechatLog.zip
竇英通,伊利諾伊大學芝加哥分校博士生,對社交網路分析,推薦系統感興趣。希望通過資料派平臺在分享交流中成長。
資料派研究部是一個建立在資料院教學資源、科研資源以及對外合作資源上的開放性學術組織。“開放”是研究部區別於資料院的其他組織的主要特點,即資料派研究部也對外校同學開放。“學術”是研究部的落腳點,即研究部為資料派,甚至資料院的對外合作及知識傳播相關部門提供學術支援,主要工作涉及:代表資料院參加大資料/人工智慧相關比賽、依託資料院校企合作資源展開專案實踐、參與系列原創分享文章等。
未來研究部的目標是逐步完成學術積累並進一步孕育學術氛圍,通過開展下述不同層次的學術實踐,為資料院積累學術力量,為社會培養大資料/人工智慧相關人才。
點選文末“閱讀原文”,報名資料派研究部志願者,加入我們~
轉載須知
如需轉載,請在開篇顯著位置註明作者和出處(轉自:資料派ID:datapi),並在文章結尾放置資料派醒目二維碼。有原創標識文章,請傳送【文章名稱-待授權公眾號名稱及ID】至聯絡郵箱,申請白名單授權並按要求編輯。
釋出後請將連結反饋至聯絡郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。
點選“閱讀原文”擁抱組織
相關文章
- python 資料探勘-我分析了《乘風破浪的姐姐》,發現了這些秘密Python
- python 資料探勘-我分析了《乘風破浪的姐姐》,發現了這些祕密Python
- 資料科學家年薪12萬美元算高嗎?我爬取近6年三千份資料後發現了這些祕密資料科學
- 趣味資料:分析了6.5萬字的歌詞,看到了這樣的周杰倫
- 我發現我的資料被操縱了……
- 我以為我學懂了資料結構,直到看了這個導圖才發現,我錯了資料結構
- 除夕微信大資料揭祕:得紅包最多的人竟然是他!——資訊圖大資料
- 『資料科學家年薪12萬美元算高嗎?我爬取近6年三千份資料後發現了這些祕密』今日資料行業日報(2019.09.10)資料科學行業
- 在個稅App上填資料遇到的這些問題,權威解答來了APP
- UCI資料集整理(附論文常用資料集)
- 資料庫的使用你可能忽略了這些資料庫
- 我們分析了10萬條洩露密碼,發現了這樣的套路密碼
- ES資料沒了?誰動了我的資料?
- 微信:2016年“520表白紅包”大資料 13點14分現紅包小高峰大資料
- UCI資料集詳解及其資料處理(附148個資料集及處理程式碼)
- 我從來不覺得程式設計師是吃青春飯的!這裡有169萬份分析資料程式設計師
- 我開了一門爬蟲資料分析課,順便爆了個照爬蟲
- 用文字挖掘分析了5萬首《全唐詩》,竟然發現這些祕密
- 向xxxhub發了一個資料包,發現了一些不可告人的秘密
- 發現一個國產BI軟體,做財務資料分析效果絕了
- Oracle資料庫資料物件分析(上)Oracle資料庫物件
- 掌握這些技巧,讓Excel批次資料清洗變得簡單高效!Excel
- 頻寬不夠用,靠這個方法我讓資料壓縮率達到了80%以上
- 資料視覺化│用了這個軟體我終於不禿頭了視覺化
- 一個資料庫死鎖竟然被測試發現了,這你敢信資料庫
- 用 Python 分析了 20 萬場吃雞資料Python
- 向xxxhub發了一個資料包,發現了一些不可告人的祕密
- 有了資料,需要一些思路。應該從哪開始做資料分析?
- 精品英語聽力資料下載!(每天有數萬人在找這些資料)
- 【資料分析】抖音商家電話採集軟體資料分析
- “大資料自動挖掘”才是現在這些大資料的真正意義大資料
- 硬碟又壞了?硬碟資料恢復的神器有這些硬碟資料恢復
- 一個22萬張NSFW圖片的鑑黃資料集?我有個大膽的想法……
- 最強資料集集合:50個最佳機器學習公共資料集機器學習
- 資料上雲,我推薦華為雲資料庫!資料庫
- 裸考了一次雅思,我居然學會了資料分析!
- 我若拿出這個大資料分析工具,閣下又該如何應對?大資料
- Python+資料分析:資料分析:北京Python開發的現狀Python