作者:emma
0. 引言
每天早上醒來,眼睛一睜開就面臨一個難題:今天穿什麼?這時候腦海裡往往會冒出很多選項,卻都不能令我滿意,糾結中經常想著想著就又睡著了。20分鐘後發現睡過了驚醒,抓起文化衫和短褲套上就走,匆忙中身上還滴上了牙膏。
於是在同事眼中,我一直是個不修邊幅的女程式設計師,我也的確沒讓大家失望,經常以文化衫拖鞋的形象出現,自詡反正都嫁人了,穿了給你們看沒意思。
但是每天的早上我卻從未輕言放棄,依舊會去想:今天穿什麼? 這個問題。彷彿是一個我永遠解決不了,卻又不甘心繞過去的問題。
如何解決
資料分析和推薦做多了,看到什麼都有了收集資料來解決問題的衝動。於是有了這個開腦洞的想法:用資料分析解決每天早上起床困擾我的事情,讓我能夠開心自信的去上班。
我梳理了工作上用資料解決問題的整體流程:
- 定義清楚需要解決的問題。
- 資料收集,清洗資料。
- 定義指標並進行統計計算。
- 對指標進行細分和下鑽對比,觀察資料得出結論。
- 拿出一些典型的case具體分析。
- 通過4和5的結論,優化策略。
- 使用優化後的策略,持續觀察4中定義的指標。
中間還會存在很多細節問題,比如指標是否符合預期,遇到問題的假設和驗證。
寫出來,貼牆上,行動。每次開坑都有一種興奮和緊張並存的複雜情感。
資料分析就是這樣刺激的事情,腦海中會湧現出很多靈感。需要把他們梳理好,否則很容易中途跑偏。
不看到資料的時候,永遠不知道有什麼結論。跑出來的資料是否和自己的期待一樣?如果不一樣會是什麼原因?不一樣的話又要做何種假設和驗證?
結果有時候興奮,也經常避免不了失落。最怕的不是結論不符合預期,而是搜尋了半天沒有發現什麼有用的結論。只能接受暫時沒有結論也是一種結論。把這些資料放在心裡,也許哪天又有什麼靈感去用。
真是一項邏輯理智和靈感碰撞的工作!
1. 定義清楚需要解決的問題
其實我並不是沒有衣服,雖然算不上多的要命,但也塞滿了半個衣櫃。曾經剛剛開始自己賺錢的時候,也“揮霍”買了不少淘寶爆款。但是沒有衣服穿的感覺貌似從來沒有消失過。
梳理一下:
- 我對目前可選擇的衣服經常覺得不滿意
- 我不知道如何去買,似乎一直在買卻還是不夠
從推薦策略的角度,可以認為衣櫃就是我們的候選池子。生活中的各種場合,各種季節代表不同特徵使用者(其實都是我,在不同情況下百變的我!)的需求。
如 (工作日,上班,春天,下班想去運動,希望簡單明快,前幾天穿過的序列(xxxxx),髒了洗了的序列(xxxxx)) 或者(週末,帶孩子去公園,夏天,會跑跑跳跳拍照,希望方便行動上相,…..)
推薦效果:個人感受,糾結很久or覺得衣服不夠。說明效果有待提高。
這裡 選擇衣服策略 和 評價指標-個人感受是否合心意,都相對主觀,較難量化,畢竟女人如此複雜我自己都搞不懂自己。
且我們每次對自己的穿搭不滿意都會覺得是因為沒有衣服穿,也就是池子(衣服)不足。
所以希望解決的問題是:固定分發策略和評價指標的情況下,如何優化池子來提升效果。
當然由於池子也是根據我自己的決策買來的,所以問題是要解決:如何優化建設池子(買衣服) 這個策略。畢竟買衣服猶豫的時間往往比穿衣服還要長。
如果能夠有清晰的認知我需要什麼樣的衣服,一定能省很大的功夫。
2. 資料收集,清洗資料
基礎資料建設和清洗。乾淨的資料永遠最重要。
2.1 基礎資料建設
基礎資料:每一件衣服,及其相關屬性。相關屬性是便於後面的統計和下鑽。每件衣服拍照是為了逐個case分析。
如果說這次分析花了我整整一個週末的時間,那80%的工作量都在這裡。
我把衣櫃裡面所有的衣服都抹平,照了照片。打了一些標籤,整理在excel表格裡面。
結合分析的目標,標籤主要根據買衣服決策時考慮的因素,穿衣服時的決策因素,最終這件衣服穿不穿 三方面,打了以下標籤:
type (背心 短袖,睡衣,衛衣,連體褲等),季節 (春秋,夏,冬)
購買時間(學生時代,上班後,一年內),購買渠道(商場,淘寶,別人送的)。顏色(花,灰,條紋…)
特別程度(特別,有點特點,中規中矩),上身頻率(高,中,低,漸低,再也不想穿)
其實還想標更多的,比如和誰一起買的。買的時候主要目的是,買時是否試穿等。但我實在沒體力了,回憶每件衣服都的前世今生是件很疲勞的事情。
2.2 髒資料處理
如果不事先抽一些樣本來看,或者做一些簡單的校驗,很容易被髒資料帶坑裡。他們往往用很小的量和很異常的值,把均值等的指標帶偏。
我剔除了一些衣服。主要有:長輩覺得我適合穿一定要送我,為了特殊的事情買的無法穿第二次,比如演出服 這兩種。這些衣服不是我主動選擇的,暫且不列入分析範圍。
3. 定義指標 進行統計計算
3.1 數量
簡單直觀也是推薦池最重要的指標。終究我們“衣服總是不夠用”的訴求在於數量。
這裡主要採用的對比和細分思維。因為總量肯定是不少的,覺得不夠用一定是集中在某些細分的標籤上。細分和對比,就是要找出這些標籤。
先看一下總量。
這個數量其實我也不知道算多還是少。這就是資料分析裡面一個問題: 很多資料要有個整體平均值 或者對比,才能知道大小。一些資料通過長期觀察這類業務資料,均值和分佈心裡大概有數,看到就可以知道大小。比如移動端feeds廣告的點選率,一般都會在1%+。雲音樂各tab的滲透率等資料,都是提前知曉的。
而我沒有別人衣服數量的資料或者平均值分佈。只能簡單估算一下,99件是衣服和褲子 外衣和內搭,都算上的。
三個季節,每個季節就30件衣服,上半身和下半身均分的話,每個季節變成15身衣服。4個月15身衣服,總量也不算很多吧(心虛的撓頭),至少不是很誇張的多。
對數量指標進行簡單的下鑽和對比-----很簡單也很容易得出結論的方法
夏天衣服最多,冬天衣服最少。和南方的氣候匹配。
看每個資料的時候,我們心裡都會有一個大概預判。比如分季節的資料,看資料之前從氣候可以初步判斷應該是夏天最多。當資料和我們的預期符合的時候,也是對資料準確性的一個驗證。
當出現資料和我們預期不符合時,則需要關注和進一步驗證檢查。
分時間看 近10年買的衣服還是佔絕大多數。新衣服佔33%,也有22%的衣服是7年以前的。還有少數10年以上本科買的衣服。看來我沒胖多少。
使用頻率從低到高的分佈,是左偏的。的確有很多衣服使用頻率很低(不偏好)。應證了自己“總覺得沒有合適衣服”的感受目標是把這個分佈調整到靠右。
商場買的衣服最多,喜歡看中就拿走的爽快。
正式衣服比較少和個人氣質有關。沒什麼正式場合需求。符合預期
各個維度進行一些簡單的cross,有一些進一步的結論
使用頻率偏低的問題,春天衣服最嚴重,喜歡的衣服較少。冬天目前在用的衣服都還比較常穿。
場合cross季節,發現夏天真是個浪漫的季節,假期風情比較多。三個季節正式的衣服各一件,完美且夠用,下次看到偏正式的衣服,可以不用花時間考慮了。
場合cross特別程度。假期 比較特別的衣服偏多,工作日更多中規中矩的衣服。比較合理。
衣服還有不可忽略的一點- 搭配屬性。衣服怎麼配不到一起,也是挑選的一大苦惱。
對上裝/下裝的比例進行分析。除去連衣裙,連體褲這種不需要搭配的。
上下裝配比不合適的地方顯現了:
- 春裝 11.5件上衣配一條褲子
- 下裝百搭的牛仔褲非常少,需要針對性補貨
數量指標的分析,讓我對自己的衣櫥有了更多的瞭解。掌握了哪些品類需要補貨。哪些比較充足。
除了數量,質量非常重要。女生多多少少都在不停買衣服,但是為什麼一直在買衣服,一直還都覺得不夠穿。
重點分析一下再也不想穿的衣服,到底都是什麼樣子的。從失敗經驗中總結教訓。
3.2 淘汰率
定義淘汰率=再也不想穿的衣服/所有衣服
“買來沒怎麼穿過的衣服”是我心中最大的痛。又佔地方 又沒穿 又費錢,還要被說:你看櫃子裡那麼多衣服 怎麼還說沒衣服!
分析一下淘汰率高的衣服有什麼特徵,可以避免踩雷。也在以後買衣服糾結的時候,給自己一些指導。
同樣,維度細分思維,和對比思維。做為主要的手段。
整體淘汰率30%。三分之一的無效衣服,佔比還是比較高的。
分季節看,冬天格外高一些。冬天的衣服雖然使用頻率高的比較多,再也不想穿的也比較多。有一些是需要淘汰掉了。
這裡想討論一個問題。維度非常多,在我們下鑽的時候如何選取。
大規模的資料和高維度情況,我們可以通過機器學習的方法,可以指定淘汰率這個指標,然後算各個特徵的貢獻度。
但是在資料分析中,可解釋性非常重要的,很多資料是為了驗證我們的假設。不需要精準預測、或者去訓練模型。(當然如果用模型,一般還是會看看高貢獻度的特徵,是否符合預期,是否有什麼啟發)
所以在資料分析中,優先選擇下鑽的維度是:最有可能有區分度的,可以驗證一些假設的,或者在場景下有特殊含義的。
比如數量上很多下鑽都按照了“季節”維度去展開。因為季節這個維度是有特殊含義的。春夏秋的衣服不能互穿。所以優先下鑽這個維度,更容易發現一些問題。
而淘汰率這個指標,優先下鑽最有可能有區分度的,也是可以驗證假設的維度:購買時間。
不想穿的衣服,和新舊是否有直接關係呢?如果只是因為已經買很久舊了不想穿,那並不是購買時決策的問題。
淘汰率從高到低依次為,研究生or上班後購買>本科購買>一年內購買。
淘汰率並不是越新的衣服越低。本科衣服的淘汰率低於上班後。這是否代表早期眼光更好呢?需要注意的一點是,衣櫥中本科時候購買的衣服只佔5%。
這裡的原因可以想象:本科買的衣服是十年前的了,能留到現在的,大約都是最喜歡的一批了。如果把本科所有的衣服都留到現在,那淘汰率肯定會大不少。
一年內買的衣服淘汰率是最低的。近期審美坑還是比較少。
所以淘汰率指標中有一個不太公平的地方:近一年買的衣服 淘汰率明顯低。
那麼如果有一類衣服淘汰率低,不一定是因為我的決策英明眼光獨到,也有可能是因為近期買的多,一年內的衣服佔比重大。
那麼前面看到的,夏天衣服淘汰率低,是因為夏天衣服一年內買的多嗎?
cross季節和購買時間來看。
可以看到夏天在一年內和一年之前購買的衣服上的淘汰率 都比春秋要低。而且一年內的格外低。
考慮到夏天短袖居多,不容易踩坑。
值得注意的是冬裝。一年內購買的淘汰率比一年之前要高。冬裝現役雖然有一些使用頻率很高的。但近期買的,完全不想穿的概率也較高。近期需要理性購物。
購買渠道也是一個重要的維度。近期網購的比重越來越大。
但是比較鬧心的是,網購的衣服,淘汰率居然比別人送的還高。
風格維度來看
更特立獨行的衣服 更容易被淘汰 。中規中矩的衣服相對安全,符合常理。
尤其是春天特別的款式,需要謹慎,淘汰率逆天。夏天花樣多點問題不大。
4.典型的case具體分析
有哪些維度失敗率比較高,有了一個大體瞭解之後。為了進一步把badcase印在心裡,吃一塹長一智。
我對再也不想穿的衣服,具體是怎麼回事兒做了原因標記。採用溯源思維。並一一例舉解決方案
5.輸出結論:買衣服策略
綜上,這個週末總結出以下幾條策略
- 非常需要牛仔長褲;
- 去商場裡面,試穿買冬天的衣服。冬天的衣服一直是一些比較舊的在穿,壞了就完了有風險;
- 夏天的衣服充足且個人滿意度高。可以暫緩購買;可以偶爾網購錦上添花;
- 春裝不要買花裡胡哨的。買來基本沒在穿;
- 網購來了不合適的衣服果斷退貨。網購不好看為淘汰原因第一名;
6 隨著決策變化,持續觀察資料
不做分散的資料,要做分析體系。是非常重要的一點。
分析中能發現問題的指標沉澱下來。變成觀察業務情況,以及策略所的產生變化是至關重要的。
當step6的各項措施被執行後更新原始資料,觀察指標變化。及時調整方向,才是保持衣櫃“生態健康”的關鍵。
但是時間有限,對於原始資料收集錄入這塊我有點崩潰。希望能堅持下去吧。
最後
總結一下本文遇到的資料分析方法和要點:
- 需要對問題進行梳理和定義。
- 設定關鍵指標。
- 乾淨的基礎資料至關重要。
- 對關鍵指標進行下鑽和對比分析,方法雖簡單但可以得到不少結論。
- 可以設定一些假設加以驗證。
- 要注意指標是否公平,如果指標存在一些天然偏差,記得分桶分析。
- 分析badcase是制定策略的利器。
- 避免一次性工作,長期觀察構成分析體系。
謝謝你看到這裡,我去收拾一百多件衣服了。
本文釋出自網易雲音樂技術團隊,文章未經授權禁止任何形式的轉載。我們常年招收各類技術崗位,如果你準備換工作,又恰好喜歡雲音樂,那就加入我們 staff.musicrecruit@service.ne... 。