資料分析在生活中的應用- 女人的衣櫃裡為什麼總是少一件衣服

作者：emma

0. 引言

每天早上醒來，眼睛一睜開就面臨一個難題：今天穿什麼？這時候腦海裡往往會冒出很多選項，卻都不能令我滿意，糾結中經常想著想著就又睡著了。20分鐘後發現睡過了驚醒，抓起文化衫和短褲套上就走，匆忙中身上還滴上了牙膏。

於是在同事眼中，我一直是個不修邊幅的女程式設計師，我也的確沒讓大家失望，經常以文化衫拖鞋的形象出現，自詡反正都嫁人了，穿了給你們看沒意思。

但是每天的早上我卻從未輕言放棄，依舊會去想：今天穿什麼？這個問題。彷彿是一個我永遠解決不了，卻又不甘心繞過去的問題。

如何解決

資料分析和推薦做多了，看到什麼都有了收集資料來解決問題的衝動。於是有了這個開腦洞的想法：用資料分析解決每天早上起床困擾我的事情，讓我能夠開心自信的去上班。

我梳理了工作上用資料解決問題的整體流程：

定義清楚需要解決的問題。
資料收集，清洗資料。
定義指標並進行統計計算。
對指標進行細分和下鑽對比，觀察資料得出結論。
拿出一些典型的case具體分析。
通過4和5的結論，優化策略。
使用優化後的策略，持續觀察4中定義的指標。

中間還會存在很多細節問題，比如指標是否符合預期，遇到問題的假設和驗證。

寫出來，貼牆上，行動。每次開坑都有一種興奮和緊張並存的複雜情感。

資料分析就是這樣刺激的事情，腦海中會湧現出很多靈感。需要把他們梳理好，否則很容易中途跑偏。
不看到資料的時候，永遠不知道有什麼結論。跑出來的資料是否和自己的期待一樣？如果不一樣會是什麼原因？不一樣的話又要做何種假設和驗證？

結果有時候興奮，也經常避免不了失落。最怕的不是結論不符合預期，而是搜尋了半天沒有發現什麼有用的結論。只能接受暫時沒有結論也是一種結論。把這些資料放在心裡，也許哪天又有什麼靈感去用。

真是一項邏輯理智和靈感碰撞的工作！

1. 定義清楚需要解決的問題

其實我並不是沒有衣服，雖然算不上多的要命，但也塞滿了半個衣櫃。曾經剛剛開始自己賺錢的時候，也“揮霍”買了不少淘寶爆款。但是沒有衣服穿的感覺貌似從來沒有消失過。

梳理一下：

我對目前可選擇的衣服經常覺得不滿意
我不知道如何去買，似乎一直在買卻還是不夠

從推薦策略的角度，可以認為衣櫃就是我們的候選池子。生活中的各種場合，各種季節代表不同特徵使用者（其實都是我，在不同情況下百變的我！）的需求。

如 (工作日，上班，春天，下班想去運動，希望簡單明快，前幾天穿過的序列（xxxxx），髒了洗了的序列（xxxxx）) 或者（週末，帶孩子去公園，夏天，會跑跑跳跳拍照，希望方便行動上相，…..）
推薦效果：個人感受，糾結很久or覺得衣服不夠。說明效果有待提高。

這裡選擇衣服策略和評價指標-個人感受是否合心意，都相對主觀，較難量化，畢竟女人如此複雜我自己都搞不懂自己。

且我們每次對自己的穿搭不滿意都會覺得是因為沒有衣服穿，也就是池子（衣服）不足。
所以希望解決的問題是：固定分發策略和評價指標的情況下，如何優化池子來提升效果。
當然由於池子也是根據我自己的決策買來的，所以問題是要解決：如何優化建設池子（買衣服）這個策略。畢竟買衣服猶豫的時間往往比穿衣服還要長。
如果能夠有清晰的認知我需要什麼樣的衣服，一定能省很大的功夫。

2. 資料收集，清洗資料

基礎資料建設和清洗。乾淨的資料永遠最重要。

2.1 基礎資料建設

基礎資料：每一件衣服，及其相關屬性。相關屬性是便於後面的統計和下鑽。每件衣服拍照是為了逐個case分析。
如果說這次分析花了我整整一個週末的時間，那80%的工作量都在這裡。
我把衣櫃裡面所有的衣服都抹平，照了照片。打了一些標籤，整理在excel表格裡面。

結合分析的目標，標籤主要根據買衣服決策時考慮的因素，穿衣服時的決策因素，最終這件衣服穿不穿三方面，打了以下標籤：
type （背心短袖，睡衣，衛衣，連體褲等），季節（春秋，夏，冬）
購買時間（學生時代，上班後，一年內），購買渠道（商場，淘寶，別人送的）。顏色（花，灰，條紋…）
特別程度(特別，有點特點，中規中矩)，上身頻率（高，中，低，漸低，再也不想穿）
其實還想標更多的，比如和誰一起買的。買的時候主要目的是，買時是否試穿等。但我實在沒體力了，回憶每件衣服都的前世今生是件很疲勞的事情。

2.2 髒資料處理

如果不事先抽一些樣本來看，或者做一些簡單的校驗，很容易被髒資料帶坑裡。他們往往用很小的量和很異常的值，把均值等的指標帶偏。
我剔除了一些衣服。主要有：長輩覺得我適合穿一定要送我，為了特殊的事情買的無法穿第二次，比如演出服這兩種。這些衣服不是我主動選擇的，暫且不列入分析範圍。

3. 定義指標進行統計計算

3.1 數量

簡單直觀也是推薦池最重要的指標。終究我們“衣服總是不夠用”的訴求在於數量。
這裡主要採用的對比和細分思維。因為總量肯定是不少的，覺得不夠用一定是集中在某些細分的標籤上。細分和對比，就是要找出這些標籤。
先看一下總量。

這個數量其實我也不知道算多還是少。這就是資料分析裡面一個問題: 很多資料要有個整體平均值或者對比，才能知道大小。一些資料通過長期觀察這類業務資料，均值和分佈心裡大概有數，看到就可以知道大小。比如移動端feeds廣告的點選率，一般都會在1%+。雲音樂各tab的滲透率等資料，都是提前知曉的。
而我沒有別人衣服數量的資料或者平均值分佈。只能簡單估算一下，99件是衣服和褲子外衣和內搭，都算上的。
三個季節，每個季節就30件衣服，上半身和下半身均分的話，每個季節變成15身衣服。4個月15身衣服，總量也不算很多吧（心虛的撓頭），至少不是很誇張的多。

對數量指標進行簡單的下鑽和對比-----很簡單也很容易得出結論的方法

夏天衣服最多，冬天衣服最少。和南方的氣候匹配。
看每個資料的時候，我們心裡都會有一個大概預判。比如分季節的資料，看資料之前從氣候可以初步判斷應該是夏天最多。當資料和我們的預期符合的時候，也是對資料準確性的一個驗證。
當出現資料和我們預期不符合時，則需要關注和進一步驗證檢查。

分時間看近10年買的衣服還是佔絕大多數。新衣服佔33%，也有22%的衣服是7年以前的。還有少數10年以上本科買的衣服。看來我沒胖多少。

使用頻率從低到高的分佈，是左偏的。的確有很多衣服使用頻率很低（不偏好）。應證了自己“總覺得沒有合適衣服”的感受目標是把這個分佈調整到靠右。

商場買的衣服最多，喜歡看中就拿走的爽快。

正式衣服比較少和個人氣質有關。沒什麼正式場合需求。符合預期

各個維度進行一些簡單的cross，有一些進一步的結論

使用頻率偏低的問題，春天衣服最嚴重，喜歡的衣服較少。冬天目前在用的衣服都還比較常穿。

場合cross季節，發現夏天真是個浪漫的季節，假期風情比較多。三個季節正式的衣服各一件，完美且夠用，下次看到偏正式的衣服，可以不用花時間考慮了。

場合cross特別程度。假期比較特別的衣服偏多，工作日更多中規中矩的衣服。比較合理。

衣服還有不可忽略的一點- 搭配屬性。衣服怎麼配不到一起，也是挑選的一大苦惱。
對上裝/下裝的比例進行分析。除去連衣裙，連體褲這種不需要搭配的。

上下裝配比不合適的地方顯現了：

春裝 11.5件上衣配一條褲子
下裝百搭的牛仔褲非常少，需要針對性補貨

數量指標的分析，讓我對自己的衣櫥有了更多的瞭解。掌握了哪些品類需要補貨。哪些比較充足。

除了數量，質量非常重要。女生多多少少都在不停買衣服，但是為什麼一直在買衣服，一直還都覺得不夠穿。

重點分析一下再也不想穿的衣服，到底都是什麼樣子的。從失敗經驗中總結教訓。

3.2 淘汰率

定義淘汰率=再也不想穿的衣服/所有衣服

“買來沒怎麼穿過的衣服”是我心中最大的痛。又佔地方又沒穿又費錢，還要被說：你看櫃子裡那麼多衣服怎麼還說沒衣服！

分析一下淘汰率高的衣服有什麼特徵，可以避免踩雷。也在以後買衣服糾結的時候，給自己一些指導。
同樣，維度細分思維，和對比思維。做為主要的手段。
整體淘汰率30%。三分之一的無效衣服，佔比還是比較高的。

分季節看，冬天格外高一些。冬天的衣服雖然使用頻率高的比較多，再也不想穿的也比較多。有一些是需要淘汰掉了。

這裡想討論一個問題。維度非常多，在我們下鑽的時候如何選取。

大規模的資料和高維度情況，我們可以通過機器學習的方法，可以指定淘汰率這個指標，然後算各個特徵的貢獻度。

但是在資料分析中，可解釋性非常重要的，很多資料是為了驗證我們的假設。不需要精準預測、或者去訓練模型。（當然如果用模型，一般還是會看看高貢獻度的特徵，是否符合預期，是否有什麼啟發）

所以在資料分析中，優先選擇下鑽的維度是：最有可能有區分度的，可以驗證一些假設的，或者在場景下有特殊含義的。

比如數量上很多下鑽都按照了“季節”維度去展開。因為季節這個維度是有特殊含義的。春夏秋的衣服不能互穿。所以優先下鑽這個維度，更容易發現一些問題。

而淘汰率這個指標，優先下鑽最有可能有區分度的，也是可以驗證假設的維度：購買時間。
不想穿的衣服，和新舊是否有直接關係呢？如果只是因為已經買很久舊了不想穿，那並不是購買時決策的問題。

淘汰率從高到低依次為，研究生or上班後購買>本科購買>一年內購買。

淘汰率並不是越新的衣服越低。本科衣服的淘汰率低於上班後。這是否代表早期眼光更好呢？需要注意的一點是，衣櫥中本科時候購買的衣服只佔5%。

這裡的原因可以想象：本科買的衣服是十年前的了，能留到現在的，大約都是最喜歡的一批了。如果把本科所有的衣服都留到現在，那淘汰率肯定會大不少。

一年內買的衣服淘汰率是最低的。近期審美坑還是比較少。

所以淘汰率指標中有一個不太公平的地方：近一年買的衣服淘汰率明顯低。

那麼如果有一類衣服淘汰率低，不一定是因為我的決策英明眼光獨到，也有可能是因為近期買的多，一年內的衣服佔比重大。

那麼前面看到的，夏天衣服淘汰率低，是因為夏天衣服一年內買的多嗎？

cross季節和購買時間來看。

可以看到夏天在一年內和一年之前購買的衣服上的淘汰率都比春秋要低。而且一年內的格外低。
考慮到夏天短袖居多，不容易踩坑。

值得注意的是冬裝。一年內購買的淘汰率比一年之前要高。冬裝現役雖然有一些使用頻率很高的。但近期買的，完全不想穿的概率也較高。近期需要理性購物。

購買渠道也是一個重要的維度。近期網購的比重越來越大。

但是比較鬧心的是，網購的衣服，淘汰率居然比別人送的還高。

風格維度來看

更特立獨行的衣服更容易被淘汰。中規中矩的衣服相對安全，符合常理。
尤其是春天特別的款式，需要謹慎，淘汰率逆天。夏天花樣多點問題不大。

4.典型的case具體分析

有哪些維度失敗率比較高，有了一個大體瞭解之後。為了進一步把badcase印在心裡，吃一塹長一智。
我對再也不想穿的衣服，具體是怎麼回事兒做了原因標記。採用溯源思維。並一一例舉解決方案

5.輸出結論：買衣服策略

綜上，這個週末總結出以下幾條策略

非常需要牛仔長褲；
去商場裡面，試穿買冬天的衣服。冬天的衣服一直是一些比較舊的在穿，壞了就完了有風險；
夏天的衣服充足且個人滿意度高。可以暫緩購買；可以偶爾網購錦上添花；
春裝不要買花裡胡哨的。買來基本沒在穿；
網購來了不合適的衣服果斷退貨。網購不好看為淘汰原因第一名；

6 隨著決策變化，持續觀察資料

不做分散的資料，要做分析體系。是非常重要的一點。

分析中能發現問題的指標沉澱下來。變成觀察業務情況，以及策略所的產生變化是至關重要的。

當step6的各項措施被執行後更新原始資料，觀察指標變化。及時調整方向，才是保持衣櫃“生態健康”的關鍵。

但是時間有限，對於原始資料收集錄入這塊我有點崩潰。希望能堅持下去吧。

最後

總結一下本文遇到的資料分析方法和要點：

需要對問題進行梳理和定義。
設定關鍵指標。
乾淨的基礎資料至關重要。
對關鍵指標進行下鑽和對比分析，方法雖簡單但可以得到不少結論。
可以設定一些假設加以驗證。
要注意指標是否公平，如果指標存在一些天然偏差，記得分桶分析。
分析badcase是制定策略的利器。
避免一次性工作，長期觀察構成分析體系。

謝謝你看到這裡，我去收拾一百多件衣服了。

本文釋出自網易雲音樂技術團隊，文章未經授權禁止任何形式的轉載。我們常年招收各類技術崗位，如果你準備換工作，又恰好喜歡雲音樂，那就加入我們 staff.musicrecruit@service.ne... 。