曹政：資料分析這點事

caoz的和諧blog發表於2013-04-17

　　先宣告一下，按照傳統的定義，我還真不是資料分析高手，各種關聯演算法，只會最簡單的一種（話說不少場合還算管用）；各種挖掘技術，基本上一竅不通；各種牛逼的資料分析工具，除了最簡單的幾個免費統計平臺之外，基本上一個都不會用。所以，各種高手高高手請隨意BS，或自行忽略。這裡說點高手不說的。

　　從微博段子說起，微博上關於資料分析有兩個段子，我經常當作案例講，第一個段子，說某投資商對某企業所屬行業有興趣，要做背景調查，甲是技術流，一週分析各種網上資料，四處尋找行業材料，天天熬夜，終於寫出一份報告；乙是人脈流，和對方高管喝了次酒，請對方核心人員吃了頓飯，所有內幕資料全搞定，問誰的方法是對的；第二個段子，某電商發現競爭對手淘寶店，周收入突然下降了30%，但是隔週後又自然恢復，中間毫無其他異常現象，於是老闆讓分析師分析，苦逼的分析師辛苦數日，做各種數學模型，總算找到勉強的理由自圓其說，老闆讀畢，雖說不能讓人信服，卻也沒有更合理的解釋，某日，見對手老闆，閒聊此事，“你們某段時間怎麼突然收入下降？”“嗨，別提了，丈母孃去世了，回家奔喪，公司放羊了。”老闆恍然大悟。

　　兩個段子，第一個段子，微博上一邊倒的說，苦逼分析沒有人脈有用；第二個段子類似，一邊倒的認為，人脈的訊息比苦逼分析管用多了。但是我想說的是，這個解讀絕對是錯的！

　　先說第一個段子，其實網路不乏這種“人脈達人”，特別是媒體圈，一些所謂的“IT名記”或者“著名評論家、分析師”和各種網際網路大佬稱兄道弟，天天祕聞不斷，但是呢？他們從不研究產品，不分析使用者，所以，他們知道了資料，卻不懂資料背後是什麼，更不知道什麼是重要的，什麼是次要的，我有時會批評身邊這樣的朋友，別天天覺得自己知道幾個網際網路大佬的花邊新聞，就當自己是資深業內人士了，正因為掌握這些東西又覺得炫耀，才反而忽視了真正有價值的資訊和有價值的資料。這就是為什麼混網路媒體的，見過市面的各種達人，在網際網路創業浪潮裡，幾乎沒有成功機率的真實原因，自以為人脈廣泛，無所不知，其實正因為缺乏最基本的資料背景分析，所以才是看上去什麼都懂，細究下其實什麼都不懂。請記住一點，除非你是富二代，官二代，銜著金鑰匙出生，那不在我的討論範圍裡，否則，沒有苦逼的經歷，就沒有牛逼的成就。

　　我常訂閱一些著名分析師的微博，他們透露的資料往往是很有價值的（這是我訂閱的原因），但是他們的解讀通常是慘不忍睹的，這就是隻看錶象的惡果，而且隨便翻看一下他們的資料解讀，可以說他們的資料感和資料認知貧乏到可笑，甚至缺乏最基本的資料校核和考證的能力，他們拿到了某公司核心資料又怎樣？沒經歷過苦逼的分析，他們其實什麼都看不到。

　　第二個段子同理，如果不是持續有效的資料跟蹤，怎麼能得出下降30%的結論，這一資料結論與人脈得到的訊息相互驗證，才會得到完整真實的結果，否則僅僅是閒聊，你怎能知道對方企業管理對業績影響的範疇，苦逼的分析也許一時沒有人脈的訊息管用，但是你所得到的對資料的認知和積累，是人脈永遠不會給你的。

　　所以，再次強調，基本的資料跟蹤和日常的資料感養成，絕不是可以忽略和無視的。人脈情報可以成為資料解讀重要的資訊來源，但是絕不能喧賓奪主，替代基本的資料分析工作。

　　下面說一下資料感，什麼是資料感？就是別人說一個資料出來，你會琢磨一下這個是否符合常理，與你日常的資料觀測經驗是否一致，如果不一致，那麼可能的理由是哪些？比如12306號稱一天幾十億次點選，如果你有資料感，第一眼就會質疑這個“點選”定義的合理性；比如曾經有人說某國內圖片分享網站一天多少億訪問量，第一眼就知道這個“訪問量”定義是有歧義的，（事後官方解釋是圖片載入量，這個和訪問量差異幾十倍。）資料感需要不斷的培養，和基本的邏輯（比如你應該知道中國有多少網民，每天有多少人上網，一個大概什麼型別，什麼排名的網站會覆蓋網民的比例是多少），以及善於利用各種工具，我以前在巨頭公司，得益於公司巨大的資料資源，可以看到很多網際網路的核心資料；但是離開後，才發現，其實網際網路上公開可獲取的資料途徑是非常多的，而且善於利用的話非常有效。每天去查詢一些感興趣的資料，經過一段時間積累，想沒有資料感都難。

　　作為公司或團隊負責人，怎麼培養員工的資料感，我其實也有一個建議，平時可以搞一些小的競猜，比如團隊集體競猜新產品或產品改版上線後的日活躍使用者，或者pv數字，或者收入資料，等等；然後看誰的最準，一種是懲罰制，最不準的請最準的喝奶茶，吃冰淇淋；另一種不懲罰，最準的累計積分後公司可以發一些獎品鼓勵，這樣下去大家的資料感就會在日常培養起來，而且對團隊的氣氛培養也有幫助。

　　資料感之後，談資料分析的方法，我的建議是，不炫技，不苛求技術複雜度，最簡單的資料，所包含的資訊往往是最有價值的，而很多人恰恰這一步都沒做好，就總想著弄一堆挖掘演算法；資料的價值在於正確的解讀，而不是處理演算法的複雜度，切不可喧賓奪主。大公司的kpi制度，往往會產生偏差，比如技術工程師的評定，要講究“技術複雜度”、“技術領先性”，直接導致簡單的事情沒人肯做，最基本的工作不認真做！所以往往是大公司的分析工程師，為了評高階工程師，非要簡單問題複雜化，四則運算就搞定的事情一定要弄一套詭異的演算法，最終非但浪費了資源，消耗了時間，而且往往由於工程師對業務理解的漠視，對應的產品人員又對演算法的陌生，導致了嚴重的理解歧義，從而出現各種誤讀。

　　下面說關鍵，資料解讀，正確的資料解讀，是所有資料分析工作最關鍵的一步，這一步錯了，前面的所有努力都是白搭，然後，往往很多人簡單的以為“資料會說話”，他們認為把資料處理完一擺就ok了，所以我看到很多知名分析師拿著正確的資料信口胡謅；而更有甚者，顯然是故意的行為，一個非常非常著名的、口碑極佳的跨國企業，曾經就同一份很酷的資料，在不同的場合下，為了市場公關的需求，做出不同的解讀；這簡直就是道德問題了。

　　資料解讀，不能是為了迎合誰，要遵循資料的本質，要遵循科學的邏輯，要有想象力（配合求證），可能有時候也需要依賴人脈關係所獲得的情報，（這個也有很多典型範例），這個具體再怎麼說可能我也說不清楚，說幾個反面例子也許更容易理解。

　　1、因果關聯錯誤，或忽略關鍵因素，A和B的資料高度相關，有人就片面認為A影響了B，或者B影響了A；但是，有時候真實原因是C同時影響了A和B，有時候C被忽略掉了。

　　2、忽略沉默的大多數，特別是網上投票，調查，極易產生這種偏差，參與者往往有一定的共同訴求，而未參與者往往才是主流使用者。

　　3、資料定義錯誤，或理解歧義，在技術與市場、產品人員溝通中產生資訊歧義，直接導致所處理的資料和所需求的資料有偏差，結果顯著不正確。

　　4、強行匹配；不同公司，不同領域的資料定義可能不一致，在同一個公司內或領域內做對比，往往沒有問題，大家對此都很習慣，卻有評論家不懂裝懂，強行將不同定義的資料放在一起對比做結論，顯著失真；海外著名金融機構在分析中國頁遊和端遊市場就連續犯這類錯誤。

　　5、忽略前提；有些資料結論是基於某種前提，符合某種特定場景下得出的，但是解讀者有意或無意忽略前提，將結論擴大化，顯著誤讀。

　　6、忽略互動；在商業模式改造和產品改進，往往都會出這類問題，最簡單說，你遊戲中的道具降價，對收入的影響是增還是減？如果忽略互動，僅僅依賴於資料推算，當然是減，但是實際呢？做運營的都知道。

　　7、缺乏常識；如果對一些重要的紀念日，節日，或者網購節不瞭解，那去處理有關資料顯然就不知所云了。做行業報告更是如此，很難想像對行業不瞭解的人能做出怎樣的報告。

　　8、無視樣本偏差；我們通常做資料調研，是基於樣本資料，而取樣過程本身很難做到完全的公平和分散，樣本偏差要控制在合理範疇內，即便無法控制，在結論中也需要標註；這才是嚴謹的資料解讀，對樣本偏差視而不見，甚至為了某種宣傳目的刻意尋找偏差的樣本，都不可能做出好的資料結論。

　　那麼，資料處理也多說一點，雖說是個技術活，但是有些不那麼技術的事情，也必須做到位才行；很多時候，我看到一個資料，不符合我的預期，我第一反應，是瞭解資料來源和處理邏輯，我們通常面對的資料，包括大量的干擾，噪音資料，以及一些識別上容易產生歧義甚至誤判的資料，這都是需要處理的，很多時候工程師只關心演算法層面、效率層面，不願意也不關心這些東西，所得出的資料結論失真度就非常高，越是大公司，這種情況越普遍；在我效力的巨頭公司時，這樣的範例非常多，處理方法其實很簡單，多看看源資料，對中間的噪音和干擾資料正確識別標註，對容易誤判的資料進行二次判定，全是苦力活，沒啥技術含量，但是這是必須的。

　　最後，很多人想知道我怎麼看資料，或者想問我，他們每天看很多資料，不知道怎麼去看，我其實有很簡單的三板斧，一學就會，一用就靈，對常見的資料場景，可解決絕大部分日常需求。簡單說就是“對比，細分，溯源” 六字真言，沒了。

　　對比，資料放在那裡，是沒意義的，你說你遊戲周流失率80%，啥情況？不知道，你問我我也不知道。對比起來才知道。

　　一是橫比，你拿出50款遊戲來比，別人平均流失率90%，你80%，你遊戲還不錯勒，別人要平均流失65%，你80%，這就有問題了。

　　二是縱比，和自己時間軸比，你兩個月前1.0版本流失率90%，你現在80%，有進步麼，你要是兩個月前是50%，現在80%，好好反思嘍。

　　所以，我特別強調，在通常企業資料監控，顯示一大屏資料的介面上，對位元徵要最大體現，比如所有同比下降超過多少比例的一概紅色體現，所有上升多少比例的一概綠色體現，公司運營狀況一目瞭然。

　　細分，資料出現對比異常，你當然想知道原因，那就需要細分了。

　　細分先分維度，再分粒度，什麼是維度？你按照時間去分，就是時間維度，按照地區去分，就是地區維度，按照來路去分，就是來路維度，按照受訪去分，就是受訪維度；你說今天網站訪問量漲了5%，咋回事不知道，你細分一看，大部分網頁都沒漲，某個頻道某個活動頁漲了300%，這就清楚了，這就是細分最簡單的範例，其實很多領域都通用。粒度是什麼，你時間維度，是按照天，還是按照小時？這就是粒度差異，你來路維度，是來路的網站，還是來路的url，這就是粒度的差異；這樣可以將對比的差異值逐級鎖定，尋找原因。

　　溯源，有時候我對比，細分鎖定到具體維度，具體粒度了，依然沒有結論，怎麼辦，溯源，依據鎖定的這個維度和粒度作為搜尋條件，查詢所涉及的源日誌，源記錄，然後基於此分析和反思使用者的行為，往往會有驚人的發現，我們正是基於這一邏輯發現過產品的一些缺陷，而且你不斷通過這個方式分析資料，對使用者行為的理解也會逐步加深。

　　其實，這個話題還有很多延伸，比如，如何看一個年輕人有沒有資料分析潛質；以及如何培養資料分析和產品分析人才，等等，不過，就這樣吧。今天說的不少了，我水平有限，吃飯的就這幾招，而且又老又笨，大家都會了我離下崗也不遠了，您就湊活看吧。

談談遊戲資料分析的那點事
2019-12-12
遊戲
資料採集與分析的那些事——從資料埋點到AB測試
2018-10-09
資料埋點測試的那點事
2019-01-15
[資料庫]--Transaction那點事兒
2019-01-07
資料庫
淺談“政務網際網路+”&“政務大資料”
2018-03-17
大資料
APP註冊這點事兒
2016-03-30
APP
曹政資訊保安課筆記-常見資訊保安的常識錯誤
2018-05-29
筆記
BI資料分析系統運營要注意這4個要點
2019-05-05
零售資料分析報表這樣做，老闆狂點贊！
2023-10-12
選擇“大資料” 分析平臺時需要注意這幾點
2013-10-03
大資料
【MySQL】資料庫事務深入分析
2019-09-16
MySql資料庫
Event Loop 其實也就這點事
2018-09-02
OOP
跨域就這麼點事兒
2018-07-13
跨域
PHP的模板引擎這點事兒
2015-06-16
PHP
055、韋諷錄事宅觀曹將軍畫馬圖
2024-11-08
資料分析軟體選型看這5點，拯救選擇困難症患者！
2021-12-28
《全國一體化政務大資料體系建設指南》之資料安全產業影響分析和思考
2022-11-07
大資料產業
tiktok實時熱點資料分析
2021-09-26
空間統計之點資料分析
2016-03-02
資料庫事務隔離級別分析----轉載
2017-05-09
資料庫
案例｜政務大資料平臺資料安全建設實踐
2023-02-28
大資料
師兄大廠面試遇到這條 SQL 資料分析題，差點含淚而歸！
2020-07-08
面試SQL
最強盤點！國產資料分析BI工具怎麼選？看這篇就夠了
2021-02-20
如何進行大資料分析，這“四大技術”是關鍵_光點科技
2022-12-07
大資料
一份優秀的資料分析報告應該具備這些要點！
2022-03-03
寧要曹縣一張床，不要深圳一套房！資料解讀曹縣為啥如此666？
2021-07-20
多位資料庫專揀點評這本書
2010-07-28
資料庫
華為領跑中國政務大資料市場
2019-03-11
大資料
曹老道聊大資料雲端計算時代的DBA破繭
2020-12-29
大資料
混合事務分析處理“HTAP”的技術要點分析
2019-09-24
盤點十大奇葩大資料分析
2018-07-16
大資料
3節點RAC資料庫夯故障分析
2024-01-22
資料庫
Spring Boot與多資料來源那點事兒~
2020-10-22
Spring Boot
大資料時代事業單位利用資料分析提高工作效率
2018-05-15
大資料
MS SQL Server資料庫事務鎖機制分析(轉)
2019-05-28
SQLServer資料庫
Python可以從事資料分析領域的工作嗎？
2021-11-22
Python
選擇“大資料”分析平臺時的注意事項
2013-10-02
大資料
分析資料庫的事務隔離級別在資料庫選型分析的時候很重要
2022-09-02
資料庫

曹政：資料分析這點事

相關文章