自從大資料這個詞出來以後,資料已經成為一個非常明確的科學領域。在這當中很少有人詳細地探討資料科學的結構和它面臨的問題,包括我們行業面臨的問題。

資料科學有三個非常重要的層次:資料的獲取、資料的描述和資料的分析,這三件事是不同的,不要把它混淆了。

1.資料的獲取

d63bc4145151b5fdfd1a7e0b97b5c578

以前資料的稀缺導致行業內出現非常大的非良性迴圈。

c4963ba44c4c31de31bd57c170fc8cbb6223fbf14e8c4f9dd162bb29a16976c5

在這個過程當中,又正好趕上了一個新的時代——機器化資料橫空出世,突然之間,甚至一夜之間資料不再稀缺了。單靠獲得資料,你能拿到高額利潤的可能性微乎其微,這樣就必然導致執行公司如果要繼續作弊必死無疑,未來五年內我們可以清楚的看到,研究公司不好好做研究,也照樣是必死無疑,無論你是國際的,還是國內的,因為時代變了。所以資料獲取這一塊,要有非常清醒的認識。

3d5b02ddd89ccf73b4f42379ff8c474d

在這個時候大資料,正常的講叫機器化資料已經被神話,而市場研究公司被積壓在這裡,市場研究資料的結構化,它必須滿足兩個條件,一是真的,二是價格是低的,這兩件事造成的後果是什麼,我相信業內的所有公司都會有體會。

2f5ffade02f4e16c95ebed9b3f74be4b

2.資料的描述

再看資料的描述,由於整個社會大環境巨大的變化,在描述環節上出現了非常大的問題,這個問題中你會發現形成了新的、不同的非良性迴圈。為什麼?資料不稀缺了。而在這個時候,機器化資料出來的東西做點頻率表,做點互動表很簡單。如果資料描述能夠替代資料分析,這個世界一定會毀掉,因為資料想騙人太容易了。

e01aa02ca9964c4d545a84c0d9b96354

接下來的過程當中,機器化資料由於資料收集簡單,整理資料的過程非常容易。所以直接面向銷售,這個面向銷售就出現了充滿荊棘的歷程。

a754dfcb48e392294d773dd2062cad69
再看研究公司的結構化資料,大型公司由於沒有應對,我在行業這麼多年,一直在這些時期,有機會就在呼籲洞察這個詞。實際上我們的研究員正在日益變成填數工具,而不是洞察。資料不再稀缺,你在機器化資料面前,你填數的過程當中,資料的真假還在存疑,這時候你不敗誰敗,必然敗。而且別忘了機器化資料的成本趨近於零,所以大中型研究公司的解體、兼併、重組在不遠的將來一定會頻現,這是沒有辦法的趨勢。

3f4b2040b8a8fa633d44af4902d6217c

現在資料科學有七大危險趨勢:

90d2c0804272d3566cb1c2d2a19a0246
e6f5481b9ff6439e46a5dd65777ae6c3
dc011468b7b7b7d3e35e2b8b00d1da12
1b49ad82be7a9988ee40a0431ebfb252
1ff69ae3490d9c96dc3db086e58b2a87
::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::13
d4a1917de036927e632304e5ddb5f9fe

3.資料的分析

以上七個危險趨勢將直接導致資料分析中的危險,什麼是資料分析?我先從最簡單的案例說起。

案例一:簡單表格的危險

7ac5b8955e8e7d026d8efb4cc3e349e1f147eacd6146ae9f2d4a34ae6bc27ad5

這個資料的結果,意味著什麼?老年人比年輕人更喜歡這個東西。實際的結果呢?老年人和年輕人沒有任何差異。高低文化之間有差別嗎?所有的結果都顯示高文化程度的比低文化程度的人更喜歡,總體上它就是相同的。

再看一個更加實際的案例。我們知道房價是怎麼算的,房價是加權算術平均數。現在看一看房價,房子的均價跟房子的成交價格沒有關係,跟銷售結構有關係。所以在這個時候,房價的均價大約是這樣的,我告訴大家房價在下一個季度全面上漲10%,但是銷售結構略微有一點變化。房價下跌2.63%,大看清楚定價了嗎?任何一個地方都上漲了10%,接下來銷售結構一定會再變,房價又漲了10%,房價又下跌了,但是統計數字會告訴你下跌4%。

9545d266839b9e2b3343c4c76441b65c
6ec07c8e8224b0f09bfc645de0f5ed29
c569df4780be993a36903dc797fd3465

案例二:無關轉相關係列

976c6e63e1e27ba8ff0e10f54afea84c
acb121baaa2341bf569a43eae4e2bc21
f8a7b21627c562d62e7834f8afeb48bc
這是我1998年獲寶潔論文獎的時候得到的模型,表面上一大堆無差別、無差異的情況,導致了什麼情況呢?看起來沒有差異,一個是男的比女的喜歡,一個是女的比男的喜歡,整體上沒有差異。但是差別大嗎?規律性強嗎?

案例三:建模預測

ff3f346ddeef2ae2bde588ce84901d97

<strong>我們在2011年用的詞叫蘋果熟透了,蘋果在一個領域發展。2012年我在網際網路大會上,在我們這個會場上我都說過華為將崛起。2013年我說過三星必然下滑,去年2014年也是一樣的,這兩個大會我都說過小米將面臨問題,我不是神,但是模型能。2015年什麼情況?我不想對任何一個品牌現在來說,大家關注我們要釋出的手機人報告,那個時候我再開會,會詳細地把這個結果告訴大家。

我讓大家看一個結果,模型的基點預測點是這張圖:

2ff67b81de8b7dff697c4ddba88f208b

這個模型你能不能做出來?我一直在說,中國調查業從來不缺資料,從來不缺所謂的描述,只缺分析。如果被這些網際網路公司,被碼農牽著走,那不是笑話嗎?他們能代表中國的分析能力嗎?中國的分析能力不是他們,而一定是我們。

4.小結

41ba64462aab5df82501948fda1dcac0a4f6a9e79afc09cf209351618be215b5
cc00a011ff4a50651102e4eb91a79236
69dd0c403639a9acf9dd7f643e2e3bb5