資料科學的整合與細分

DinK發表於2015-11-10

自從大資料這個詞出來以後，資料已經成為一個非常明確的科學領域。在這當中很少有人詳細地探討資料科學的結構和它面臨的問題，包括我們行業面臨的問題。

資料科學有三個非常重要的層次：資料的獲取、資料的描述和資料的分析，這三件事是不同的，不要把它混淆了。

1.資料的獲取

d63bc4145151b5fdfd1a7e0b97b5c578

以前資料的稀缺導致行業內出現非常大的非良性迴圈。

在這個過程當中，又正好趕上了一個新的時代——機器化資料橫空出世，突然之間，甚至一夜之間資料不再稀缺了。單靠獲得資料，你能拿到高額利潤的可能性微乎其微，這樣就必然導致執行公司如果要繼續作弊必死無疑，未來五年內我們可以清楚的看到，研究公司不好好做研究，也照樣是必死無疑，無論你是國際的，還是國內的，因為時代變了。所以資料獲取這一塊，要有非常清醒的認識。

在這個時候大資料，正常的講叫機器化資料已經被神話，而市場研究公司被積壓在這裡，市場研究資料的結構化，它必須滿足兩個條件，一是真的，二是價格是低的，這兩件事造成的後果是什麼，我相信業內的所有公司都會有體會。

2f5ffade02f4e16c95ebed9b3f74be4b

2.資料的描述

再看資料的描述，由於整個社會大環境巨大的變化，在描述環節上出現了非常大的問題，這個問題中你會發現形成了新的、不同的非良性迴圈。為什麼？資料不稀缺了。而在這個時候，機器化資料出來的東西做點頻率表，做點互動表很簡單。如果資料描述能夠替代資料分析，這個世界一定會毀掉，因為資料想騙人太容易了。

e01aa02ca9964c4d545a84c0d9b96354

接下來的過程當中，機器化資料由於資料收集簡單，整理資料的過程非常容易。所以直接面向銷售，這個面向銷售就出現了充滿荊棘的歷程。

a754dfcb48e392294d773dd2062cad69
再看研究公司的結構化資料，大型公司由於沒有應對，我在行業這麼多年，一直在這些時期，有機會就在呼籲洞察這個詞。實際上我們的研究員正在日益變成填數工具，而不是洞察。資料不再稀缺，你在機器化資料面前，你填數的過程當中，資料的真假還在存疑，這時候你不敗誰敗，必然敗。而且別忘了機器化資料的成本趨近於零，所以大中型研究公司的解體、兼併、重組在不遠的將來一定會頻現，這是沒有辦法的趨勢。

3f4b2040b8a8fa633d44af4902d6217c

現在資料科學有七大危險趨勢：

90d2c0804272d3566cb1c2d2a19a0246
e6f5481b9ff6439e46a5dd65777ae6c3
dc011468b7b7b7d3e35e2b8b00d1da12
1b49ad82be7a9988ee40a0431ebfb252
1ff69ae3490d9c96dc3db086e58b2a87
::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::13
d4a1917de036927e632304e5ddb5f9fe

3.資料的分析

以上七個危險趨勢將直接導致資料分析中的危險，什麼是資料分析？我先從最簡單的案例說起。

案例一：簡單表格的危險

f147eacd6146ae9f2d4a34ae6bc27ad5

這個資料的結果，意味著什麼？老年人比年輕人更喜歡這個東西。實際的結果呢？老年人和年輕人沒有任何差異。高低文化之間有差別嗎？所有的結果都顯示高文化程度的比低文化程度的人更喜歡，總體上它就是相同的。

再看一個更加實際的案例。我們知道房價是怎麼算的，房價是加權算術平均數。現在看一看房價，房子的均價跟房子的成交價格沒有關係，跟銷售結構有關係。所以在這個時候，房價的均價大約是這樣的，我告訴大家房價在下一個季度全面上漲10%，但是銷售結構略微有一點變化。房價下跌2.63%，大看清楚定價了嗎？任何一個地方都上漲了10%，接下來銷售結構一定會再變，房價又漲了10%，房價又下跌了，但是統計數字會告訴你下跌4%。

9545d266839b9e2b3343c4c76441b65c
6ec07c8e8224b0f09bfc645de0f5ed29
c569df4780be993a36903dc797fd3465

案例二：無關轉相關係列

這是我1998年獲寶潔論文獎的時候得到的模型，表面上一大堆無差別、無差異的情況，導致了什麼情況呢？看起來沒有差異，一個是男的比女的喜歡，一個是女的比男的喜歡，整體上沒有差異。但是差別大嗎？規律性強嗎？

案例三：建模預測

<strong>我們在2011年用的詞叫蘋果熟透了，蘋果在一個領域發展。2012年我在網際網路大會上，在我們這個會場上我都說過華為將崛起。2013年我說過三星必然下滑，去年2014年也是一樣的，這兩個大會我都說過小米將面臨問題，我不是神，但是模型能。2015年什麼情況？我不想對任何一個品牌現在來說，大家關注我們要釋出的手機人報告，那個時候我再開會，會詳細地把這個結果告訴大家。

我讓大家看一個結果，模型的基點預測點是這張圖：

這個模型你能不能做出來？我一直在說，中國調查業從來不缺資料，從來不缺所謂的描述，只缺分析。如果被這些網際網路公司，被碼農牽著走，那不是笑話嗎？他們能代表中國的分析能力嗎？中國的分析能力不是他們，而一定是我們。

4.小結

資料科學的原理與技巧一、資料科學的生命週期
2018-05-30
資料科學
資料科學的原理與技巧二、資料生成
2018-06-03
資料科學
資料分析與資料探勘 - 04科學計算
2020-09-09
電腦科學的學科分類
2021-11-19
資料科學
2021-09-09
資料科學
Python資料科學（八）- 資料探索與資料視覺化
2019-03-02
Python資料科學視覺化
（資料科學學習手札99）掌握pandas中的時序資料分組運算
2020-12-08
資料科學
資料科學與Python（習題彙總）
2024-11-27
資料科學Python
做資料科學領域的「召喚師」，組織一場人人可參與的資料科學比賽
2019-04-20
資料科學
資料分析師與資料科學家有什麼不同？ - Reddit
2022-03-07
資料科學
（資料科學學習手札120）Python+Dash快速web應用開發——整合資料庫
2021-05-09
資料科學PythonWeb資料庫
機器學習工程師與資料科學家的大斗法
2020-07-20
機器學習工程師資料科學
分類推薦&通俗易懂：資料科學與大資料技術專業領域的實用工具
2019-01-21
資料科學大資料
《Python入門與資料科學庫》學習筆記
2021-02-12
Python資料科學筆記
TikTok機器學習與資料科學家的面試題 - Reddit
2022-03-16
機器學習資料科學面試題
資料科學家與機器學習工程師的區別？ - kdnuggets
2020-11-03
資料科學機器學習工程師
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
大資料到底怎麼學：資料科學概論與大資料學習誤區
2018-05-04
大資料資料科學
2022年學習資料科學的技巧：
2021-12-23
資料科學
DataSpell 2023：資料科學家的專業整合開發環境mac/win版
2023-10-27
資料科學開發環境Mac
資料科學、資料工程學習路線
2022-05-07
資料科學
通往資料科學之路
2020-06-16
資料科學
資料科學求職建議：掌握5種型別的資料科學專案
2018-06-29
資料科學求職型別
足球比賽中的資料科學
2022-12-12
資料科學
公民資料科學家的侷限性
2022-10-10
資料科學
資料科學家的命令列技巧
2018-12-13
資料科學命令列
美國資深資料科學家暢聊：資料分析與北美電商
2019-02-19
資料科學
資料科學家已死？AutoML使得資料科學更加普及化 - enterpriseai
2021-02-27
資料科學TOMLAI
資料治理與資料分類分級！
2023-12-15
OPTIMUS — 過程整合與多學科最佳化平臺
2020-09-03
你與資料科學家只差這26條python技巧
2019-02-13
資料科學Python
（資料科學學習手札62）詳解seaborn中的kdeplot、rugplot、distplot與jointplot
2019-07-03
資料科學
Python 資料科學之 Pandas
2020-03-16
Python資料科學
【Python資料科學】之Numpy
2019-04-29
Python資料科學
sqlhelper整合dynamic多資料來源的分頁問題(非教學向)
2020-10-24
SQL
每個資料科學專家都應該知道的六個概率分佈
2018-03-19
資料科學概率分佈
學習資料科學的五大免費資源
2018-12-17
資料科學
python應用資料科學的優勢
2021-09-11
Python資料科學
資料科學家需要的基礎技能
2019-07-22
資料科學

資料科學的整合與細分

相關文章