郭全中：對大資料的認識該正本清源

玄學醬發表於2018-04-13

原文網址 : https://flycode.co/archives/213339

近幾年，大資料已廣泛應用到網際網路輿情、網際網路營銷、內容分發、網際網路金融、人工智慧、智慧城市建設等領域。然而，在大資料高速發展的同時，也出現魚龍混雜、忽悠盛行的不良現象：有些機構和企業根本沒有大資料能力、但也為趕時髦而自我標榜為大資料公司；有人神話大資料，認為其無所不能；有人認為大資料只研究相關關係而不研究因果關係；還有人認為只要有資料，就萬事大吉。下面就讓我們來逐個討論，反駁上述的片面認識。

真正的大資料公司並不多。縱觀世界大資料發展實踐，目前的大資料公司主要分為兩類：一類是自身就擁有大資料的公司，如阿里巴巴、京東、騰訊、今日頭條、新浪微博、北京一卡通公司等，其中絕大多數為網際網路公司；另一類則是為大資料探勘和分析提供工具和能力的公司，如拓爾思、百分點等等。事實上，在業界的實踐中，不少公司既沒有資料，也沒有資料解決能力，僅僅是為了更好的估值和自身的品牌塑造，紛紛給自身披上大資料的外衣，給行業和使用者造成混亂和困惑，這從根本上不利於大資料產業和大資料公司的健康發展。

大資料仍處於初級階段。雖然大資料必將成為整個社會的底層架構和標配，社會和經濟的方方面面必將被大資料所重構，且大資料在各行各業的應用正得到深化，但上述活動仍處於進行時或將來時，並非既成事實。在這一爬坡過坎的階段，尤其需要大資料從業人員求真務實、腳踏實地地推進大資料產業的發展，不能拔苗助長、飲鴆止渴，否則只能給大資料產業的短期發展注入太多泡沫。一旦泡沫破裂，必將會給大資料產業帶來很大的破壞作用。

大資料既研究相關關係，也研究因果關係。在大資料領域流行的說法是“大資料只研究相關關係而不研究因果關係”，無疑這是很大的認識誤區。從本質上講，大資料從全新的哲學視角給我們提供了更多認識世界的方法，使我們從之前只能研究因果關係而不能研究相關關係，擴大到既能研究因果關係也能研究相關關係。

不過，如果單純從相關關係出發，就可能導致謬誤百出。例如，一些研究人員希望通過分析北京市中小學生的交通資料與其所在學校的相關性，計算學生家庭住址與學校距離的合理區間。如果僅研究因果關係，就會得出“北京市的學校佈局很合理而不需要優化調整”的結論，這無疑與北京市優質教育資源分佈不均衡的現狀相悖。為什麼會出現這樣的悖論呢？原因在於，北京市很多家長為讓孩子接受更好的教育，紛紛選擇在教學質量好的學校周邊買小戶型房屋或租房居住，而正是這種教育資源的不均衡導致“天價學區房”的頻頻出現。

大資料尚需要演算法和專家觀點的支撐。很多人認為，只要有資料就可以解決一切問題，其實如果僅有資料而沒有好的演算法和專家觀點，資料只能成為無用的廢料。

在大資料的運用過程中，海量的資料是基礎和前提，但演算法、模型以及專家觀點一樣都不能少。否則，即便輸入同樣的資料，出來的也會是大相徑庭的觀點。例如，雖然很多“樓市專家”都佔有大致相同的資料庫，但對房地產市場走勢的判斷卻大為不同。如果一味聽信某些“平民經濟學家”的理論，很多人可能正在四處漂泊，租房居住。反之，若能預見房價上漲的趨勢，您不僅可解決居住問題，還有機會實現財務自由。

總之，大資料的威力將遠超我們的想象，但是也需要給它一段時間來完善，更需要警惕一些似是而非的錯誤觀點!

本文出處：暢享網
本文來自雲棲社群合作伙伴暢享網，瞭解相關資訊可以關注vsharing.com網站。

談談對資料架構的幾點認識
2022-08-16
架構
對LinkMapFile的初步認識
2018-11-20
## 對HDFS的初步認識
2020-12-08
【雜談】對CopyOnWriteArrayList的認識
2018-11-12
對ajax、axios、fetch的認識
2018-09-19
iOS
【轉】對#!bin/sh的認識
2020-04-05
對CBM的一點認識
2022-05-06
對深度學習的認識
2020-11-27
深度學習
JavaScript中對陣列和陣列API的認識
2018-05-11
JavaScript陣列API
資料分析基礎—3.1 認識資料
2021-09-09
當下拉選單資料過大時，該如何應對？
2018-11-09
【資料結構篇】認識資料結構
2021-04-27
資料結構
認識一下Flutter中Navigator資料傳遞原理
2020-02-22
Flutter
面對打差評的玩家，製作組該不該“認慫”？
2019-08-30
認識JS中的Class
2021-09-25
JS
一起認識下，那些我們應該知道的mysql中的變數知識點
2020-11-11
MySql變數
1.4. 認識你的資料庫版本號
2020-02-21
資料庫
初識大資料
2019-06-30
大資料
大資料學習大綱，大資料應該怎麼學
2019-05-20
大資料
阿里雲大資料ACP認證知識點梳理3——產品特點（資料整合）
2018-12-11
阿里大資料
【雜談】對IO與NIO的認識
2018-11-27
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
我對CDN以及CDN加速的認識
2021-09-09
中級JAVA程式設計師應該掌握的資料結構知識
2021-01-05
Java程式設計師資料結構
大資料的知識體系
2018-07-17
大資料
一張圖認識天下資料庫
2019-02-11
資料庫
全面認識資料指標體系
2022-03-24
指標
認識資料實時同步神器—Canal
2021-07-27
20個大家應該知道的大資料資源
2019-02-20
大資料
大資料對我們生活中的影響有哪些？
2021-10-09
大資料
國外資料庫十大風雲人物，你認識幾個？
2019-09-09
資料庫
[譯] 認識 rxjs 中的 Subject
2019-04-15
JS
python中的屬性認識
2018-04-04
Python
認識python中的數字
2021-09-11
Python
蛙眼全網資訊大資料、文旅大資料、教育大資料、
2022-01-31
大資料
大資料分析該如何進行
2022-05-20
大資料
對資料庫的大體理解
2024-11-09
資料庫
漫談對大資料的思考
2022-12-05
大資料

郭全中：對大資料的認識該正本清源

相關文章