郭全中:對大資料的認識該正本清源

玄學醬發表於2018-04-13

近幾年,大資料已廣泛應用到網際網路輿情、網際網路營銷、內容分發、網際網路金融、人工智慧、智慧城市建設等領域。然而,在大資料高速發展的同時,也出現魚龍混雜、忽悠盛行的不良現象:有些機構和企業根本沒有大資料能力、但也為趕時髦而自我標榜為大資料公司;有人神話大資料,認為其無所不能;有人認為大資料只研究相關關係而不研究因果關係;還有人認為只要有資料,就萬事大吉。下面就讓我們來逐個討論,反駁上述的片面認識。

真正的大資料公司並不多。縱觀世界大資料發展實踐,目前的大資料公司主要分為兩類:一類是自身就擁有大資料的公司,如阿里巴巴、京東、騰訊、今日頭條、新浪微博、北京一卡通公司等,其中絕大多數為網際網路公司;另一類則是為大資料探勘和分析提供工具和能力的公司,如拓爾思、百分點等等。事實上,在業界的實踐中,不少公司既沒有資料,也沒有資料解決能力,僅僅是為了更好的估值和自身的品牌塑造,紛紛給自身披上大資料的外衣,給行業和使用者造成混亂和困惑,這從根本上不利於大資料產業和大資料公司的健康發展。

大資料仍處於初級階段。雖然大資料必將成為整個社會的底層架構和標配,社會和經濟的方方面面必將被大資料所重構,且大資料在各行各業的應用正得到深化,但上述活動仍處於進行時或將來時,並非既成事實。在這一爬坡過坎的階段,尤其需要大資料從業人員求真務實、腳踏實地地推進大資料產業的發展,不能拔苗助長、飲鴆止渴,否則只能給大資料產業的短期發展注入太多泡沫。一旦泡沫破裂,必將會給大資料產業帶來很大的破壞作用。

大資料既研究相關關係,也研究因果關係。在大資料領域流行的說法是“大資料只研究相關關係而不研究因果關係”,無疑這是很大的認識誤區。從本質上講,大資料從全新的哲學視角給我們提供了更多認識世界的方法,使我們從之前只能研究因果關係而不能研究相關關係,擴大到既能研究因果關係也能研究相關關係。

不過,如果單純從相關關係出發,就可能導致謬誤百出。例如,一些研究人員希望通過分析北京市中小學生的交通資料與其所在學校的相關性,計算學生家庭住址與學校距離的合理區間。如果僅研究因果關係,就會得出“北京市的學校佈局很合理而不需要優化調整”的結論,這無疑與北京市優質教育資源分佈不均衡的現狀相悖。為什麼會出現這樣的悖論呢?原因在於,北京市很多家長為讓孩子接受更好的教育,紛紛選擇在教學質量好的學校周邊買小戶型房屋或租房居住,而正是這種教育資源的不均衡導致“天價學區房”的頻頻出現。

大資料尚需要演算法和專家觀點的支撐。很多人認為,只要有資料就可以解決一切問題,其實如果僅有資料而沒有好的演算法和專家觀點,資料只能成為無用的廢料。

在大資料的運用過程中,海量的資料是基礎和前提,但演算法、模型以及專家觀點一樣都不能少。否則,即便輸入同樣的資料,出來的也會是大相徑庭的觀點。例如,雖然很多“樓市專家”都佔有大致相同的資料庫,但對房地產市場走勢的判斷卻大為不同。如果一味聽信某些“平民經濟學家”的理論,很多人可能正在四處漂泊,租房居住。反之,若能預見房價上漲的趨勢,您不僅可解決居住問題,還有機會實現財務自由。

總之,大資料的威力將遠超我們的想象,但是也需要給它一段時間來完善,更需要警惕一些似是而非的錯誤觀點!

本文出處:暢享網
本文來自雲棲社群合作伙伴暢享網,瞭解相關資訊可以關注vsharing.com網站。


相關文章