大資料不能做什麼?
大資料平臺 大資料中心 網路大資料()
人們對大資料寄予了許多的希望:賣出更多的貨物,做出更好的產品,找到更酷的朋友,甚至幫我們決定明天早上是否睡個懶覺。現在,凡是有資訊流通的地方,都有人們對大資料的期望。
大資料果真如此神通嗎?大資料不能做什麼?下面從幾個方面來談談大資料的反面。
一、大資料不能對具體行為作出精確預測
事實上,人們的社會行為具有不可預測性。甚至我們不妨可以定性地歸成一個大資料測不準原理:人和事件,如果放到越大的空間和時間範圍,則是越可以精確預測的;如果放到越小的空間和時間範圍,則是越不可以精確預測的。
舉個例子說:我們幾乎可以在100%的程度上預測一個人24小時的範圍內會吃飯,但若精確到某一分鐘,則幾乎不可能預測準確。進一步我們會發現,利用更多過去一段時間的資料,能夠幫助我們提高預測某半個小時內是否吃飯的機率,但如果把時間精確到某一分鐘,則更多的資料幾乎提高不了預測的準確性。
其實,行為的不可預測性早已植根於人類的潛意識中。
比如,我國前一陣子發射了嫦娥三號探月飛船,在嫦娥三號發射前,科學家們已經計算出了在未來的一個月之後的某個小時、分、秒,嫦娥三號在月球上空高度和經緯度,如果這個計算結果偏離預計幾十米,則可能推遲發射,重新計算校準。這是科學對未來的精確預測。
相對的情形是,在晚上10點以後,當我們準備睡覺的時候,能預測明天早餐後下樓碰到的第一個人是誰嗎?幾乎沒有人能知道,但這個巨大的不可預測卻沒有引起人的關注,幾乎沒有人會因為不知道下樓碰到的第一個人是誰而影響睡覺。人們對不可預測性熟視無睹。
大資料的有效範圍討論,需要引進一個假設:人們可以自由決定自己的行為(常常稱為“自由意志”)。一個人自由決定自己行為,在別人看來,就是他的行為無法預測,如果能夠精確預測未來的一舉一動,就不具備任何的自我決定的自由。
因此,大資料不能對具體行為作出精確預測,即大資料測不準原理。
大資料的不可預測性說明,企圖利用大資料預測使用者具體行為的努力或許是徒勞的,我們哪怕掌握一個人從出生開始就有的全部行為資訊,也無法預測明天早餐他會吃什麼。這也意味著,許多基於使用者歷史資料進行行為分析的努力會遇到瓶頸,預測縮小到一定範圍之後,無法再精確下去。
二、大資料不能用來消除不確定性
大資料不能對具體行為進行預測,還表現大型社群的行為預測上。
最近,很多城市的商業中心開始引入了大資料技術,希望對使用者行為作出精確的預測來提高商業中心的有效使用。從單個商家的角度出發,知道進店顧客的精確行為,能提供更針對性的服務,但是,從整個商區的角度來做預測會出現悖論。
之所以大型商圈不僅僅有購物超市,還有甜品店、美食街,人們不是衝著甜品店、美食街來的,但是,因為人們行為的不確定性,不知道購買襯衣、牛奶等生活用品究竟會花多長時間,購物間隙才有了甜品的用武之地,如果購物結束靠近用餐時間,美食街也會有生意。
不僅甜品、美食,商場裡的新商品也都是因為人們行為的不確定才被銷售出去的,因為新產品並不在人們計劃購物的範圍內。如果刻意增加購物預測的精確性將會怎樣?甜品店、美食街甚至電影院都將是多餘的。
生態之美源於不確定性,生態中每一個參與者都表現出足夠的自由度,世界才會豐富多彩,大型商業區具有生態特徵,對生態型社群進行精確預測,會讓整個社群失去生機,所以大資料不能夠用來消除生態中的不確定性。
三、大資料不能預測新業務
大資料的宣講案例中,常常有一個啤酒和尿不溼的故事,建議把啤酒和尿不溼放在一起賣,說是資料統計發現,男人買啤酒的時候會順便買尿不溼,這顯然是一個誤導,因為小孩需要尿不溼大概只有3年,一個活70年的男人,只有幾年處在需要給孩子買尿不溼的情況,也就是說,大多數情況下,買啤酒的男人沒有買尿不溼的必要。
當然,買啤酒和買尿不溼在一定的情況下會成為關聯事件,比如一個青年公寓,生孩子的情況比較集中,但是,此時資料出現關聯只是結果,青年公寓才是原因。
一些極端情況下,根據資料進行類似啤酒和尿不溼搭配可能會出問題,比如香水和避孕套,男人在逛超市時為取哄情人會買香水,當然,也會偷偷買好避孕套,但是,如果把香水和避孕套放在一起,讓男人當著情人面去買避孕套就會產生問題。
不能從大資料的相關性直接得出結論,而是要先確定業務邏輯,再用資料相關性去驗證。資料只是行為的結果而不是相反,大資料之所以能夠輔助預測,是因為人的行為具有規律性,一個具有朝九晚五、週末大休規律的白領,行為資料才會呈現出以日、周、月、年為週期。
創新業務,也就是跟過去不一樣的業務,因此,大資料是沒法預測新業務的,也沒法根據資料分析確定新出現的業務關聯性是臨時的,還是可持續的。
人們對大資料寄予了許多的希望:賣出更多的貨物,做出更好的產品,找到更酷的朋友,甚至幫我們決定明天早上是否睡個懶覺。現在,凡是有資訊流通的地方,都有人們對大資料的期望。
大資料果真如此神通嗎?大資料不能做什麼?下面從幾個方面來談談大資料的反面。
一、大資料不能對具體行為作出精確預測
事實上,人們的社會行為具有不可預測性。甚至我們不妨可以定性地歸成一個大資料測不準原理:人和事件,如果放到越大的空間和時間範圍,則是越可以精確預測的;如果放到越小的空間和時間範圍,則是越不可以精確預測的。
舉個例子說:我們幾乎可以在100%的程度上預測一個人24小時的範圍內會吃飯,但若精確到某一分鐘,則幾乎不可能預測準確。進一步我們會發現,利用更多過去一段時間的資料,能夠幫助我們提高預測某半個小時內是否吃飯的機率,但如果把時間精確到某一分鐘,則更多的資料幾乎提高不了預測的準確性。
其實,行為的不可預測性早已植根於人類的潛意識中。
比如,我國前一陣子發射了嫦娥三號探月飛船,在嫦娥三號發射前,科學家們已經計算出了在未來的一個月之後的某個小時、分、秒,嫦娥三號在月球上空高度和經緯度,如果這個計算結果偏離預計幾十米,則可能推遲發射,重新計算校準。這是科學對未來的精確預測。
相對的情形是,在晚上10點以後,當我們準備睡覺的時候,能預測明天早餐後下樓碰到的第一個人是誰嗎?幾乎沒有人能知道,但這個巨大的不可預測卻沒有引起人的關注,幾乎沒有人會因為不知道下樓碰到的第一個人是誰而影響睡覺。人們對不可預測性熟視無睹。
大資料的有效範圍討論,需要引進一個假設:人們可以自由決定自己的行為(常常稱為“自由意志”)。一個人自由決定自己行為,在別人看來,就是他的行為無法預測,如果能夠精確預測未來的一舉一動,就不具備任何的自我決定的自由。
因此,大資料不能對具體行為作出精確預測,即大資料測不準原理。
大資料的不可預測性說明,企圖利用大資料預測使用者具體行為的努力或許是徒勞的,我們哪怕掌握一個人從出生開始就有的全部行為資訊,也無法預測明天早餐他會吃什麼。這也意味著,許多基於使用者歷史資料進行行為分析的努力會遇到瓶頸,預測縮小到一定範圍之後,無法再精確下去。
二、大資料不能用來消除不確定性
大資料不能對具體行為進行預測,還表現大型社群的行為預測上。
最近,很多城市的商業中心開始引入了大資料技術,希望對使用者行為作出精確的預測來提高商業中心的有效使用。從單個商家的角度出發,知道進店顧客的精確行為,能提供更針對性的服務,但是,從整個商區的角度來做預測會出現悖論。
之所以大型商圈不僅僅有購物超市,還有甜品店、美食街,人們不是衝著甜品店、美食街來的,但是,因為人們行為的不確定性,不知道購買襯衣、牛奶等生活用品究竟會花多長時間,購物間隙才有了甜品的用武之地,如果購物結束靠近用餐時間,美食街也會有生意。
不僅甜品、美食,商場裡的新商品也都是因為人們行為的不確定才被銷售出去的,因為新產品並不在人們計劃購物的範圍內。如果刻意增加購物預測的精確性將會怎樣?甜品店、美食街甚至電影院都將是多餘的。
生態之美源於不確定性,生態中每一個參與者都表現出足夠的自由度,世界才會豐富多彩,大型商業區具有生態特徵,對生態型社群進行精確預測,會讓整個社群失去生機,所以大資料不能夠用來消除生態中的不確定性。
三、大資料不能預測新業務
大資料的宣講案例中,常常有一個啤酒和尿不溼的故事,建議把啤酒和尿不溼放在一起賣,說是資料統計發現,男人買啤酒的時候會順便買尿不溼,這顯然是一個誤導,因為小孩需要尿不溼大概只有3年,一個活70年的男人,只有幾年處在需要給孩子買尿不溼的情況,也就是說,大多數情況下,買啤酒的男人沒有買尿不溼的必要。
當然,買啤酒和買尿不溼在一定的情況下會成為關聯事件,比如一個青年公寓,生孩子的情況比較集中,但是,此時資料出現關聯只是結果,青年公寓才是原因。
一些極端情況下,根據資料進行類似啤酒和尿不溼搭配可能會出問題,比如香水和避孕套,男人在逛超市時為取哄情人會買香水,當然,也會偷偷買好避孕套,但是,如果把香水和避孕套放在一起,讓男人當著情人面去買避孕套就會產生問題。
不能從大資料的相關性直接得出結論,而是要先確定業務邏輯,再用資料相關性去驗證。資料只是行為的結果而不是相反,大資料之所以能夠輔助預測,是因為人的行為具有規律性,一個具有朝九晚五、週末大休規律的白領,行為資料才會呈現出以日、周、月、年為週期。
創新業務,也就是跟過去不一樣的業務,因此,大資料是沒法預測新業務的,也沒法根據資料分析確定新出現的業務關聯性是臨時的,還是可持續的。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-1467930/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 什麼是大資料?大資料能做什麼?大資料
- 大資料能做什麼,為什麼學大資料大資料
- 淺析大資料 學習大資料後能做什麼大資料
- 資料探勘能做什麼
- 大資料運維能做什麼?有什麼工作職責?大資料運維
- 地球如果流浪,大資料究竟能做什麼?大資料
- 資料探勘和資料提取能做什麼?
- 知乎萬贊回答:什麼工具能做視覺化大屏,還能做資料地圖?視覺化地圖
- 央行:區塊鏈能做什麼、不能做什麼?區塊鏈
- Nginx能做什麼Nginx
- 【揭秘】學好大資料之後究竟能做什麼?大資料
- 面試官問:你知道Redis能做什麼?不能做什麼?面試Redis
- 什麼是大資料?大資料開發是做什麼的?大資料
- 央行工作論文:區塊鏈能做什麼、不能做什麼?區塊鏈
- 什麼是大資料?大資料
- 機器學習不能做什麼?機器學習
- 什麼叫大資料 大資料的概念大資料
- 什麼是大資料?Python和大資料有什麼聯絡?大資料Python
- 多維分析的本質計算是什麼?能做什麼又不能做什麼?
- 杜絕舌尖上的浪費,大資料、人工智慧、物聯網能做些什麼?大資料人工智慧
- 到底什麼是大資料?新手學大資料的路徑是什麼?大資料
- 大資料開發需要學習什麼?大資料平臺是什麼?大資料
- 大資料是什麼?大資料的趨勢?大資料
- 大資料都學什麼?大資料
- 什麼是大資料安全?大資料
- 大資料分析是什麼大資料
- Redis | 001能做什麼?Redis
- go語言能做什麼Go
- 學python能做什麼?Python
- Java都能做什麼?從事什麼工作?Java
- PG資料庫最佳化上我們都能做點什麼資料庫
- 大資料:它是什麼?它能幫助我們什麼?大資料
- 大資料主要學習什麼?大資料
- 什麼是大資料開發?大資料
- 什麼是大資料血緣?大資料
- 漫畫:什麼是大資料?大資料
- 到底什麼才是大資料技術?大資料的概念?大資料
- Flutter不能做什麼:侷限性Flutter