科學研究與大資料概念的濫用
科學研究與大資料概念的濫用
Esri 中國 盧萌
微軟研究院的《第四正規化:資料密集型的科學研究》,將人類的科學研究從實驗型科學研究、理論型科學研究和模擬計算型科學研究三個正規化的定義之後,推出了第四個正規化,即資料密集型的科學研究。
所以,大資料的風潮不可避免的刮進了科學研究領域。
就在這種全民熱炒的時代,還是有一群科技工作者保持著冷靜的。大資料這個名詞雖然是科學研究界最早提出來的,但是真正被推廣和使用的,都是在網際網路領域,特別是對於大資料的公認的那些個V不管是最早的3V還是4V,到現在的11V,無一不是與網際網路所產生的資料洪流的特性相匹配的,科學研究界真的需要這些嗎?
首先,大資料從概念上講究資料的“快”,這裡的快可以是產生快、傳播快、變化快、處理速度快等。但是在科學研究領域,很多資料的並沒有這麼多快的概念。比如在地理資訊相關的很多領域,如土地利用、土壤變化、行政區劃等資訊中,多年不變,或者變化很少是很常見的現象。
其次,關於維度的問題。大資料有一種思想,就是去收集更多的資料,不管這個資料是否目前能夠用得上,是否是我們目前所關注的資訊,只要有可能,就去收集,不怕全不怕多,就怕沒有(很多時候,很多公司和研究者,都進入一種為了資料而資料的走火入魔的狀態)。特別是NoSQL這種資料思想的流行,讓很多研究者高呼“媽媽再也不用擔心我的資料儲存正規化了……”。但是,我們知道在科學領域,首先要定義的就是你的科學研究目標,目標必須要界定清晰,那麼你的資料結構一開始就要設計得符合你的研究目標,這樣才能有目的性的開展工作,如果不預先進行詳細界定和設計,在研究的過程中就會導致目標的弱化以至於迷失。
還有關於資料價值的問題。網際網路的資料可用“得來全不費工夫”來形容,特別是我們常用來舉例的推特、谷歌、臉書這樣的網際網路行業。但是科學研究的每一份資料都得來不易,無論是從實驗中獲取,還是實地考察取樣,每一份資料後面都可能有極其高昂的人力和時間成本。
獲取更多的資料,是一個理想的狀態,但是如果每一份資料都有很大的成本,要想在科學研究領域達到網際網路領域那種資料量,是一個幾乎無法完成的任務。
當然,《大資料時代》的思想來看,大資料的大並不是單純的數量龐大的概念,還包含有完整性分析的概念。
在科研領域,獲取完全的資料,進行分析也是一個理想狀態。就從地理資訊領域來看,取樣點以點方式存在,根據地理資訊要素的概念,點要素只有(X,Y)的性質,只表示位置,不能表示大小,所以不管怎麼進行採集,也無法鋪滿整個研究區域。所以各種以樣本來估算整體的演算法,在地理資訊領域才如此重要,包括空間抽樣、地統計分析等。
大資料是一種思想,但是在使用的過程中不能犯教條主義,不是資料量才加大資料,也不是符合各種V才叫大資料,我們需要在真正理解的情況下,去應用。正如小平同志說的:黑貓白貓,抓住老鼠,才是好貓!
相關文章
- 大資料與生命科學大資料
- Python資料科學(三) python與資料科學應用(Ⅲ)Python資料科學
- Python資料科學(二) python與資料科學應用(Ⅱ)Python資料科學
- Python資料科學(一) python與資料科學應用(Ⅰ)Python資料科學
- 人的資料科學與機器資料科學資料科學
- CIKM 2016:大資料科學的前沿與應用大資料資料科學
- 大資料:商業革命與科學革命大資料
- 大資料到底怎麼學:資料科學概論與大資料學習誤區大資料資料科學
- 資料探勘在醫學大資料研究中的應用大資料
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 《大資料》配套PPT之一:第1章 大資料概念與應用大資料
- 電信中的十大資料科學用例 -KDnuggets大資料資料科學
- 理工大學大資料應用的三個學科大資料
- 資料科學的整合與細分資料科學
- 資料科學的原理與技巧二、資料生成資料科學
- 大咖 | “大資料之父”達文波特:成功的資料科學家不一定要有研究生學位大資料資料科學
- 《孫子兵法》與大資料概念,靈活運用才是高手!大資料
- 學習資料科學的五大免費資源資料科學
- 【網路資料與科學】大資料時代:領航未來 大資料四大趨勢凸顯大資料
- 小樣本的類人概念學習與大資料的深度強化學習大資料強化學習
- 大資料學習—Spark核心概念RDD大資料Spark
- 讓科學重回資料科學資料科學
- 什麼叫大資料 大資料的概念大資料
- 資料科學的歷史,從洞穴壁畫到大資料資料科學大資料
- 大資料應用於市場與使用者研究大資料
- 敏捷資料科學:用Hadoop建立資料分析應用敏捷資料科學Hadoop
- 資料分析與資料探勘 - 04科學計算
- 資料科學資料科學
- python應用資料科學的優勢Python資料科學
- 用 Python 入門資料科學Python資料科學
- 科普文:銀行業9大資料科學應用案例解析!行業大資料資料科學
- 關於法律大資料研究與應用領域的六大展望大資料
- 資料氾濫的利弊
- 用在資料科學上的 Python:你可能忘記的 8 個概念資料科學Python
- 大資料Lambda架構概念及應用大資料架構
- 大資料概念:史上最全大資料解析大資料
- 能源和公用事業領域的 10 大資料科學用例 - KDnuggets大資料資料科學
- 大資料應用於行業研究大資料行業