科學研究與大資料概念的濫用

大蝦盧發表於2014-09-27

科學研究與大資料概念的濫用

Esri 中國盧萌

突如一夜春風來,千樹萬樹梨花開。2012年興起的“大資料”潮流，讓“data”這個IT圈子裡面的名詞一下風靡各個行業。可以說，沒有任何一個IT界的術語能夠受到如此之大的關注和使用。除了傳統IT界以及和IT圈子相關的行業以外，各種如餐飲業、房地產業、金融業等都迫不及待的宣佈了自己的”大資料“戰略。

微軟研究院的《第四正規化：資料密集型的科學研究》，將人類的科學研究從實驗型科學研究、理論型科學研究和模擬計算型科學研究三個正規化的定義之後，推出了第四個正規化，即資料密集型的科學研究。

所以，大資料的風潮不可避免的刮進了科學研究領域。

就在這種全民熱炒的時代，還是有一群科技工作者保持著冷靜的。大資料這個名詞雖然是科學研究界最早提出來的，但是真正被推廣和使用的，都是在網際網路領域，特別是對於大資料的公認的那些個V不管是最早的3V還是4V，到現在的11V，無一不是與網際網路所產生的資料洪流的特性相匹配的，科學研究界真的需要這些嗎？

首先，大資料從概念上講究資料的“快”，這裡的快可以是產生快、傳播快、變化快、處理速度快等。但是在科學研究領域，很多資料的並沒有這麼多快的概念。比如在地理資訊相關的很多領域，如土地利用、土壤變化、行政區劃等資訊中，多年不變，或者變化很少是很常見的現象。

其次，關於維度的問題。大資料有一種思想，就是去收集更多的資料，不管這個資料是否目前能夠用得上，是否是我們目前所關注的資訊，只要有可能，就去收集，不怕全不怕多，就怕沒有（很多時候，很多公司和研究者，都進入一種為了資料而資料的走火入魔的狀態）。特別是NoSQL這種資料思想的流行，讓很多研究者高呼“媽媽再也不用擔心我的資料儲存正規化了……”。但是，我們知道在科學領域，首先要定義的就是你的科學研究目標，目標必須要界定清晰，那麼你的資料結構一開始就要設計得符合你的研究目標，這樣才能有目的性的開展工作，如果不預先進行詳細界定和設計，在研究的過程中就會導致目標的弱化以至於迷失。

還有關於資料價值的問題。網際網路的資料可用“得來全不費工夫”來形容，特別是我們常用來舉例的推特、谷歌、臉書這樣的網際網路行業。但是科學研究的每一份資料都得來不易，無論是從實驗中獲取，還是實地考察取樣，每一份資料後面都可能有極其高昂的人力和時間成本。

獲取更多的資料，是一個理想的狀態，但是如果每一份資料都有很大的成本，要想在科學研究領域達到網際網路領域那種資料量，是一個幾乎無法完成的任務。

當然，《大資料時代》的思想來看，大資料的大並不是單純的數量龐大的概念，還包含有完整性分析的概念。

在科研領域，獲取完全的資料，進行分析也是一個理想狀態。就從地理資訊領域來看，取樣點以點方式存在，根據地理資訊要素的概念，點要素只有（X,Y）的性質，只表示位置，不能表示大小，所以不管怎麼進行採集，也無法鋪滿整個研究區域。所以各種以樣本來估算整體的演算法，在地理資訊領域才如此重要，包括空間抽樣、地統計分析等。

大資料是一種思想，但是在使用的過程中不能犯教條主義，不是資料量才加大資料，也不是符合各種V才叫大資料，我們需要在真正理解的情況下，去應用。正如小平同志說的：黑貓白貓，抓住老鼠，才是好貓！

大資料與生命科學
2014-06-29
大資料
Python資料科學（三） python與資料科學應用(Ⅲ)
2017-12-14
Python資料科學
Python資料科學（二） python與資料科學應用(Ⅱ)
2017-12-14
Python資料科學
Python資料科學（一） python與資料科學應用(Ⅰ)
2017-12-14
Python資料科學
人的資料科學與機器資料科學
2016-09-22
資料科學
CIKM 2016：大資料科學的前沿與應用
2016-08-25
大資料資料科學
大資料：商業革命與科學革命
2013-08-01
大資料
大資料到底怎麼學：資料科學概論與大資料學習誤區
2018-05-04
大資料資料科學
資料探勘在醫學大資料研究中的應用
2018-06-04
大資料
資料科學的原理與技巧一、資料科學的生命週期
2018-05-30
資料科學
《大資料》配套PPT之一：第1章大資料概念與應用
2017-09-20
大資料
電信中的十大資料科學用例 -KDnuggets
2021-03-17
大資料資料科學
理工大學大資料應用的三個學科
2018-06-15
大資料
資料科學的整合與細分
2015-11-10
資料科學
資料科學的原理與技巧二、資料生成
2018-06-03
資料科學
大咖 | “大資料之父”達文波特：成功的資料科學家不一定要有研究生學位
2018-01-20
大資料資料科學
《孫子兵法》與大資料概念，靈活運用才是高手！
2018-03-28
大資料
學習資料科學的五大免費資源
2018-12-17
資料科學
【網路資料與科學】大資料時代：領航未來大資料四大趨勢凸顯
2015-03-20
大資料
小樣本的類人概念學習與大資料的深度強化學習
2016-03-23
大資料強化學習
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
讓科學重回資料科學
2017-03-13
資料科學
什麼叫大資料大資料的概念
2018-08-12
大資料
資料科學的歷史，從洞穴壁畫到大資料
2022-07-29
資料科學大資料
大資料應用於市場與使用者研究
2015-05-23
大資料
敏捷資料科學：用Hadoop建立資料分析應用
2014-07-30
敏捷資料科學Hadoop
資料分析與資料探勘 - 04科學計算
2020-09-09
資料科學
2021-09-09
資料科學
python應用資料科學的優勢
2021-09-11
Python資料科學
用 Python 入門資料科學
2019-09-30
Python資料科學
科普文：銀行業9大資料科學應用案例解析！
2018-06-14
行業大資料資料科學
關於法律大資料研究與應用領域的六大展望
2016-03-23
大資料
資料氾濫的利弊
2024-03-13
用在資料科學上的 Python：你可能忘記的 8 個概念
2018-12-16
資料科學Python
大資料Lambda架構概念及應用
2023-12-08
大資料架構
大資料概念：史上最全大資料解析
2018-04-08
大資料
能源和公用事業領域的 10 大資料科學用例 - KDnuggets
2021-12-01
大資料資料科學
大資料應用於行業研究
2015-04-19
大資料行業

科學研究與大資料概念的濫用

相關文章