大資料(Big data)通常用來形容數字化時代下創造出的大量非結構化和半結構化資料。大資料無疑是未來影響各行各業發展的最受矚目的技術之一。2009年時,全世界關於大資料的研究專案還非常有限,從2011年開始,越來越多的管理者開始意識到,大資料將是未來發展不可規避的問題,而到2012年年底,世界財富500 強企業中90%的企業都開展了大資料的專案。IDC的研究顯示,到2015年,大資料市場前景將達到169億美元的規模。當前所有企業的商業資料每隔1.2年就將遞增一倍。無疑,資料資訊的大爆炸不斷提醒著我們,未來將會因大資料技術而改變。

  那麼,大資料為什麼成為所有人關注的焦點?大資料帶來了什麼樣的本質性改變?為此,我們與中國計算機學會大資料學術帶頭人、中國人民大學資訊學院院長杜小勇教授進行了訪談。

杜小勇教授認為,大資料帶來了三大根本改變:第一、大資料讓人們脫離了對演算法和模型的依賴,資料本身即可幫助人們貼近事情的真相;第二、大資料弱化了因果關係。大資料分析可以挖掘出不同要素之間的相關關係。人們不需要知道這些要素為什麼相關就可以利用其結果,在資訊複雜錯綜的現代社會,這樣的應用將大大提高效率;第三、與之前的資料庫相關技術相比,大資料可以處理半結構化或非結構化的資料。這將使計算機能夠分析的資料範圍迅速擴大。

杜小勇教授用例子更進一步闡述了上述觀點:

傳統資料和<a  data-cke-saved-href=
傳統資料和大資料的區別

第一、電腦科學在大資料出現之前,非常依賴模型以及演算法。人們如果想要得到精準的結論,需要建立模型來描述問題,同時,需要理順邏輯,理解因果,設計精妙的演算法來得出接近現實的結論。因此,一個問題,能否得到最好的解決,取決於建模是否合理,各種演算法的比拼成為決定成敗的關鍵。然而,大資料的出現徹底改變了人們對於建模和演算法的依賴。舉例來說,假設解決某一問題有演算法A 和演算法B。在小量資料中執行時,演算法A的結果明顯優於演算法B。也就是說,就演算法本身而言,演算法A能夠帶來更好的結果;然而,人們發現,當資料量不斷增大時,演算法B在大量資料中執行的結果優於演算法A在小量資料中執行的結果。這一發現給計算機學科及計算機衍生學科都帶來了里程碑式的啟示:當資料越來越大時,資料本身(而不是研究資料所使用的演算法和模型)保證了資料分析結果的有效性。即便缺乏精準的演算法,只要擁有足夠多的資料,也能得到接近事實的結論。資料因此而被譽為新的生產力。

第二、當資料足夠多的時候,不需要了解具體的因果關係就能夠得出結論。

例如,Google 在幫助使用者翻譯時,並不是設定各種語法和翻譯規則。而是利用Google資料庫中收集的所有使用者的用詞習慣進行比較推薦。Google檢查所有使用者的寫作習慣,將最常用、出現頻率最高的翻譯方式推薦給使用者。在這一過程中,計算機可以並不瞭解問題的邏輯,但是當使用者行為的記錄資料越來越多時,計算機就可以在不瞭解問題邏輯的情況之下,提供最為可靠的結果。可見,海量資料和處理這些資料的分析工具,為理解世界提供了一條完整的新途徑。

第三、由於能夠處理多種資料結構,大資料能夠在最大程度上利用網際網路上記錄的人類行為資料進行分析。大資料出現之前,計算機所能夠處理的資料都需要前期進行結構化處理,並記錄在相應的資料庫中。但大資料技術對於資料的結構的要求大大降低,網際網路上人們留下的社交資訊、地理位置資訊、行為習慣資訊、偏好資訊等各種維度的資訊都可以實時處理,立體完整地勾勒出每一個個體的各種特徵。

自:中國統計網