統計無時不在,從結繩記事到今天的大資料,統計作為人們認識客觀世界的工具,也在不斷創新,統計學作為一門系統研究資料的學科,在不斷豐富與完善。大資料時代來臨,統計如何應對新的挑戰與機遇?我們回顧歷史,不忘初心,以開放的態度、創新的精神和不懈的努力,繼續前進,讓統計在大資料的舞臺上,發揮更大的作用。

1474625107-8136-94de80684e44194edada0a
 
普遍的定義認為,統計學是關於資料的科學,研究如何收集資料,併科學地推斷總體特徵。普查作為最古老的資料收集方法,已經有數千年的歷史,據記載,2200多年前的西漢時期,中國開展了第一次人口普查。17世紀中葉,統計學誕生,並在18、19世紀不斷髮展,特別是與研究不確定性的概率論的結合,產生了現代意義上的統計學:數理統計學。1895年提出抽樣調查方法並在後來30多年完善後,作為一種更及時、更經濟的資料收集方法,被廣泛應用於經濟、社會、科學等各個領域。可以說,20世紀期間,傳統的普查與新產生的抽樣調查,作為兩大資料收集方法體系,共同應用於對社會經濟發展的測量,發揮了重要作用。

21世紀大資料的出現,各種來源、各種形式的電子化資料的大爆發,靜態的、定時的傳統資料收集方法,面臨新的、動態的、組合的大資料的挑戰和機遇,統計思維和資料收集方法也將不斷創新。從統計學誕生的300多年的歷程看,統計學發展的歷史就是統計思維和統計方法不斷創新的歷史,這種創新是圍繞著關於資料的兩大核心問題展開的:如何收集資料和如何分析資料。本文通過回顧重要階段性的幾個片斷,思考統計創新是如何發生的,重點談大資料與統計的關係,以及會帶來的新變化。

計數:統計的萌芽

在世界著名的科普著作《從一到無窮大》一書開頭,講述了一個發生在原始部落裡的故事:兩個匈牙利貴族決定做一次關於數的遊戲——誰說出了最大的數誰就贏,第一個貴族說出了他能想到的最大的數“3”,第二個貴族苦思冥想後,表示認輸了,他想象不出比3更大的數。這個故事的真假無從考證,但可以說明在人們公認的以“結繩記事”為計數開始之前,數的大小概念已經產生。但由於還不能“計數”,甚至還不能將數的概念與10個指頭相對應(這在今天相當於2歲孩子的水平),否則,第二個貴族會毫不猶豫地伸出雙手說出10。

計數是從結繩記事開始的,當然也可以用其他如石頭、木棍、貝殼等,或者在地上、壁上劃痕線等方式。這些是在文字發明之前,人們使用的記事和計數的方法。人類最早的統計實際上是一種計數活動,這在《易繫辭下》中有所記載,古代印加人也存有記載;從上古時代,就已經開始使用結繩的方法,“事大,大結其繩,事小,小結其繩,之多少,隨物眾寡”,也即根據事件的性質、規模或其數量的不同系不同的繩結,這種方法古老原始,卻有效,對於古代人來說,這些大大小小的繩結、多多少少的劃痕是他們回憶過去的唯一線索。隨著生產活動、戰爭等的規模越來越大,結繩記事已經不能記事了,要麼沒有那麼多繩,要麼是對那些繩結的意義的解釋(也就是今天的後設資料的概念)需要更多的想象和更復雜的繩結,原始部落的首領們可以看到養了多少牛羊,甚至可以平均分配給每一個人,卻無法記錄下來。

有了文字後,計數才真正成為一種工具,反映客觀經濟活動及其數量關係。實際上,計數作為一種工具被人們接受後,原始的“普查”就誕生了,有多少人口,有多少土地,有多少俘虜,通過計數與彙總就可以心中有數。據考古發現,公元前3000年前,兩漢流域就已經有了這樣的資料和彙總計算的符號。當然,這與其說是“普查”,更應該說是“計數”,但其產生的意義是非常重大的,就像恩格斯說的,“為了計數,不僅要有可以計數的物件,還要有一種在考察物件時,撇開物件的其他一切特性而僅僅考慮到數字的能力”,這也就是抽象的數字的概念,實物的多少與數的對應關係的確立,並建立了運算規則,為統計學的誕生與發展奠定了基礎,這也是統計的萌芽,充分表明了客觀世界就是一個“數及數的關係的和諧系統”。

數的遊戲:概率計算

關於數的遊戲自古就有,而這些遊戲主要就是賭博:不確定性帶來的收益。不管是抽籤、還是投擲錢幣、擲骰子、鬥紙牌,各種不同形式的以“不確定性”為基礎的賭博,實際上都是“數”的遊戲,這當然也開始引起了學者們的注意和研究。到了15世紀的歐洲,賭博遊戲非常流行。最早研究賭博問題的是1477年出版的義大利詩人但丁的《神曲》一書的註釋本,描述了投擲三顆骰子可能出現的各種點數問題。

從16世紀中葉開始,學者們開始研究賭博中的概率問題。義大利人加爾達偌(1501-1576)是一位數學家,也是一個精明的賭徒,他寫的《機會遊戲》一書,是在他去世近100年後才出版的。他計算了投擲2顆或者3顆骰子時,究竟有多少種可能性得出投擲的骰子面朝上的數字之和為某一數(比如10),這在當時對排列組合所知甚微的情況下,是非常難得的。義大利天文學家伽利略(1564-1642)研究了同樣的問題,並寫了一篇論文給出了圓滿的解答,算出了所有點數的可能性,如在投擲三顆骰子時,出現的數字之和為9和10,各有6種不同的組合法。這個問題在今天是一個很簡單的排列組合問題,但在當時,誰掌握了這一祕密,誰就可能成為更精明的賭徒。

到了17世紀中葉,兩位法國大數學家帕斯卡(1923-1662)、費馬(1601-1665)開始研究丟骰子賭博中的規律性問題。他們利用通訊,幾經研究,解決了著名的“得點問題”(也稱“分賭術”問題),通過對這個問題的研究,早期概率的計算從簡單計數進入了比較精確的計算階段,這也被認為是概率論的起源。從此,更多的學者們開始研究概率及計算問題,從研究賭博開始的古典概率,在不確定性的科學研究上,逐步建立了一套科學完整的體系:概率論。

統計學的誕生:讓資料說話

統計學誕生的大背景是在15世紀,由於歐洲地中海沿岸商品經濟的發展以及思想、技術的進步,從中世紀封建社會內部產生的資本主義及發展。資本主義商品經濟的產生和發展,人們對資料的認識不僅僅是賭博遊戲,而是對事物規律性的認識。之前,往往是滿足“計數”的需要,記錄歷史,回答“幹了什麼”,而資本主義商品經濟的發展則要滿足“生產”的需要了,不僅要記錄歷史,還要預測未來,回答“要幹什麼”。除此之外,還有一些原因也促進了統計學的誕生:如為了商業的冒險行為,包括商業投機和航海商業,保險業的興起等。

統計學的誕生及發展使人們對資料規律性的認識上了一個大臺階。作為統計學的起端,幾乎同時發生了兩個劃時代的重大事件:一是格朗特(1620-1674)1662年發表的《關於死亡公報的自然和政治觀察》(簡稱《觀察》),二是威廉·配第(1623-1687)1667年發表的《政治算術》。這兩部著作都被認為是統計學的鼻祖,他們各自研究的重點不同,後來的學者們往往站在不同的角度進行評價。

《觀察》利用英國倫敦每週公佈的死亡人數及相關人口資料,分析了60多年中居民死亡原因及與人口變動的關係,用了大量表格、演算,提出了人口男女性別的大數法則,編制了人口統計分析壽命表及人口推算方法等,這在今天看來,是統計工作的基礎環節——統計彙總與描述性分析,但在當時,確是開創性地利用公佈的有限資料,分析推斷了倫敦人口的總體分佈與特徵。

威廉·配第的《政治算術》崇尚讓資料說話,依據資料分析更廣泛的社會、經濟問題(不侷限於人口分析),而不只是依靠思辨或空洞的推演,正如他自己所說:“與只使用比較級和最高階的詞語以及單純作思維論證相反,我採用數字、重量和尺度等術語來闡述我的觀點。”他的兒子把該書獻給國王時說:“書中論述了凡是政府事務以及有關君主榮譽、百姓幸福和國家昌盛的事項,都可以用算術的一般法則證實。這種方法,就是用一種普通的科學原理解釋錯綜複雜的世界。”可以說,《政治算術》是把培根的實證科學思想和方法,通過資料的分析,運用到了廣泛的社會經濟領域。

威廉·配第對統計的貢獻還在於強調典型調查作用,在資料分析中更多地使用分組法、平均數、相對數、統計推斷等,他還先見地提出計算整個國家的國民收入與國民財富,並對英國國民收入進行詳細估算。有了統計學帶來的資料分析方法,就有了後來的經濟學、社會學等,亞當斯密的《國富論》是1776年發表的,比《政治算術》晚了100多年。19世紀末20世紀初開始建立起來的數理統計理論和抽樣調查方法的推廣應用,更是廣泛應用於自然科學、經濟學和社會科學等。

“統計時代”:雜亂無章資料背後的規律

19世紀初上半葉,統計學逐漸取代“國勢學”、“政治算術”,作為近代文化發達的標誌之一,就是統計開始大量於社會經濟自然科學各個方面並形成了統計發展史的高潮,後來被稱之為“統計時代”、“統計狂熱時代”,一切讓資料說話成為一種理念、一種時尚,就像今天誰不說大資料,誰就落伍了一樣。

這個時代的中心人物是比利時統計學家、數學家、天文學家凱特勒(1796-1874)。他的主要貢獻有:一是系統提出統計規律性研究,認為統計學不僅要記述各國的國情,研究社會現象的靜態,而且要研究社會生活的動態,從而觀察社會發展的規律。他提出要探索在紛繁雜亂的大量偶然性現象的背後所隱藏的必然規律。二是促進了統計學與概率論的結合,使統計學進入新的發展階段——現代統計學階段。在此之前,研究國家社會經濟現象的統計學與研究賭博起來的概率論是風馬牛不相及的兩個學科,要說清楚他們的結合,還必須先說說一條最重要的曲線:正態分佈曲線。

這條曲線很好看,又好用,從天文觀察到人體測量,在自然界中無處不在,在當時作為誤差分析的有力武器達到了登峰造極的地步,使得人們在雜亂無章的資料背後,能夠發現秩序和規律性。凱特勒在19世紀30年代主持建立比利時統計局後,發現以往被人們認為雜亂無章的、毫無規律可循的社會現象,也如同自然界一樣具有規律性。他收集了大量關於人體測量的資料,開創性地提出用正態曲線擬合方法判斷人體測量資料的同質性問題,隨後應用於各種資料分析,為正態曲線的應用擴充了廣闊的統計平臺,也導致後來湧現了社會統計學、生物統計學、農業實驗學、經濟統計學等統計流派。統計學發展百花齊放,資料的天空次序井然。

這個時代另一個顯著的特點是政府官方統計的建立與發展,其主要原因除了統計科學的不斷完善外,還因為隨著社會經濟發展,各國政府、民間機構對統計資料有大量需求。

凱特勒的另一個貢獻是推動了國際統計組織合作。由於大量的統計機構的建立,民間研究團體的湧現,各種被利用的資料增多,統計學家們面臨一些共同的問題,包括統計的標準、個體的界定、資料的質量等基本問題,也包括統計資料的交流、統計理論和方法的推廣與傳播等,都需要各國統計學家的共同研究。在凱特勒等的努力下,1851年在倫敦成立了第一個國際統計組織——國際統計大會,1853年主持召開了第一次會議。這是國際統計學會(ISI)的前身,1887年,ISI在羅馬召開了第一次會議,自1938年起,每兩年召開一次,後來改名為世界統計大會(WSC)。到目前已召開了60屆,對統計學的發展和推動各國統計工作發揮了很大的作用。

大資料:新資源、新機會

大資料是人類自身產生的一種新的“自然”資源,與支撐傳統經濟發展的自然資源,如土地、石油、煤、水等不同,這種人造“自然”資源越用越多,越用越便宜,越用越有價值,以知識、創新、ICT、IT、DT為主要特徵的新經濟的發展更多是依靠這種新資源。可以說,21世紀的競爭是資料的競爭,誰擁有了大資料,誰就佔領了制高點,誰就擁有洞見的能力,誰就能引領未來。

與傳統統計學研究的資料比,大資料有幾個特點:一是資料量大。按有關機構測算,全球資料量每兩年翻一番。這還不是主要問題,因為摩爾定理表明,資料處理能力每18個月就可以翻一番。二是資料型別多。資料不僅僅是數字,包括了結構化資料、半結構化資料和非結構化資料,特別是網際網路和通訊技術的迅速發展,電子商務和社交網路的廣泛應用,網路日誌、音訊、視訊、圖片、地理空間位置、網上交易等成為新的資料形式。三是資料上雲。大資料已經無法用傳統的儲存、計算方式來處理,資料上雲意味著,可以通過網路,依託於雲端計算的分散式處理、分散式資料庫、雲端儲存和虛擬化等技術,對海量資料進行整合、挖掘,從技術上看,大資料與雲端計算就像一對孿生兄弟或者一枚硬幣的正反面一樣密不可分。

除了上述三個特點外,一般認為大資料還有兩個特點:速度和價值。一般將資料量(Volume)、資料型別(Variety)、速度(Velocity)和價值(Value)稱為“4V”,刻畫了大資料的基本特徵。

哈佛大學裡·金教授說:“大資料是一場革命,龐大的資料資源使得各個領域開始了量化程式,無論學術界、商業還是政府,所有領域都將開始這種程式。”今天,我們進入了資訊社會,面臨著大資料時代的來臨,雲端計算、物聯網、移動終端及可穿戴裝置高度發達與融合,不管你是誰、不管你願意不願意,都要與資料打交道,要麼在生產資料,要麼在接收資料,不管身在何處,你已經被“大資料”了。從日常生活到國家巨集觀調控,我們面臨的都將是各種資料。如何在各種各樣的資料中進行深入的分析和挖掘,發現這些資料當中隱藏的更深刻的規律和現象,就能更好地服務於政府決策和社會各方面的需求,大資料的真正價值就體現在這裡。

國際上很多組織和國家,特別是已開發國家,都已經把大資料的開發應用提高到戰略的高度來研究。聯合國《大資料促發展:挑戰與機遇》(2012)認為:“大資料像奈米技術和量子計算一樣帶來了根本性的變革,將會塑造21世紀。”世界經濟論壇釋出的《大資料、大影響:國際發展的新動向》稱:“大資料已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。”維克托在《大資料時代—生活、工作與思維的大變革》中說:“大資料時代將帶來思維變革、商業變革和管理變革,隨著大資料在商業等領域嶄露頭角,一場為發掘和利用資料價值的競賽正在全球上演,人類將面臨根本性的時代變革。”

大資料時代,我國優勢明顯。第一,從政策層面,我國已經出臺並實施了《促進大資料發展行動綱要》和《中國製造2025》。第二,我國是世界第一人口大國,第二大經濟體,有1500多萬個法人單位,1800多萬個產業活動單位,還有大量其他經濟主體不斷湧現。人口和經濟規模決定了我國是一個資料資源大國。第三,我國是一個網路大國,截至2016年6月,中國網際網路普及率達到51.7%,網民規模達7.1億,手機網民規模達6.56億,一大批網際網路企業、大資料企業正在改變著傳統的生產生活方式。第四,大資料時代與我國經濟發展新常態正處在一個歷史的交匯口,提質增效、轉型升級為加快大資料的應用提供了機遇,同時,以大資料開發為基礎的一大批產業將形成新的經濟增長點,推動新經濟的發展,實現動能轉換。

大資料催生統計創新

普查和抽樣調查是傳統的兩大資料收集方法。普查不需要統計學方法進行推斷估計,因為通過普查,已經取得了所有個體資料和總體的實際分佈,這也是為什麼人類開始懂得計數就開始進行普查。抽樣調查是利用抽樣理論解決如何科學設計樣本,取得樣本個體資料,併科學地推斷總體分佈及特徵。無論是普查還是抽樣調查,其核心問題之一是要取得準確的“個體資料”。但在大資料時代,一切皆可量化,一切皆可記錄,如何利用更全面、更及時、更經濟的網路電子化資料,以及通過對這些資料使用新的分析及挖掘技術,產生新的見解和認識,是我們面臨的重大機遇。

大資料和統計思維與方法等有明顯的不同,主要表現在以下八個方面:

一是“問題驅動”與“資料驅動”。收集資料是開展統計分析的前提,傳統的普查或抽樣調查是先確定普查或調查目的,然後再根據目的相應要求和經費確定普查或調查的方法和樣本量的大小。也就是說,傳統統計方法設計是針對研究問題而收集資料,提出假設,再進行統計檢驗和推斷。這種用有限資料驗證先驗假定,通常是基於分佈理論,以一定的概率為保證,其邏輯關係是“分佈理論-概率保證-總體推斷”。而大資料強調的是全體資料,總體特徵一般不再需要根據分佈理論進行推斷。不僅如此,還可以根據全面資料和實際分佈來判斷其中出現某類情況的可能性有多大,其邏輯關係變成了“實際分佈-總體特徵-概率判斷”,也即概率不再是事先預設,而是基於實際分佈得出的判斷。在大資料時代,由於有足夠的資料,足夠的變數,可以採用人工智慧等來進行資料探勘和知識發現,廣泛開展各種探索性研究,其結論與發現是通過資料分析獲得的,也就是資料驅動,用資料決策和用資料創新。

二是“我問你答”與“我取你有”。統計報表、調查問卷是目前全世界開展普查、調查收集資料的主要載體。這種方式是通過結構化的報表將被調查物件的行為轉化為可用的資料,這種方式的根本特徵“我問你答”,需要被調查者高度配合,包括對問題的正確理解和如實回答填報,否則,資料質量難以保證。但在“大資料”時代,資料來源於資訊科技記錄下的原始資料,這些資料的參與僅僅依賴於測量方法(如企業生產記錄、大量行政記錄、GPS定位測量、超市收銀管理系統、ETC電子收費系統),充分利用電子記錄大資料為政府統計所用,採用“我取你有”的方式,取得更及時、真實的原始資料,由專業統計人員根據統計制度計算統計指標資料,也減少了統計調查和報表整理的中間環節,資料質量將會大大提高。

三是“因果聯絡”與“相關分析”。傳統統計主要通過建立模型探求變數之間的因果關係,並基於模型對因變數進行預測,即預先假定事物之間存在某種因果關係,然後在此假定的基礎上構建模型並驗證假定存在的因果關係。存在的問題往往是,變數間的因果關係具有時效性,存在“此一時,彼一時”的情況,是在特殊條件和前提假定下的關係,結論的時效性與適用性較為有限。而相關關係具有更加普遍和本質的內涵,有因果關係必有相關關係,有相關關係未必有因果關係。在大資料背景下,資料分析不再探求特定條件下確定性很強的因果關係,而是更加關注普遍意義的相關關係。從超大量資料中發現各種真實存在的相關關係,更加直觀、更貼近個體、更容易被理解和接受,可以發現事物發展潛在的規律,具有一定的“智慧性”,某種程度上超越了傳統統計研究的因果關係,因此,相關分析是大資料時代的重要工作。

四是“樣本抽選”與“總體描述”。以統計推斷為主要特徵的現代統計學研究主要內容是不斷改進樣本抽樣方法和引數設計,從而對總體的特徵進行描述。囿於資料收集以及客觀條件的限制,總是希望通過儘可能少的樣本來了解總體。在這種背景下,產生了各式各樣的抽樣調查技術和引數估計方法。在分層情況下,樣本的數量往往不能有效地減少。大資料時代,樣本就是被記錄的所有資料,從這個意義上講,樣本就是總體。通過對所有與事物相關的資料進行分析,既有利於瞭解總體,又有利於瞭解區域性細微。總的來講,傳統的統計抽樣調查方法存在的不足可以在大資料時代得到改進。大數定律告訴我們,隨著樣本數量的增加,樣本平均數越來越接近總體,而大資料已經描述了總體資訊。

五是“資料煙囪”與“資料平臺”。長期以來,我國政府統計是以部門為中心展開的,相互隔離形成了行業垂直的資訊化體系,在地方上形成了條塊分割的“資訊孤島”,形成一個個“資料煙囪”,資料標準不統一,資料指標不規範,資料平臺重複建設。大資料特別是與之相關聯雲端計算,為資訊整合提供了新的契機,有助於建立政府資訊共享資料平臺,提高政府行為的透明度,有效提高政府的公信力,以大資料助推政府決策科學化。大資料的應用將改變政府統計部門的工作模式,整合現有的分散於各職能部門中的“行政記錄”,完善多種資訊來源的資料採集制度,實現工商、質監、勞動、人社等部門的資料註冊、查詢、共享和交換,在一個資料平臺(包括標準、指標、資料庫等),能夠揭示傳統技術方式難以展現的關聯關係,為有效處理複雜社會問題提供新的手段,有助於建立現代化的政府統計調查體系,最大限度地發掘這些資料資源的價值,提高政府統計部門的生產力,建立“用資料說話、用資料決策、用資料管理、用資料創新”的管理體制機制,提升政府治理能力。

六是“以小見大”與“以大見小”。統計學是關於資料的科學,統計是研究結構化“小資料”,其優勢在於“以小見大”,通過設計抽取個體樣本資料進而分析推斷總體特徵。大資料的優勢在於“以大見小”,通過對各種來源各種結構資料(特別是各種電子網路資料)實時進行整合、量化、關聯、識別等,發現其個體特徵,進而對總體進行任意細分的描述。

七是“記錄歷史”與“預測未來”。德國統計學家斯勒茲曾說過:“統計是動態的歷史,歷史是靜態的統計。”這是在300多年前說的,也揭示了統計的基本功能,那就是記錄歷史。這當然是非常重要的,也是預測的基礎。統計預測就是利用歷史資料建模、外推進行預測,這裡包含了一個假定的前提,就是未來的發展趨勢是按照歷史資料呈現的規律變化的,或者在對未來可能的選擇,改變引數進行人為的調整。這種預測方法和思路,對於今天快速變化發展的社會經濟狀況,特別是很多不可預測的突發事件的影響,顯然是不適應的。技術與創新成為時代的主題,新產業、新業態、新模式等新經濟層出不窮,未來的經濟發展不能完全用歷史的模式來描述,這也要求有新的預測方法。大資料時代,各種感測器和網路設施遍佈社會的各個角落,而這些資料是實時的、動態的,具有“零延遲”、即時性等特點,採用智慧計算、實時計算等方法,極大地提高了資料的時效性和預測質量。特別是,隨著電子商務、網際網路金融、社交網路等的飛速發展,網際網路已經成為人們生產生活不可或缺的重要場所。人們在網際網路上購物、交流、搜尋、瀏覽的各種行為所產生的資料量越來越大。這些資料記錄人們搜尋內容、搜尋頻率以及位置等資訊,反映了人們社會經濟活動、心理活動、情感取向、個體需求、興趣關注等,未來的變化趨勢,體現在今天人們的行為中。

八是“歸納推斷”與“演繹推理”。統計研究的任務就是為了發現新的知識,歸納法則是發現新知識的基本方法。因此,歸納推斷法成為最主要的統計研究方法,使得我們能夠從足夠多的個體資訊中歸納出關於總體的特徵。對於大資料,依然要從中去發現新的知識,依然要通過具體的個體資訊去歸納出一般的總體特徵,因此歸納法依然是大資料分析的主要方法。大資料是一個資訊寶庫,僅僅重視一般特徵的歸納與概括是不夠的,還需要分析研究子類資訊乃至個體資訊,以及某些特殊的、異常的資訊——或許它(們)代表著一種新生事物或未來的發展方向,還需要通過已掌握的分佈特徵和相關知識與經驗去推理分析其他更多、更具體的規律,去發現更深層次的關聯關係,去對某些結論做出判斷,這就需要運用演繹推理法。演繹法可以充分利用已有的知識去認識更具體、細小的特徵,形成更多有用的結論。只要歸納法與演繹法結合得好,就既可以從大資料的偶然性中發現必然性,又可以利用全面資料的必然性去觀察偶然性、認識偶然性、甚至利用偶然性,從而提高駕馭事物發展的能力。

新的起點

用資料說話,已經成為現代社會的基本理念。中國古代的管仲說過:“不明於計數而欲舉大事,猶無舟楫而欲經於水險也。”著名經濟學家馬寅初曾說:“學者們不能離開統計而究學,政治家不能離開統計而施政,事業家不能離開統計而執業。”美國管理學家、統計學家戴明說:“除了上帝,任何人都必須用資料來說話。”印度統計學家C.R.RAO表示:“理性來講,人們的行為過程就是統計。”這些都說明了統計的重要性。

大資料時代為統計提供了大舞臺,統計將為大資料添上翅膀。大資料時代的來臨,帶來新的機遇。我們要真正站在同一起跑線上了,以開放的態度、創新的勇氣、不懈的努力抓住歷史賦予的機會。古代結繩計數能夠記錄下的資料與今天海量儲存器記錄下的資料本質上是一樣的,不同的是,古代人知道他們養了多少牛羊、知道每人分多少,但記錄不下來;而今天,我們可以記錄一切,但傳統處理分析能力還不能完全知道這些海量資料中蘊含的規律和見解,這是統計的新戰場,也是統計人要努力探尋的新領域。

來源:資料觀