統計Go, Go, Go

ii_chengzi發表於2020-01-16

 

結束了 機率論,我們資料之旅的下一站是統計。這一篇,是統計的一個小介紹。

 

統計是研究資料的學科。它包括描述資料,推測群體資訊,判斷假設的真偽。統計是一門實用學科。人們利用統計,尋找下一個NBA巨星,推測奧斯卡獎項,尋找自己的真心伴侶。在電影“點球成金”中,球隊的經理就是利用統計思想,來搜尋球員,管理球隊,最終造就了一支勁旅。
點球成金 

 

統計這件大事

如果說最早有統計意識的人,那莫過於古往今來的“王霸”之人。精明的王者,早早的意識到資料的重要性,也因此從統計資料中獲得資訊優勢。劉邦佔領咸陽後,蕭何先去收集的,是王宮裡的戶籍、地理、人口等手冊。後來楚霸王來了,則是燒殺搶掠一番。項羽在“大資料”意識上,就輸給了劉邦陣營。

 

因資料而流傳千古的,還有徵服者威廉。這位來自諾曼底的王者,以旺盛的精力統治著英格蘭。他派遣手下,走遍英格蘭的每個村莊,編纂成統計書 (Domesday Book),詳細的記錄了英格蘭每個地區的人口、地理和物產,甚至於精確到每家養殖的牲口數目。無怪乎諾曼底王朝可以延續數百年。
Domesday Book

 

現代統計誕生於歐洲近代,主要服務於政府部門。統計部門的建立受益於啟蒙主義思想。政府管理從中世紀的影響中走出,開始以理性和科學的方式,記錄國家發展。農業社會向工業社會轉型,政府需要更高效的方式,瞭解國家的方方面面。機率的思想融入統計學,統計從單純的數字記錄,向估計和推測發展。隨著現代統計的發展,許多以前難以精確獲得的數字,比如出生率,國民生產總值,戰爭耗費等,都透過取樣估計的方式獲得。

 

管中窺豹

道瓊斯指數
北京的PM2.5指數
世界人口
這三者有什麼共同之處呢?

 

首先,它們都一定程度代表了某個群體的狀況,比如美國股市,北京的空氣汙染狀況,和世界的人口。其次,它們都是透過對群體 取樣,來獲得的結果。道瓊斯指數包含了美國最重要的一些工業股,而不是所有的股票。PM2.5是北京的數個觀測站採集到的。世界人口,是透過各地取樣獲得的。
 
PM2.5

   

透過樣本(sample),來研究整個群體(population),是統計學的一大特徵。這背後的哲學是,用部分來理解整體。利用統計工具,我們還可以推測,樣本中資訊與真正的整體資訊,有多大的誤差。這個研究門類,被稱為 統計推斷 (statistical inference)。它實際上利用了機率論工具,根據取樣,對群體的狀況作出推論,並給出推論的不確定程度。

 

確定性的消失

我們希望結論靠譜,就不能忽視誤差。在日常生活中,我們也會不經意的用統計的方式思考,但往往會忽視誤差。從一袋大米中抓出一把,我們會推測整袋大米的質量。從認識的北京朋友,我們會推斷北京人的性格特徵。從身邊的程式設計師同事,推測碼農的收入和氣質。這樣很容易得到結論,但也很容易以偏概全,導致自己的結論大大偏離現實。嚴格的統計方法需要說明結果的可靠性。

 

從確定論到不確定論,是人類理性的一次大飛躍。在這一觀點下,自然科學發生了質的變化。許多早期的科學結論,出現了問題。比較典型的就是:“如果在某一時刻知道所有原子的運動狀況,就可以預測宇宙的未來”。觀測的資料,如果沒有相關的誤差描述,不被認為是有效的。更有信奉統計理念的狂熱者,比如拉普拉斯。他研究潮汐時,給出優美的理論。但他宣稱自己的理論不可信:由於自己的資料只有數千個,達不到統計理論的健壯性。

   

從群體中抽取一個樣品,那麼這個樣品究竟是群體的哪個個體,是一個隨機變數。統計學的不確定性由來於此。這也是統計學與機率論研究的結合點。結合我們對該隨機變數的特徵有所瞭解,比如該隨機變數符合高斯分佈,那麼可以根據抽出的樣品,來計算分佈的平均值和方差,從而得到群體的狀況。我們還可以對群體作出一些假設的理論,根據取樣結果,來判斷結論真偽的機率。確定性的消失令人不安,卻為統計學開啟了一扇大門。

 

大資料時代

大資料時代的一個有趣想像,是人們可以對一些數量巨大的群體進行直接的運算。比如,我們可以迅速的計算出所有股票的市值,Facebook的使用者發帖總數等等。曾經的一些取樣統計,在計算機的巨力面前,似乎顯得有些沒有必要。是啊,如果可以直接得到群體的資訊,我們何必拘泥於惱人的不確定性呢?

姑且不論計算速度和資料採集速度的限制,許多問題的本質,就阻止了我們美夢。比如簡單的連續方程積分,就無法真正的擺脫不確定性。自然測量的本質的連續的,計算機運算是離散的。用離散的系統,只能盡力的趨近,卻無法真正精確。再者,許多資料是無法測量的。比如假設檢驗、決策,乃至統計為基礎的機器學習。它們基於一個無法測量的真相:所有可能性中“最好”的那一個。這一所謂的“最好”,可能只是理論存在。即使有再多的計算機,也無法採集這樣的資料。大資料時代,統計非但沒有過時,還找到了更大的舞臺。

 

總結

在後面的統計文章中,目標還是統計理論與程式設計相結合。

 

準備開始統計之旅!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31543790/viewspace-2673594/,如需轉載,請註明出處,否則將追究法律責任。

相關文章