統計Go, Go, Go
結束了
機率論,我們資料之旅的下一站是統計。這一篇,是統計的一個小介紹。
統計是研究資料的學科。它包括描述資料,推測群體資訊,判斷假設的真偽。統計是一門實用學科。人們利用統計,尋找下一個NBA巨星,推測奧斯卡獎項,尋找自己的真心伴侶。在電影“點球成金”中,球隊的經理就是利用統計思想,來搜尋球員,管理球隊,最終造就了一支勁旅。
點球成金
統計這件大事
如果說最早有統計意識的人,那莫過於古往今來的“王霸”之人。精明的王者,早早的意識到資料的重要性,也因此從統計資料中獲得資訊優勢。劉邦佔領咸陽後,蕭何先去收集的,是王宮裡的戶籍、地理、人口等手冊。後來楚霸王來了,則是燒殺搶掠一番。項羽在“大資料”意識上,就輸給了劉邦陣營。
因資料而流傳千古的,還有徵服者威廉。這位來自諾曼底的王者,以旺盛的精力統治著英格蘭。他派遣手下,走遍英格蘭的每個村莊,編纂成統計書 (Domesday Book),詳細的記錄了英格蘭每個地區的人口、地理和物產,甚至於精確到每家養殖的牲口數目。無怪乎諾曼底王朝可以延續數百年。
Domesday Book
現代統計誕生於歐洲近代,主要服務於政府部門。統計部門的建立受益於啟蒙主義思想。政府管理從中世紀的影響中走出,開始以理性和科學的方式,記錄國家發展。農業社會向工業社會轉型,政府需要更高效的方式,瞭解國家的方方面面。機率的思想融入統計學,統計從單純的數字記錄,向估計和推測發展。隨著現代統計的發展,許多以前難以精確獲得的數字,比如出生率,國民生產總值,戰爭耗費等,都透過取樣估計的方式獲得。
管中窺豹
道瓊斯指數北京的PM2.5指數世界人口
這三者有什麼共同之處呢?
首先,它們都一定程度代表了某個群體的狀況,比如美國股市,北京的空氣汙染狀況,和世界的人口。其次,它們都是透過對群體
取樣,來獲得的結果。道瓊斯指數包含了美國最重要的一些工業股,而不是所有的股票。PM2.5是北京的數個觀測站採集到的。世界人口,是透過各地取樣獲得的。
PM2.5
透過樣本(sample),來研究整個群體(population),是統計學的一大特徵。這背後的哲學是,用部分來理解整體。利用統計工具,我們還可以推測,樣本中資訊與真正的整體資訊,有多大的誤差。這個研究門類,被稱為
統計推斷 (statistical inference)。它實際上利用了機率論工具,根據取樣,對群體的狀況作出推論,並給出推論的不確定程度。
確定性的消失
我們希望結論靠譜,就不能忽視誤差。在日常生活中,我們也會不經意的用統計的方式思考,但往往會忽視誤差。從一袋大米中抓出一把,我們會推測整袋大米的質量。從認識的北京朋友,我們會推斷北京人的性格特徵。從身邊的程式設計師同事,推測碼農的收入和氣質。這樣很容易得到結論,但也很容易以偏概全,導致自己的結論大大偏離現實。嚴格的統計方法需要說明結果的可靠性。
從確定論到不確定論,是人類理性的一次大飛躍。在這一觀點下,自然科學發生了質的變化。許多早期的科學結論,出現了問題。比較典型的就是:“如果在某一時刻知道所有原子的運動狀況,就可以預測宇宙的未來”。觀測的資料,如果沒有相關的誤差描述,不被認為是有效的。更有信奉統計理念的狂熱者,比如拉普拉斯。他研究潮汐時,給出優美的理論。但他宣稱自己的理論不可信:由於自己的資料只有數千個,達不到統計理論的健壯性。
從群體中抽取一個樣品,那麼這個樣品究竟是群體的哪個個體,是一個隨機變數。統計學的不確定性由來於此。這也是統計學與機率論研究的結合點。結合我們對該隨機變數的特徵有所瞭解,比如該隨機變數符合高斯分佈,那麼可以根據抽出的樣品,來計算分佈的平均值和方差,從而得到群體的狀況。我們還可以對群體作出一些假設的理論,根據取樣結果,來判斷結論真偽的機率。確定性的消失令人不安,卻為統計學開啟了一扇大門。
大資料時代
大資料時代的一個有趣想像,是人們可以對一些數量巨大的群體進行直接的運算。比如,我們可以迅速的計算出所有股票的市值,Facebook的使用者發帖總數等等。曾經的一些取樣統計,在計算機的巨力面前,似乎顯得有些沒有必要。是啊,如果可以直接得到群體的資訊,我們何必拘泥於惱人的不確定性呢?
姑且不論計算速度和資料採集速度的限制,許多問題的本質,就阻止了我們美夢。比如簡單的連續方程積分,就無法真正的擺脫不確定性。自然測量的本質的連續的,計算機運算是離散的。用離散的系統,只能盡力的趨近,卻無法真正精確。再者,許多資料是無法測量的。比如假設檢驗、決策,乃至統計為基礎的機器學習。它們基於一個無法測量的真相:所有可能性中“最好”的那一個。這一所謂的“最好”,可能只是理論存在。即使有再多的計算機,也無法採集這樣的資料。大資料時代,統計非但沒有過時,還找到了更大的舞臺。
總結
在後面的統計文章中,目標還是統計理論與程式設計相結合。
準備開始統計之旅!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31543790/viewspace-2673594/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 六、GO 程式設計模式:GO GENERATIONGo程式設計設計模式
- 第 75 期 2020 年 Go 的一些發展計劃 (Go 1.14 && Go 1.15)Go
- Go 學習、Go 進階、Go 實用工具類Go
- go: ubuntu安裝go 1.23.3GoUbuntu
- go安裝playwright-goGo
- go學習--->安裝goGo
- Go框架解析:go-zeroGo框架
- Go_go語言初探Go
- 【Go】go get 自動代理Go
- go程式設計題Go程式設計
- Go for/ifGo
- 【GO】《GO HANDBOOK》讀書筆記Go筆記
- Go 1.17.3 和 Go 1.16.10 釋出Go
- go reflect包中abi.goGo
- Go 快速指南:go1.18 特性Go
- Go學習總結-go moduleGo
- 學習記錄—go—go testGo
- Go語言分散式系統配置管理實踐--go archaiusGo分散式AI
- Go-ethereum 原始碼解析之 go-ethereum/ethdb/database.goGo原始碼Database
- Go 系統命令管道操作Go
- Go Markdown 部落格系統Go
- Go 每日一庫之 go-flagsGo
- Go1.14.2/Go1.13.10 釋出Go
- Go 模組--開始使用 Go ModulesGo
- 重新理解 Go 培訓和 Go 人才Go
- 【GO】MAC安裝和測試GoGoMac
- Go 切片 slice - Go 學習記錄Go
- 掌握 Go 的計時器Go
- Go 併發程式設計Go程式設計
- Go程式設計基礎Go程式設計
- Go程式設計實踐Go程式設計
- Go-ethereum 原始碼解析之 go-ethereum/ethdb/memory_database.goGo原始碼Database
- 【go】【vscode】GoVSCode
- go sseGo
- go - LoggingGo
- go mistakesGo
- go 0319Go
- go 0318Go