貝葉斯居然用事件概率,就輕鬆預知了未來?

Terminator2050發表於2018-08-12

https://blog.csdn.net/BULpreZHt1ImlN4N/article/details/81463791

 

1969年,J. 理查德·戈特三世在普林斯頓攻讀天體物理博士學位之前,他去歐洲旅行了一趟。他看見了柏林牆,那是8年前建成的。

 

站在牆的影子下,這彷彿是冷戰的一個鮮明象徵,他開始思索這牆會將東德和西德地區繼續分割多久。

 

640?wx_fmt=png從表面上看,試圖做出這種預測有些荒謬。即使撇開地緣政治的不可預測性不說,這個問題僅在數學上似乎就很可笑:因為它試圖從一個單一資料點進行預測

 

640?wx_fmt=jpeg

柏林牆

 

但是,儘管這看起來很可笑,但我們總是會根據需要做出這樣的預測。你到了一個外國城市的公共車站,也許其他遊客已經站在那裡等了7分鐘。

 

640?wx_fmt=png下一班車什麼時候到?繼續等待是否值得?如果是這樣的話,在放棄之前你應該再那等多久?

 

或者你的一個朋友已經和某人約會了一個月,希望得到你的建議:邀請他們一起參加即將到來的人的婚禮是否太早?這種關係已經有了一個良好的開端,但是什麼時候開始制訂計劃比較合適呢?

 

谷歌的研究部主任彼得·諾維德(Peter novid)曾進行過一次題為“資料的不合理有效性”的著名演講,該演講深究了“數十億瑣碎的資料點最終如何能被理解”。

 

640?wx_fmt=png媒體不斷告訴我們,我們生活在一個“大資料時代”,計算機可以篩選這數十億的資料點,並發現一些肉眼看不到的細節

 

640?wx_fmt=jpeg

 

但跟日常生活聯絡最密切的問題往往是另一種極端。我們的生活充滿“小資料”,我們就像看到柏林牆的戈特一樣,也就是通過一個單一的觀察,做一個推論。

那麼我們一般怎麼做呢?我們又應該怎樣做?

 

640?wx_fmt=png故事發生在18 世紀的英國,那時,有一個研究領域對偉大的數學思想家來說是不可抗拒的(對那些神職人員也是如此),那就是賭博

 

 

 貝葉斯牧師的倒推理 

 

250 年前,貝葉斯牧師就很重視小資料預測問題,他來自英國迷人的溫泉城鎮坦布里奇韋爾斯,是一位長老會的牧師。

 

貝葉斯設想,如果我們買10 張新的、不熟悉的抽獎彩票,其中有5 張中獎,那麼要估計中獎概率就似乎相對容易:5/10,或50%。

 

但是,如果我們只買了一張彩票,並贏得獎品呢?

 

640?wx_fmt=jpeg

 

我們真的認為中獎的概率就是1/1,或是100%的?這似乎過於樂觀,不是嗎?

 

640?wx_fmt=png如果是這樣的話,那中獎概率應該是多少?我們應該猜多少呢?

 

對於那些曾在不確定性推理歷史上產生如此重大影響的人來說,貝葉斯自己的故事也具有諷刺的不確定性

 

640?wx_fmt=jpeg

貝葉斯

 

他出生於1701年或者1702年,出生地是英國的赫特福德郡,或是倫敦。

 

在1746年,或1748年,或1747年,抑或是1749年,他寫了一篇在數學界最具影響力的論文,他卻未將它發表,並繼續做其他事情。

 

640?wx_fmt=png在這兩個事件之間我們有了更多的把握。作為牧師的兒子,貝葉斯去愛丁堡大學學習神學,並像他父親一樣被任命為牧師。

 

他對數學和神學感興趣,並在1736年為牛頓全新的 “微積分”理論寫了一篇慷慨激昂的辯護書,以回應喬治伯克利主教對牛頓的攻擊。

 

640?wx_fmt=png

微積分基本定理

 

這使他在1742年當選為皇家學會的成員,並被讚譽為“擅長几何、數學和哲學學習的紳士”。

 

1761年貝葉斯去世後,他的朋友理查德·普萊斯被要求整理他的數學論文,看是否有可釋出的內容。

 

640?wx_fmt=png一篇文章引起了他的興趣,並令他特別興奮——他說這篇文章“極為出色,值得儲存”。

 

這篇論文就論述了本文所討論的彩票問題:讓我們想象一個人在抽獎的時候,對會不會中獎完全不知道,也不知道中獎和無獎的比例如何。

 

640?wx_fmt=png讓我們進一步假設,他要從他之前瞭解到的無獎的數量來推測相對的中獎數量,並詢問他在這些情況下能做出什麼合理的結論。

 

貝葉斯的關鍵見解是,試圖使用我們看到的中獎和未中獎彩票來分析彩票來源於整體彩票池的方法,本質上是在倒推。

 

他說,要做到這一點,我們需要先用假設向前推理

 

640?wx_fmt=png換句話說,我們首先需要確定,如果各種可能場景都成真的情況下,我們中獎的可能性有多少。

 

這個被現代統計學家稱為“可能性”的概率,給了我們解決問題所需要的資訊

 

例如,假設我們買了三張彩票,三張都中獎了。現在,如果這種彩票中獎率特別高,所有彩票都能中獎,那我們的買三中三的中獎率就肯定會一直髮生,在這種情況下就是100% 的概率。

 

640?wx_fmt=png但如果只有一半的彩票能中獎,那我們三張彩票的中獎率就是1/2×1/2×1/2, 也就是1/8。

 

如果1000 張彩票只有一張能中獎,那麼我們的中獎率將是1/1000×1/1000×1/1000,也就是1×10–9

 

貝葉斯認為,因此我們應該判斷如何能讓所有彩票都儘可能中獎而不是一半能中獎,或者儘可能使一半的彩票中獎而不是1/1000。

 

640?wx_fmt=png也許我們生來便擁有這種直覺,但貝葉斯的邏輯思維卻給我們提供了為這種直覺定量的方法。

 

在同等條件下,我們應該想象成所有彩票都中獎的概率比一半中獎的概率要高8 倍,因為我們在這種情況下買的彩票正好是8 倍多的中獎概率(100% 與1/8)。

 

同樣的,一半的彩票中獎的概率正好是1000 張中一張中獎的1.25 億倍,我們已經通過比較1/8 和1×10–9 而得知其中的原因。

 

這是貝葉斯論證的關鍵所在:從假設的過去向前推理,並奠定了理論基礎,讓我們可以向後找到最大的可能性

 

640?wx_fmt=png這是一個巧妙和創新的方法,但它對抽獎問題沒能提供一個完整的答案。

 

普萊斯在向皇家學會提交貝葉斯的研究結果時,他能夠確定,如果你買了一張彩票並中獎了,那麼至少有一半的彩票都能中獎的概率是75%。

 

640?wx_fmt=jpeg

 

但是,考慮概率的概率問題會讓人有點兒頭暈。更重要的是,如果有人在催促我們:“好吧,但是你認為彩票的中獎率到底是多少?”我們仍然不知道該說什麼。

 

640?wx_fmt=png如何將所有可能的假設提取到單一的期望值,這一問題將在短短几年後,由法國數學家皮埃爾·西蒙·拉普拉斯(Pierre Simon laplace)解答。

 

 

  拉普拉斯定理  

 

1749年,拉普拉斯生於諾曼底,他父親送他到一所天主教學校,並希望他成為神職人員。

 

640?wx_fmt=jpeg

拉普拉斯

 

拉普拉斯繼續在卡昂大學學習神學,他不像貝葉斯那樣一生都能平衡對神學和科學的奉獻,因此他最終放棄了做牧師,而專攻數學。

 

1774年,在完全不知道貝葉斯以前做的工作的情況下,拉普拉斯發表了一篇雄心勃勃的論文,名為“事件原因的概率論”。

 

640?wx_fmt=png在這篇論文中,拉普拉斯終於解決了如何從觀察到的效果向後推理並找出可能的原因這一問題。

 

如我們所見,貝葉斯找到了一種比較兩種假設的相對可能性的方法。但是在彩票這一問題上,這裡的假設幾乎就是無窮的——每一箇中獎彩票可能的比例。

 

利用微積分這一曾備受爭議卻受到貝葉斯堅決擁護的數學學科,拉普拉斯能夠證明這個巨大範圍的可能性,這可以提取成一個單一的預估值和一個非常簡潔的數字。

 

640?wx_fmt=jpeg

 

他表示,如果我們提前真的不知道彩票的情況,然後當我們第一次買的三張彩票中的一張彩票中獎了,我們可以推測獎池裡彩票的總中獎比例為2 / 3。

 

640?wx_fmt=png如果我們買三張彩票,都中獎了,那我們可以推測總中獎比例正好是4/5。

 

事實上,如果買n 張彩票共w 張中獎,那麼中獎率就是中獎數加1,除以所購買的數目加2,即(w+1)/(n+2)。

 

640?wx_fmt=png這種令人難以置信的簡單方法,估計概率的簡單方法被稱為拉普拉斯定律,它很容易就能適用於任何你需要通過歷史事件來評估概率的情況。

 

如果你做了10 次嘗試,其中有5 次成功,拉普拉斯定律估計你的整體成功概率是6/12 或50%,這符合我們的直覺。

 

如果你只試一次便取得成功,拉普拉斯給的估計是2/3,這比假設你每次都贏更合理,也比普萊斯的觀點更具可操作性。(它告訴我們,50% 或更大的成功概率有75% 的元概率。)

 

640?wx_fmt=png拉普拉斯繼續將他的統計方法應用到廣泛的時間問題上,包括評估男孩和女孩的出生率是否真正平均。(他發現,男嬰其實比女嬰的出生率稍高。)

 

他還寫了關於概率的哲學論文,可以說這是給大眾讀者的第一本關於概率的書,也是最好的概率書之一,此書奠定了他的理論基礎並講述了這些理論在法律、科學與日常生活上的應用。

 

拉普拉斯定律為我們在現實世界中,面對小資料時提供了第一種簡單的經驗法則。

 

640?wx_fmt=jpeg

 

即使我們只進行了一些或一次觀察,它也都能給予我們實際指導。想知道你的車晚點的概率嗎?你的壘球隊會贏嗎?數一數過去已經發生的數量再加一,然後除以可能的機會數再加2。

 

拉普拉斯定律的精髓就在於無論我們有一個單獨的資料點,或數以百萬計的資料,它都同樣適用。

 

相信太陽明天會升起是有道理的,這句話告訴我們:地球已經連續看到太陽上升約1.6 萬億天,在下一次的“嘗試”中看見太陽不升起來的機會,幾乎沒有可能。

相關文章