貝葉斯公式的通俗講解

newbie發表於2020-02-19

本文素材來自芬蘭政府官方免費釋出的網路課程《人工智慧簡介》當中對貝葉斯原理的介紹 course.elementsofai.com

現實世界中,很少有明確的事情。除了完美的資訊,還有很多未知的可能性,從丟失資訊到故意欺騙。

以自動駕駛汽車為例-你可以設定一個目標,從 A 到 B,以一種高效和安全的方式,遵循所有的交通法規。但如果交通狀況比預期的更糟,比如因為前方發生了事故,會發生什麼呢?突然的壞天氣呢?一個在街上蹦蹦跳跳的球?或者一塊垃圾直接飛進汽車的攝像頭?

自動駕駛汽車需要使用各種感測器,包括像聲納一樣的感測器和攝像頭,來檢測它在哪裡以及周圍的情況。這些感測器從來都不是完美的,因為來自感測器的資料總是包含一些錯誤和不準確,稱為 “噪聲”。通常情況下,一個感測器指示前方道路左轉,而另一個感測器指示相反方向。即便只存在輕微大的噪聲,這些矛盾都需要在不停車的情況下解決。

現代人工智慧方法在現實世界問題中實際有效的原因之一是它們處理不確定性的能力,而不是 19 世紀 60 年代早期的大多數 “老式” 方法:

在人工智慧的歷史上,處理不確定和不精確資訊的方式有很多種。例如,你可能聽說過模糊邏輯。模糊邏輯曾一度是處理不確定和不精確資訊的最佳方法的競爭者,並用於許多應用中。

例如洗衣機,在洗衣機中,洗衣機可以檢測到髒物(一個程度的問題,不僅是髒的或乾淨的),並相應地調整程式。

然而,概率已經被證明是在不確定條件下進行推理的最佳方法,而且幾乎所有當前的人工智慧應用至少在某種程度上都是基於概率的。

為什麼概率很重要呢?

我們可能最熟悉概率在遊戲中的應用:在撲克中得到三個 A 的概率是多少(大約 1/46),在彩票中獲勝的概率是多少(非常小),等等。

然而,更重要的是,概率也可以用來量化和比較日常生活中的風險:如果你超速,撞車的機率有多大,抵押貸款利率在未來 5 年內上升 5 個百分點的機率有多大,或者人工智慧將自動執行特定任務的可能性有多大…

關於概率的最重要的一課不是概率演算。相反,它是一種將不確定性視為至少在原則上可以量化的東西的能力。這意味著我們可以像談論數字一樣談論不確定性:數字可以被比較(“這件事比那件事更可能嗎?”),而且它們常常可以被測量。

測量概率是很困難的:我們通常需要對一個現象進行大量觀察才能得出結論。

然而,通過系統地收集資料,我們可以批判性地評估概率陳述。換言之,為了讓不確定性不超出理性思考和討論的範圍,概率提供了一種系統的方法來做到這一點。

不確定性可以量化這一事實至關重要,例如,為疫苗接種制定公共政策。在進入市場之前,任何一種疫苗都要經過臨床測試,這樣它的益處和風險都被量化了。這些風險從來就不為人所知,但通過臨床測試,足夠優秀的疫苗,足以證明其收益是否大於風險。

如果我們認為不確定性是無法量化或測量的,那麼不確定性方面可能成為理性討論的障礙。

例如,我們可能會爭辯說,由於我們不清楚疫苗是否會產生有害的副作用,所以使用疫苗太危險了。然而,這可能會導致我們忽視一種危及生命的疾病,這種疾病將被疫苗根除。在大多數情況下,收益和風險被充分精確地知道,以清楚地看到一個比另一個更重要。

以上思考在許多日常場景和專業領域都很有用:例如,醫生、法院法官或投資者必須處理不確定的資訊,並根據這些資訊做出合理的決定。

發生比和概率

所謂發生比(Odds),我們指的是例如 3:1(三對一),這意味著我們期望一個結果的每三個案例,例如贏了一個賭注,就有一個相反結果的案例。

另一種表達同樣觀點的方式是說獲勝的概率是 3/4(四分之三)。有了完整的數字,很容易想象,例如,四個人中,三個人的眼睛是棕色的。或者四天中三天下雨。

為什麼我們使用發生比而不是百分比?(概率)

即使發生比可以用小數 0.2 來表示,也不同於 20% 的概率(或用數學家的符號表示的概率 0.2)。發生率 1:5 意味著你必須打六次比賽才能平均贏得一場比賽。20% 的概率意味著你必須打五場比賽才能平均獲得一場勝利。 例如 5:1,我們很容易識別,我們並不是在處理概率,因為任何概率都不能大於 1(或大於 100%),但是對於小於 1 的概率,例如 1:5,概念混亂的危險就潛伏在角落裡。所以一定要知道我們什麼時候在談論發生比,什麼時候在談論概率。

貝葉斯規則

這個特別的公式是既簡單和優雅,以及難以置信的強大。它可以用來衡量醫學、法庭和許多(如果不是全部)科學學科中相互矛盾的證據。該公式稱為 Bayes 規則(或 Bayes 公式)。

首先,我們將通過一個簡單的醫學診斷問題來展示貝葉斯規則的威力,在這個問題中,我們的直覺很難將相互矛盾的證據結合起來。然後我們將展示如何使用 Bayes 規則來構建能夠處理衝突和噪聲觀測的人工智慧方法。

先驗概率和後驗概率

貝葉斯規則可以用多種形式表示,最簡單的一個是概率。

我們的想法是對發生的事情(與未發生的事情相反)進行概率計算,我們將其寫為先驗概率。prior 這個詞指的是我們在獲得一些可能相關的新資訊之前對概率的評估。

公式的目的是在新資訊可用時更新先驗概率,以獲得後驗概率,或獲得資訊後的賠率(後驗的字典含義是 “之後的某物,以後的某物”)

以今天晚些時候下雨的可能性為例,想象一下在早晨起床的情景。 365 天中有 206 天下雨(包括雨、雪和冰雹)。因此,不下雨的天數為 159 天。這將轉化為先前的 206:159 的發生比,所以在你睜開眼睛之前,賭局就已經對你不利了。

然而,睜開眼睛向外看一眼後,你會發現天陰沉沉的。假設雨天早晨多雲的概率是 10 分之 9,這意味著 10 天中只有一天的天空是藍色的。但有時也有不下雨的雲:在不下雨的日子有云的概率是十分之一。現在下雨天出現雲層的概率比不下雨天高多少?

答案是,下雨天出現雲彩的機率是不下雨天的九倍,而在不下雨天出現雲彩的機率是不下雨天的十分之一,這就使今天出現雲彩的機率增加了九倍。

似然比

上述比率(雨天出現雲層的機率是雨天的 9 倍)稱為似然比。更一般地說,似然比是當發生感興趣的事件(雨)時觀測的概率,除以沒有事件(沒有雨)時觀測的概率。

所以我們得出結論,在多雲的早晨,我們有:似然比=(9/10)/(1/10)=9

我們發現了,強大的貝葉斯規則就是:後驗概率=似然比×先驗概率

現在你可能在想:等等,這就是公式麼?這只是一個乘法運算!很簡單,不是嗎?你不會想象一個簡單的乘法運算可以用於各種非常有用的場景,但是貝葉斯公式可以。

一句忠告:有很多不同的形式可以寫貝葉斯規則,而我們使用的概率形式並不是最常見的。

實踐中的 Bayes 法則:乳腺癌篩查

這個實際應用是使用 Bayes 規則的經典示例,即醫學診斷。這個例子還說明了在處理不確定資訊時的一種常見偏見,稱為基準利率謬誤。(base-rate fallacy),即個體忽視事物發生的既率而作出錯誤的判斷。

考慮乳腺癌的鉬靶篩查。為了簡化數字,我們假設百分之五的女性患有乳腺癌。假設一個人得了乳腺癌,那麼乳房 X 光檢查會發現 100 例中有 80 例是乳腺癌。當檢測結果表明乳腺癌存在時,我們說結果是陽性的,儘管對於被檢測者來說,一種技術上的說法是檢測的靈敏度是 80%。

該測試也可能在另一個角度失敗,即當沒有乳腺癌時指示了乳腺癌。這被稱為假陽性結果。假設被測試者實際上沒有乳腺癌,那麼測試結果呈陽性的機率是 10/100。

基於上述概率,你就可以計算出似然比了。

樸素貝葉斯分類器

貝葉斯規則最有用的應用之一是所謂的樸素貝葉斯分類器 (Naive Bayes)。

Bayes 分類器是一種機器學習技術,可用於將文字文件等物件分類為兩個或多個類。通過分析一組訓練資料對分類器進行訓練,並給出正確的分類。

Naive Bayes 分類器可用於確定給定多個不同觀測值的類的概率。

現實世界的應用:垃圾郵件過濾器 我們將使用垃圾郵件過濾器作為一個執行示例來說明樸素貝葉斯分類器的思想。因此,分類指示郵件是垃圾郵件(“Junk”)還是合法郵件(“Ham”)。郵件中的單詞對應於特徵字元,特徵字元的數量由郵件的長度決定。

為什麼我們稱之為 “樸素”?

我們的想法是將單詞看作是通過一個接一個地選擇單詞而產生的,這樣單詞的選擇就只取決於郵件是垃圾郵件還是合法郵件。這是對這個過程的粗略簡化,因為它意味著相鄰單詞之間沒有依賴關係,單詞的順序也沒有意義。這就是為什麼這個方法被稱為樸素的原因。

上面的想法通常用下面的例子來描述,其中郵件的類別(垃圾郵件或合法郵件)是影響單詞的唯一因素。 儘管它很幼稚,但是樸素的 Bayes 方法在實踐中往往非常有效。

這是一個很好的例子,說明了統計學中的一句俗語,“所有的模型都是錯誤的,但有些模型是有用的” 意思。這句格言來自統計學家 George.E.P.Box

我們需要指定垃圾郵件對合法郵件的先驗概率。為了簡單起見,假設這是 1:1,這意味著平均一半的傳入訊息是垃圾郵件(實際上,垃圾郵件的數量可能要高得多)。

為了得到我們的似然比,我們需要兩個不同的概率來計算任何單詞的出現:一個在垃圾郵件中,另一個在合法郵件中。

這兩個類的單詞分佈最好是根據包含一些垃圾郵件和合法郵件的實際訓練資料估計的。最簡單的方法是計算每個單詞出現在資料中的次數,然後除以單詞總數。

為了說明這個想法,讓我們假設我們有一些垃圾郵件和合法郵件。通過將一批電子郵件儲存在兩個檔案中,您可以輕鬆獲得這些資料。

例如,我們發現,Million(百萬)這個詞出現在垃圾郵件中的概率為 59791 分之 156,即大概與 614 分之 1 相同。而在一條合法郵件中,306438 個單詞中有 98 個是 “百萬”,即 3127 分之 1。 這兩種概率估計都很小,不到 1/500,但更重要的是,前者高於後者:1/614 高於 1/3127。這意味著似然比大於 1。更準確地說,這個比率是(1/614)/(1/3127)=3127/614=5.1(四捨五入到小數點後一位)。

然而,直接從計數估計概率的一個問題是,零計數導致零估計。這可能會對分類器的效能造成很大的危害——它很容易導致後驗概率為 0/0 的情況,這是毫無意義的。最簡單的解決方案是對所有概率估計使用一個大於 0 的很小的下界。例如,值 1/100000 就可以完成這項工作。

使用上述邏輯,我們可以確定所有可能單詞的似然比,而不必使用零,從而達成分類目標。 一旦我們計算出了先驗概率和似然比,我們就可以應用 Bayes 規則了,我們已經在醫學診斷案例中實踐過了同樣的方法。

萬歲!現在,您已經掌握了一種強大的技術,它每天都被廣泛應用於現實世界中的各種人工智慧應用程式,即樸素的貝葉斯分類器。即使你不得不跳過一些技術細節,你也應該試著確保你理解應用概率來更新信念的基本原則。

通過醫療診斷和垃圾郵件過濾的例子,我們演示了這個機制是如何工作的。

正如我們在本章開頭所討論的,概率推理的強大之處是能夠處理不確定和衝突的證據。

更多原創文章乾貨分享,請關注公眾號
  • 貝葉斯公式的通俗講解
  • 加微信實戰群請加微信(註明:實戰群):gocnio

相關文章