貝葉斯思想概述:從貝葉斯定理到貝葉斯網路

weixin_34253539發表於2018-01-02

翻譯 | AI科技大本營(ID:rgznai100)

參與 | 劉暢


假設世界上存在一種非常罕見的疾病,你患有這種疾病的機率只有千分之一。你想知道你是否被感染了,所以你做了一個99%準確的測試...且測試的結果是陽性的(譯者注:陽性是感染了病毒的情況)! 那麼你到底有多確定你真的被感染了?

怎麼讓疾病的第二次測試結果告訴你,你確實被感染了?

對於上述問題,如果你不想做所有的數學計算,而是更喜歡畫一個網路結構來幫助自己更好地理解,那這篇文章是非常適合你的!

第一個測試

由於它是一種非常罕見的疾病(千分之一的機率被感染)。下表(稱為條件概率表)給出了身體中有這個病毒的概率

這個表格顯示只有千分之一的人被感染了。也可以這樣認為:一千人中有999個人都是沒有被感染的。

現在我們做了一個相似的測試表:第二個表表示測試的準確性。就是測試結果會告訴測試的準確度。因此,如果你被感染了,測試結果就是True,就是意味著你有99%的可能性被感染了,如果你沒有被感染,測試結果將顯示false(也是99%的準確度)。在這兩種情況下,測試結果的錯誤率都是1%。

接下來的這張圖顯示,在給定測試結果的病毒是否存在的條件下,它的結果也取決於測試(如上面的表格所示):

然後,當我提供證據證明測試結果是True。由於只做了一次測試且結果是陽性的,因此該網路告訴我病毒存在於你的身體裡,但是實際上病毒存在的概率只有9%!

那為什麼會這樣呢?這個數字來自貝葉斯定理:

在這個問題上,計算方法如下:

所以,即使你做了一個99%準確的測試,但是患該病的機率也只有9%。

這個計算看起來很複雜,但是一旦在圖中來表示,我們就可以更好地理解貝葉斯思想是如何工作的。

進行第二次測試:

如果你進行第二次測試會發生什麼?讓我們假設這個新的測試也有99%的準確度,然後有一個和第一次測試一樣的表:

相應的貝葉斯網路將是如下圖所示:

這意味著:如果進行了兩個陽性的測試,患該病的機率增加到了91%。由於加上了上一次實驗的結果,並且是連續的兩次實驗,患病的機率從9%跳到了91%。但並不是100%!

在另一種情況下,如果第二個測試是一個陰性樣本,則有100%的機率沒有該疾病。

進行三次測試:

在三個測試中,所有的測試都有一樣的準確度,我們可以看到一些有趣的結果。如果你有證據證明這3個測試結果都是陽性的,那麼現在100%肯定你被病毒感染了。

但是如果一個測試結果是false,之前的結果會再次出現,即病毒只有91%的機會存在於你的體內:

總之,貝葉斯網路有助於我們展現貝葉斯思維,當資料量適中、不完整和/或不確定時,貝葉斯網路可以用於資料科學中。他們還可以引入專家判斷來建立或完善網路。它們允許“模擬”不同的場景,而且能夠表示出輸入值(在這個例子中即是病毒的存在和測試的準確度)與輸出(事件實際發生的概率)是如何在某種程度上聯絡在一起的。

在這篇文章中,我解釋瞭如何從貝葉斯定理開始建立貝葉斯網路。我目前正在研究貝葉斯網路來預測專案的成本和風險。我想分享構建這種強大的人工智慧工具的基礎知識。

在這個暖心的視訊中也解釋了這個例子:https://youtu.be/R13BD8qKeTg

瞭解更多關於貝葉斯網路的知識:

關於在模型源上如何進行理論與資料的橫向劃分,貝葉斯網路有其特殊性。貝葉斯網路可以建立在人類的知識上,即理論上,也可以從資料中學習。因此,他們可以使用整個光譜作為模型源。此外,由於其圖形結構,基於機器學習的貝葉斯網路在視覺上可以解釋,因此也促進了人類學習和理論的發展。

貝葉斯網路允許人類學習和機器學習同時進行,也就是說,貝葉斯網路可以由人類和人工智慧相結合而發展起來。除了跨越理論和資料之間的界限外,貝葉斯網路還具有因果關係這種特殊性質。

在特定條件下,即特定的理論驅動假設下,貝葉斯網路可以促進因果關係的推理。事實上,貝葉斯網路模型可以涵蓋從關聯/相關(Association/Correlation)關係到因果關係的全部範圍。

實際上,這意味著我們可以將因果假設加入到現有的非因果關係網路中,從而建立一個基於因果關係的貝葉斯網路。當我們試圖模擬一個領域中的干預項,例如估計一個治療的效果時,這一點尤其重要。在這種情況下,必須使用因果模型,而貝葉斯網路幫助我們實現了這種過渡。來源:Bayesia book

原文連結


相關文章