翻譯 | AI科技大本營(ID:rgznai100)
參與 | 劉暢
假設世界上存在一種非常罕見的疾病,你患有這種疾病的機率只有千分之一。你想知道你是否被感染了,所以你做了一個99%準確的測試...且測試的結果是陽性的(譯者注:陽性是感染了病毒的情況)! 那麼你到底有多確定你真的被感染了?
怎麼讓疾病的第二次測試結果告訴你,你確實被感染了?
對於上述問題,如果你不想做所有的數學計算,而是更喜歡畫一個網路結構來幫助自己更好地理解,那這篇文章是非常適合你的!
第一個測試
由於它是一種非常罕見的疾病(千分之一的機率被感染)。下表(稱為條件概率表)給出了身體中有這個病毒的概率
這個表格顯示只有千分之一的人被感染了。也可以這樣認為:一千人中有999個人都是沒有被感染的。
現在我們做了一個相似的測試表:第二個表表示測試的準確性。就是測試結果會告訴測試的準確度。因此,如果你被感染了,測試結果就是True,就是意味著你有99%的可能性被感染了,如果你沒有被感染,測試結果將顯示false(也是99%的準確度)。在這兩種情況下,測試結果的錯誤率都是1%。
接下來的這張圖顯示,在給定測試結果的病毒是否存在的條件下,它的結果也取決於測試(如上面的表格所示):
然後,當我提供證據證明測試結果是True。由於只做了一次測試且結果是陽性的,因此該網路告訴我病毒存在於你的身體裡,但是實際上病毒存在的概率只有9%!
那為什麼會這樣呢?這個數字來自貝葉斯定理:
在這個問題上,計算方法如下:
所以,即使你做了一個99%準確的測試,但是患該病的機率也只有9%。
這個計算看起來很複雜,但是一旦在圖中來表示,我們就可以更好地理解貝葉斯思想是如何工作的。
進行第二次測試:
如果你進行第二次測試會發生什麼?讓我們假設這個新的測試也有99%的準確度,然後有一個和第一次測試一樣的表:
相應的貝葉斯網路將是如下圖所示:
這意味著:如果進行了兩個陽性的測試,患該病的機率增加到了91%。由於加上了上一次實驗的結果,並且是連續的兩次實驗,患病的機率從9%跳到了91%。但並不是100%!
在另一種情況下,如果第二個測試是一個陰性樣本,則有100%的機率沒有該疾病。
進行三次測試:
在三個測試中,所有的測試都有一樣的準確度,我們可以看到一些有趣的結果。如果你有證據證明這3個測試結果都是陽性的,那麼現在100%肯定你被病毒感染了。
但是如果一個測試結果是false,之前的結果會再次出現,即病毒只有91%的機會存在於你的體內:
總之,貝葉斯網路有助於我們展現貝葉斯思維,當資料量適中、不完整和/或不確定時,貝葉斯網路可以用於資料科學中。他們還可以引入專家判斷來建立或完善網路。它們允許“模擬”不同的場景,而且能夠表示出輸入值(在這個例子中即是病毒的存在和測試的準確度)與輸出(事件實際發生的概率)是如何在某種程度上聯絡在一起的。
在這篇文章中,我解釋瞭如何從貝葉斯定理開始建立貝葉斯網路。我目前正在研究貝葉斯網路來預測專案的成本和風險。我想分享構建這種強大的人工智慧工具的基礎知識。
在這個暖心的視訊中也解釋了這個例子:https://youtu.be/R13BD8qKeTg
瞭解更多關於貝葉斯網路的知識:
關於在模型源上如何進行理論與資料的橫向劃分,貝葉斯網路有其特殊性。貝葉斯網路可以建立在人類的知識上,即理論上,也可以從資料中學習。因此,他們可以使用整個光譜作為模型源。此外,由於其圖形結構,基於機器學習的貝葉斯網路在視覺上可以解釋,因此也促進了人類學習和理論的發展。
貝葉斯網路允許人類學習和機器學習同時進行,也就是說,貝葉斯網路可以由人類和人工智慧相結合而發展起來。除了跨越理論和資料之間的界限外,貝葉斯網路還具有因果關係這種特殊性質。
在特定條件下,即特定的理論驅動假設下,貝葉斯網路可以促進因果關係的推理。事實上,貝葉斯網路模型可以涵蓋從關聯/相關(Association/Correlation)關係到因果關係的全部範圍。
實際上,這意味著我們可以將因果假設加入到現有的非因果關係網路中,從而建立一個基於因果關係的貝葉斯網路。當我們試圖模擬一個領域中的干預項,例如估計一個治療的效果時,這一點尤其重要。在這種情況下,必須使用因果模型,而貝葉斯網路幫助我們實現了這種過渡。來源:Bayesia book