機器學習中貝葉斯建模和機率程式設計簡介

banq發表於2024-05-16

貝葉斯(Bayesian)模型直接對不確定性進行建模,並提供了將專家知識納入模型的框架。

背景
傳統的機器學習 (ML) 模型和人工智慧技術通常存在一個嚴重缺陷:缺乏不確定性的量化。

  • 這些模型通常提供點估計,而不考慮其預測的不確定性。
  • 這種限制削弱了評估模型輸出可靠性的能力。
  • 傳統的機器學習模型需要大量資料,並且通常需要正確標記的資料,因此往往會遇到資料有限的問題。
  • 這些模型缺乏將專家領域知識或先驗信念納入模型的系統框架。
  • 無法利用特定領域的見解,該模型可能會忽略資料中的關鍵細微差別,並且往往無法發揮其潛力。


機率程式設計:應對這些挑戰的解決方案
機率程式設計提供了一個解決這些挑戰的建模框架。其核心是貝葉斯統計,它背離了統計的頻率論解釋。 

貝葉斯統計
在頻率統計中:

  • 機率被解釋為事件的長期相對頻率。
  • 資料被認為是隨機的,是從固定定義的分佈中取樣的結果。
  • 因此,測量中的噪聲與取樣變化相關。

頻率論者相信機率存在並且是固定的,無限的實驗會收斂到該固定值。
頻率論方法不會將機率分佈分配給引數,它們對不確定性的解釋植根於估計量的長期頻率特性,而不是關於引數值的明確機率陳述。

在貝葉斯統計中:

  • 機率被解釋為特定信念的不確定性度量。
  • 資料被認為是固定的
  • 系統的未知引數被視為隨機變數並使用機率分佈進行建模。

貝葉斯方法捕獲引數本身的不確定性,因此為不確定性量化提供了更直觀和靈活的方法。

機率機器學習
在頻率機器學習中,模型引數被視為固定的,並透過最大似然估計 (MLE) 進行估計,其中似然函式量化了給定統計模型觀察資料的機率。 MLE 尋求引數的點估計以最大化該機率。實施 MLE:

  • 假設一個模型和底層模型引數。
  • 根據假設的模型推導似然函式。
  • 最佳化似然函式以獲得引數的點估計。

因此,包括深度學習在內的頻率論模型依賴於最佳化(通常基於梯度)作為其基本工具。

相反,貝葉斯方法對未知引數及其與機率分佈的關係進行建模,並在我們獲得新資料時使用貝葉斯定理來計算和更新這些機率。 

貝葉斯定理:  “貝葉斯規則告訴我們如何從聯合joint中匯出條件機率,條件告訴我們如何合理地更新我們的信念,而更新信念就是學習和推理的全部內容”

後驗P(B|A) = 可能性P(A|B) * 先驗P(B) / 邊際似然P(A)

簡單但強大的方程式。 

  • 先驗Prior: 表示對未知引數的初始信念
  • 可能性Likelihood:表示基於假設模型的資料的機率
  • 邊際似然Marginal Likelihood: 是模型證據,是一個歸一化係數。 
  • 後驗分佈Posterior distribution:代表了我們對引數的更新信念,結合了先驗知識和觀察到的證據。

在貝葉斯機器學習中,推理是基本工具:利用   後驗分佈所代表的引數分佈進行推理,提供對不確定性的更全面的理解。

如何對後驗分佈建模
大多數情況下看似簡單的後驗分佈很難計算。

特別是,分母(即邊際似然積分)往往是可互動的,尤其是在使用更高維度的引數空間時。

在大多數情況下,沒有封閉式解決方案,數值積分方法的計算量也很大。

為了應對這一挑戰,我們依靠一類特殊的演算法(稱為馬爾可夫鏈蒙特卡羅模擬)來對後驗分佈進行建模。

這裡的想法是從後驗分佈中取樣,而不是對其進行顯式建模並使用這些樣本來表示模型引數的分佈。

馬爾可夫鏈蒙特卡羅 (MCMC)
MCMC 方法包含一類從機率分佈中進行取樣的演算法。透過構造一個將所需分佈作為其平衡分佈的馬爾可夫鏈,人們可以透過記錄鏈中的狀態來獲得所需分佈的樣本”。

一些常用的 MCMC 取樣器是:

  • 大都會-黑斯廷斯Metropolis-Hastings
  • 吉布斯取樣器
  • 哈密​​頓蒙特卡羅 (HMC)
  • 禁止掉頭取樣器 (NUTS)
  • 順序蒙特卡羅 (SMC)

機率程式設計
機率程式設計(Probabilistic Programming)是貝葉斯統計的一個程式設計框架,即開發用於表示條件推理問題的語言的語法和語義,併為這些推理問題開發 "求解器"。從本質上講,機率程式設計對於貝葉斯建模的意義就如同自動區分工具對於經典機器學習和深度學習模型的意義。

機率程式語言的生態系統多種多樣,每種語言都有自己的語法、語義和功能。

機率程式語言有一個共同的工作流程,概述如下:

  • 模型定義:模型定義:定義資料生成過程、潛在引數及其相互關係。這一步需要仔細考慮底層系統及其行為假設。
  • 先驗分佈規範:定義模型中未知引數的先驗分佈。 這些先驗值包含了實踐者在觀察任何資料之前對引數的信念、領域或先驗知識。
  • 似然規範:描述似然函式,表示以未知引數為條件的觀測資料的機率分佈。似然函式量化了模型預測與觀測資料之間的一致性。
  • 後驗分佈推斷:根據觀測資料,使用取樣演算法近似計算模型引數的後驗分佈。這通常包括執行馬爾可夫鏈蒙特卡羅(MCMC)或變數推理(VI)演算法,從後驗分佈中生成樣本。

相關文章