likelihood-based models,透過(近似)最大似然直接學習分佈的probability density(或mass)函式。典型的基於似然的模型包括自迴歸模型、歸一化流模型、基於能量的模型(EBMs)和變分自編碼器(VAEs)。
機率質量函式(Probability Mass Function,PMF):機率質量函式用於描述離散隨機變數的機率分佈。它給出了隨機變數取每個可能取值的機率。具體來說,對於一個離散隨機變數 X,其機率質量函式可以表示為 P(X = x),其中 x 表示隨機變數可能取的每一個離散值。
機率密度函式(Probability Density Function,PDF):機率密度函式用於描述連續隨機變數的機率分佈。與機率質量函式不同,機率密度函式並不直接給出隨機變數取某個特定值的機率,而是給出了隨機變數在某個區間內取值的可能性大小。
Generative model
我們首先需要表示機率分佈在生成建模中,透過建模機率分佈,我們可以生成與資料集中觀察到的相似的新資料點。這對於資料合成、異常檢測和資料生成等任務至關重要。
在基於似然的模型中,表示機率函式(無論是作為機率密度函式還是機率質量函式)允許我們從資料中學習模型的引數。透過引數化機率函式,我們可以捕捉資料分佈的特徵,並用它來生成新的樣本。
例如:設 \(f_\theta(X) \in \mathbb{R}\) 為可由可學習引數\(\theta\)引數化的實值函式。 然後我們可以定義機率密度函式為:
\[p_\theta(X) = \frac{e^{-f_\theta{(X)}}}{Z_\theta}
\]
- \(Z_\theta\) 是一個歸一化常數,它與引數\(\theta\) 相關,所以使得機率密度函式$ p_\theta(X)$成為一個有效的機率密度函式。也就是說,對於任意給定的 \(\theta\),機率密度函式的所有可能取值的總和或積分必須等於1。這種歸一化常數通常用於確保機率密度函式滿足機率的性質,例如總和或積分為1。
- 未歸一化機率模型\(f_\theta\), 也被稱為 energy-based model. 這意味著它是一個函式,其中的值並不保證總和或積分為1。通常情況下,這樣的模型可能更容易進行建模和訓練,但是在計算機率時需要額外的步驟來確保總和或積分為1。
- 最大似然訓練:文中提到可以透過最大化資料的對數似然來訓練機率模型。這意味著我們試圖找到引數 \(\theta\) 的最優值,使得模型產生觀察資料的機率最大化。最大似然估計是一種常見的引數估計方法,用於從觀察資料中找到最有可能的模型引數
\(q(X_1|X_{0})*q(X_{2}|X_{1})...q(X_t|X_{t-1})\)