眾所周知,在當前機器學習看待資料的很重要一個方式是機率,例如分類問題是建模一個P(Y=C|X)。
在面對離散變數的時候,例如人名這種離散變數。
假設有問題:給一個名字,判斷該人是中國哪裡人。(或許在現實生活中,該問題是不合理的,一般情況下無法根據人名判斷是哪裡人)
假設我們有所有省份的人名。我們可以統計不同人名屬於某個省份的機率。這個機率可以透過“頻率”來計算。
在這裡,輸入變數“人名”是一個離散型變數。當統計完成後,我們就得到了一個不錯的分類模型。
然而,當輸入變數是連續型變數的時候,我們無法透過頻率來估計機率。連續型變數的機率也沒有意義。
例如,從【1,5】這個區間取中任意一個數的機率都是0。因為其樣本空間為無窮多。
再用頻率去計算就相當於:
這個時候,我們就需要對連續性變數的機率進行描述。
於是就引入了機率密度函式這個概念。
舉一個例子:
假設一個電子監控裝置在每個小時的開始時會被短暫地開啟一次,並且無論裝置已經使用了多長時間,它都有0.905的機率能夠正常工作。
如果我們讓隨機變數 \(X\) 表示監控裝置首次失效的小時數,那麼 \(p_X(k) = \prod_{i=1}^{k} ,P_i\) 是 \(k\) 個獨立機率的乘積。
。 繪製成圖片如下:如圖是K從1-21不同取值下的機率值。如果我們再加上一條曲線:
那麼很容易得出,任意一段區間[a,b]內,這些柱狀體的面積近似於曲線在該區間的積分
函式 \( f(x) \) 在區間 \([a, b]\) 上的積分表示為:\( \int_{a}^{b} f(x) \, dx \)。
該函式就相當於機率密度函式。通常,我們也將該機率密度函式稱為連續變數X的分佈。
對於一些常見的機率密度函式,我們也有一些名字例如“正態分佈”等。
當我們在面對機器學習任務時候,如果要建模的變數物件是一個連續型變數,有時會假設其服從某些常見分佈。例如HMM的語音識別中,隱狀態序列S的樣本空間為有限的。而狀態S對應的觀測序列,也就是聲音的特徵向量是連續型變數。
這時候,如果我們想計算隱狀態為Si條件下,某個觀測狀態的機率。由於觀測狀態是連續型的特徵向量,無法直接統計機率。因此,我們假設已知隱狀態S的條件下,觀測狀態為X的機率服從正態分佈。這樣就把有限個隱狀態對應無數個連續型變數的問題建模為了有限個狀態對應有限個不同的正態分佈的問題。