貝葉斯與卡爾曼濾波(1)--三大機率
貝葉斯濾波主要是透過機率統計的方法,主要是貝葉斯公式,對隨機訊號進行處理,減小不確定度
貝葉斯濾波處理的隨機變數主要是一個隨機過程。\(x_1, x_2, x_3 ...\),互不獨立
與之對應的就是一個確定過程,比如:自由落體\(v = g*t\),就是一個確定的過程
我們之前所學的大部分都是一些要求相對獨立的數學,比如大數定律,中心極限定理,數理統計三大分佈都需要獨立同分布。
隨機過程的難度相比於確定過程要高很多,最大的不同在於隨機過程無法做隨機試驗了。
那麼問題來了,隨機試驗是幹什麼的?隨機試驗最大的作用是為了給機率賦值的,比如拋硬幣。為啥那麼拋硬幣正反的機率都是0.5呢?這就涉及到兩種學說,主觀機率學說以及大數定律學說(隨機試驗為基礎)。
隨機試驗的條件:
- 在相同條件下,實驗可以重複進行 (這其實就是隨機實驗之間的獨立性)
- 一次實驗,結果不確定,所有可能的結果已知
- 實驗之前,實驗結果預先未知
在拋硬幣這個實驗中,實驗可以多次重複進行,由大數定律,設\(n\)為試驗次數,\(\mu\)為正面朝上的次數
那麼根據大數定律,在\(n\)次獨立的實驗中,對於任意正數\(\varepsilon\),有
當\(n \to \infty\)時, \(\frac{\mu}{n}\)依機率收斂於\(P_1\).
經過大量的實驗測試,這個機率在0.5上下波動,因此就定義為0.5
那麼問題來了,對於一個隨機過程來說,\(x_1, x_2, x_3 ...\)互不獨立,那麼如何給這個機率賦值呢?
舉個例子,股票。相對股票做隨機試驗,那麼必須會時光倒流,這顯示是不可能的。除了股票,像分子的擴散,氣溫的變化都是無法做隨機試驗的。一般來說與時間有關的東西,都是無法做隨機試驗的。
隨機過程,\(x_1, x_2, x_3 ...\)不獨立,那麼可以有以下推斷
這就體現了不獨立性。那麼有了這個資訊,我們是否可以研究隨機過程呢?答案也是不可以的,因為你只找到了他們的關係,但是必須要給隨機過程的起點\(P(x_1)\)賦予初值,初值的選取是很重要的。
但是上面說過由於不獨立性,我們無法透過大數定律賦予\(P(x_1)\)初值。
實際上,有的初值是可以做隨機試驗的額,比如隨機遊走\(x_k = x_{k-1} +D\),$D $為位移
初值\(P(x_0 = 0) = 1\)。
但是更多情況下,初值是不可以做隨機試驗的,只能使用主觀機率,也就是猜一個機率出來。
以上面的例子來看,拋硬幣正面朝上的機率0.5這個事情來看,兩種說法,主觀機率與大數定律學說都存在不嚴謹的地方。主觀機率就不說了,肯定是不嚴謹了,但是大數定律看似嚴謹,實際上獨立性這個屬性是無法保證,同時也是無法證明這個獨立性的。一般來說判斷獨立性都是透過經驗的,因此大數定律也是存在一定的主觀性的。有人會說,證明獨立性只需要說明\(P(A)=P(B)\)就可以了,但是要證明這個等式,必須要對兩個機率賦值,而要對機率賦值,必須使用大數定律,這就成了一個雞生蛋還是蛋生雞的問題。因此在無法做隨機試驗的情況下,使用主觀機率也是比較科學的做法
這就是機率論的兩大學派,支援主觀機率的也叫貝葉斯學派,支援大數定律的也叫頻率學派,目前以頻率學派占主導地位。
回到主觀機率上,隨機過程\(x_1, x_2, x_3 ...\)互不獨立,那麼\(P(x_1)\)該如何給呢?對於一些比較簡單的隨機過程,比如拋硬幣,我們可以給一個0.5,但是對於一些比較複雜的過程,比如股票,每個人看法不一, 導致主觀機率的選取不通用,那麼不同的主觀機率會導致不同的結果,這顯示不是我們想要的。氣溫的變化,分子的擴散,本質上還是一個客觀的過程,我們希望儘可能削弱主觀的差異,那麼應該怎麼做呢,我們主要說貝葉斯濾波的方法。
我們需要引入外部觀測,比如對於股票來說,每個人對漲跌的看法都是不一樣,但是如果加上一個外部觀測,比如得到訊息,某公司老闆卷錢跑路了,那麼幾乎所有人都會下調對該股票的收益預期。
引入外部觀測,可以儘可能地減弱主觀機率的影響
主觀機率也叫做先驗機率,主觀機率和先驗機率是存在一定區別的,但是我們可以把兩者當作是一個東西,目前涉及的知識面,可以忽略兩者的區別。
先驗機率透過貝葉斯公式轉化為後驗機率。
先說一下符號
\(X, Y\),大寫為隨機變數,\(x, y\),小寫為隨機變數的取值,代表隨機試驗的一個可能的結果
離散變數:\(P(X=x) = P_x\), 例如:
連續變數:
條件機率:
- 離散
- 連續
下面以一個溫度例子來學習貝葉斯濾波
首先,給出先驗機率分佈:此處以一個離散變數表示,如果是連續變數,那麼需要給出機率密度函式。
其次,給出溫度計的測量溫度\(T_m\)(m:measure,測量的意思)。問題來了,既然有了溫度計的值了,還要貝葉斯干什麼,還整這麼複雜幹什麼?問題在於,任何感測器都是有誤差的。溫度計測量到的溫度,不一定是準確的。假設$T_m = 10.3 $
最後,使用貝葉斯公式,求得後驗機率分佈
其中:
- \(P(T=10|T_m=10.3)\)就是後驗機率
- \(P(T_m=10.3)\)就是先驗機率
- \(P(T_m=10.3|T=10)\)就是似然機率
似然機率:代表觀測的準確度
\(P(T_m=10.3|T=10)\)當真實溫度為10的時候,溫度計測的溫度為10.3的機率,代表感測器的精度。
問題來了,先驗機率分佈需要給出所有可能的分佈,機率和必須為1。那麼似然機率需不需要寫成一個機率分佈,機率和為1呢?答案是不需要的。\(P(T_m=10.3|T=10)\)與\(P(T_m=10.3|T=11)\)是對兩個不同的真實值下的測量機率,可以說是兩個隨機試驗,他們兩個的機率沒有任何關係。似然機率是用來衡量感測器的不確定性的,不確定性不受測量的真實值的影響的。比如感測器的精度是±1,那麼測量一個冰水與沸水,感測器的誤差都是±1,它是感測器本身的性質。
後驗機率的機率和為1。
那麼還有一個機率,\(P(T_m=10.3)\)是什麼呢?
很多教材裡面,直接說\(P(T_m=10.3)\)與T無關,所以\(P(T=10|T_m=10.3) = \eta P(T_m=10.3|T=10)P(T=10)\)
那麼,為什麼\(P(T_m=10.3)\)與T無關呢?很多人都會有一個困惑,\(T_m = 10.3\)是一個已經發生的事件,所以\(P(T_m=10.3)=1\)。這就是搞混了隨機變數的取值與隨機變數的機率,這兩者是完全不同的概念。比如拋硬幣,一次隨機試驗中發生了正面朝上,那麼正面朝上的機率依然是0.5,本次結果為正面朝上並不影響正面朝上的機率。\(T_m=10.3\)只是一次隨機試驗的結果而已,不能只看到一次結果,就把這個事件發生的機率定為1。隨機試驗的結果不影響分佈律。
根據全機率公式:
可以看到,\(P(T_m=10.3)\)與T有關的,那為什麼很多教材上說\(P(T_m=10.3)\)與T無關呢?因為**\(P(T_m=10.3)\)**與T的取值無關,與T的分佈律是有關的。
在上面的公式中可以看到,\(P(T_m=10.3|T=10)\)是似然機率,\(P(T=10)\)是先驗機率。而似然機率是感測器本身的性質,因此在某種長度上,也可以說**\(P(T_m=10.3)\)**與T的取值無關。
繼續進行計算:
可以近似於:
那麼\(\eta\)怎麼計算呢?其實很簡單,因為所有的後驗機率相加為1,所以
為什麼叫似然機率呢?
似然:likelihood,可能性。源於最大似然估計。他表示那個原因最有可能導致了結果。
比如A班有99男1女,B班有1男99女。那麼隨機數抽取一個班,再隨機抽一個人進行觀測,結果是女,那麼最有可能是從B班抽出來的。
狀態為因,觀測為果。後驗機率為由果推因,似然機率是由因推果。
如果兩個隨機變數存在一定的函式關係,他們是不是一定不獨立?
答:不一定。
等價命題:如果兩個隨機變數相互獨立,他們是不是一定沒有函式關係?
答:不一定。
獨立未必沒有函式關係,雖然聽起來匪夷所思,但這是事實。
舉個例子,一個必然事件,\(Y = X+1\),\(P(X=1)=1\),\(P(Y=2)=1\),\(P(X=1, Y=2)=1\),兩者有函式關係,但是他們是獨立的。
這個例子看起來沒有太多說服力,那麼說一個非必然事件的例子
設有一個正態機率分佈\(N(\mu, \sigma^2)\),\((\mu, \sigma)\)未知,從此分佈中,抽取\(n\)個獨立的樣本,\(X_1, X_2,X_3,...,X_n\)獨立同分布,則下面兩個隨機變數相互獨立。
均值和方差相互獨立只有再正態分佈中才有。顯然,他們兩個是存在函式關係的。
關於樣本均值與樣本方差的獨立性證明,可以參考這個影片