貝葉斯與卡爾曼濾波(1)--三大機率

吳鉤霜雪發表於2023-02-21

原文網址 : https://www.cnblogs.com/chenxyy/p/17142440.html

貝葉斯與卡爾曼濾波(1)--三大機率

貝葉斯濾波主要是透過機率統計的方法，主要是貝葉斯公式，對隨機訊號進行處理，減小不確定度

貝葉斯濾波處理的隨機變數主要是一個隨機過程。$x_1, x_2, x_3 ...$,互不獨立

與之對應的就是一個確定過程，比如：自由落體$v = g*t$，就是一個確定的過程

我們之前所學的大部分都是一些要求相對獨立的數學，比如大數定律，中心極限定理，數理統計三大分佈都需要獨立同分布。

隨機過程的難度相比於確定過程要高很多，最大的不同在於隨機過程無法做隨機試驗了。

那麼問題來了，隨機試驗是幹什麼的？隨機試驗最大的作用是為了給機率賦值的，比如拋硬幣。為啥那麼拋硬幣正反的機率都是0.5呢？這就涉及到兩種學說，主觀機率學說以及大數定律學說（隨機試驗為基礎）。

隨機試驗的條件：

在相同條件下，實驗可以重複進行（這其實就是隨機實驗之間的獨立性）
一次實驗，結果不確定，所有可能的結果已知
實驗之前，實驗結果預先未知

在拋硬幣這個實驗中，實驗可以多次重複進行，由大數定律，設$n$為試驗次數，$\mu$為正面朝上的次數

那麼根據大數定律，在$n$次獨立的實驗中，對於任意正數$\varepsilon$，有

\[\lim_{n \to \infty} P(|\frac{\mu}{n} - P_1| < \varepsilon) = 1 \]

當$n \to \infty$時， $\frac{\mu}{n}$依機率收斂於$P_1$.

經過大量的實驗測試，這個機率在0.5上下波動，因此就定義為0.5

那麼問題來了，對於一個隨機過程來說，$x_1, x_2, x_3 ...$互不獨立，那麼如何給這個機率賦值呢？

舉個例子，股票。相對股票做隨機試驗，那麼必須會時光倒流，這顯示是不可能的。除了股票，像分子的擴散，氣溫的變化都是無法做隨機試驗的。一般來說與時間有關的東西，都是無法做隨機試驗的。

隨機過程，$x_1, x_2, x_3 ...$不獨立，那麼可以有以下推斷

\[x_k = f(x_{k-1}) \]

\[P(x_k) = f(P(x_{k-1})) \]

這就體現了不獨立性。那麼有了這個資訊，我們是否可以研究隨機過程呢？答案也是不可以的，因為你只找到了他們的關係，但是必須要給隨機過程的起點$P(x_1)$賦予初值，初值的選取是很重要的。

但是上面說過由於不獨立性，我們無法透過大數定律賦予$P(x_1)$初值。

實際上，有的初值是可以做隨機試驗的額，比如隨機遊走$x_k = x_{k-1} +D$,$D $為位移

\[P(D=1) = 0.5 \]

\[P(D=-1) = 0.5 \]

初值$P(x_0 = 0) = 1$。

但是更多情況下，初值是不可以做隨機試驗的，只能使用主觀機率，也就是猜一個機率出來。

以上面的例子來看，拋硬幣正面朝上的機率0.5這個事情來看，兩種說法，主觀機率與大數定律學說都存在不嚴謹的地方。主觀機率就不說了，肯定是不嚴謹了，但是大數定律看似嚴謹，實際上獨立性這個屬性是無法保證，同時也是無法證明這個獨立性的。一般來說判斷獨立性都是透過經驗的，因此大數定律也是存在一定的主觀性的。有人會說，證明獨立性只需要說明$P(A)=P(B)$就可以了，但是要證明這個等式，必須要對兩個機率賦值，而要對機率賦值，必須使用大數定律，這就成了一個雞生蛋還是蛋生雞的問題。因此在無法做隨機試驗的情況下，使用主觀機率也是比較科學的做法

這就是機率論的兩大學派，支援主觀機率的也叫貝葉斯學派，支援大數定律的也叫頻率學派，目前以頻率學派佔主導地位。

回到主觀機率上，隨機過程$x_1, x_2, x_3 ...$互不獨立，那麼$P(x_1)$該如何給呢？對於一些比較簡單的隨機過程，比如拋硬幣，我們可以給一個0.5，但是對於一些比較複雜的過程，比如股票，每個人看法不一，導致主觀機率的選取不通用，那麼不同的主觀機率會導致不同的結果，這顯示不是我們想要的。氣溫的變化，分子的擴散，本質上還是一個客觀的過程，我們希望儘可能削弱主觀的差異，那麼應該怎麼做呢，我們主要說貝葉斯濾波的方法。

我們需要引入外部觀測，比如對於股票來說，每個人對漲跌的看法都是不一樣，但是如果加上一個外部觀測，比如得到訊息，某公司老闆卷錢跑路了，那麼幾乎所有人都會下調對該股票的收益預期。

引入外部觀測，可以儘可能地減弱主觀機率的影響

flowchart LR A[主觀機率]-->B[外部觀測] B-->C[相對客觀的機率: 後驗機率]

主觀機率也叫做先驗機率，主觀機率和先驗機率是存在一定區別的，但是我們可以把兩者當作是一個東西，目前涉及的知識面，可以忽略兩者的區別。

先驗機率透過貝葉斯公式轉化為後驗機率。

先說一下符號

$X, Y$,大寫為隨機變數，$x, y$，小寫為隨機變數的取值，代表隨機試驗的一個可能的結果

離散變數：$P(X=x) = P_x$, 例如：

\[P(X=k) = e^{-\lambda}\frac{\lambda^{k}}{k!} \]

連續變數：

\[P(X < x) = \int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt \]

條件機率：

離散

\[P(X=x|Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)} \]

連續

\[P(X=x|Y=y) =\int_{-\infty}^{x} \frac{f(x, y)}{f(y)}dy \]

下面以一個溫度例子來學習貝葉斯濾波

首先，給出先驗機率分佈：此處以一個離散變數表示，如果是連續變數，那麼需要給出機率密度函式。

\[\begin{cases} P(T=10)=0.8\\ P(T=11)=0.2 \end{cases} \]

其次，給出溫度計的測量溫度$T_m$(m：measure,測量的意思)。問題來了，既然有了溫度計的值了，還要貝葉斯干什麼，還整這麼複雜幹什麼？問題在於，任何感測器都是有誤差的。溫度計測量到的溫度，不一定是準確的。假設$T_m = 10.3 $

最後，使用貝葉斯公式，求得後驗機率分佈

\[P(T=10|T_m=10.3)=\frac{P(T_m=10.3|T=10)P(T=10)}{P(T_m=10.3)} \]

\[P(T=11|T_m=10.3)=\frac{P(T_m=10.3|T=11)P(T=11)}{P(T_m=10.3)} \]

其中：

$P(T=10|T_m=10.3)$就是後驗機率
$P(T_m=10.3)$就是先驗機率
$P(T_m=10.3|T=10)$就是似然機率

似然機率：代表觀測的準確度

$P(T_m=10.3|T=10)$當真實溫度為10的時候，溫度計測的溫度為10.3的機率，代表感測器的精度。

問題來了，先驗機率分佈需要給出所有可能的分佈，機率和必須為1。那麼似然機率需不需要寫成一個機率分佈，機率和為1呢？答案是不需要的。$P(T_m=10.3|T=10)$與$P(T_m=10.3|T=11)$是對兩個不同的真實值下的測量機率，可以說是兩個隨機試驗，他們兩個的機率沒有任何關係。似然機率是用來衡量感測器的不確定性的，不確定性不受測量的真實值的影響的。比如感測器的精度是±1，那麼測量一個冰水與沸水，感測器的誤差都是±1，它是感測器本身的性質。

後驗機率的機率和為1。

那麼還有一個機率，$P(T_m=10.3)$是什麼呢？

很多教材裡面，直接說$P(T_m=10.3)$與T無關，所以$P(T=10|T_m=10.3) = \eta P(T_m=10.3|T=10)P(T=10)$

那麼，為什麼$P(T_m=10.3)$與T無關呢？很多人都會有一個困惑，$T_m = 10.3$是一個已經發生的事件，所以$P(T_m=10.3)=1$。這就是搞混了隨機變數的取值與隨機變數的機率，這兩者是完全不同的概念。比如拋硬幣，一次隨機試驗中發生了正面朝上，那麼正面朝上的機率依然是0.5，本次結果為正面朝上並不影響正面朝上的機率。$T_m=10.3$只是一次隨機試驗的結果而已，不能只看到一次結果，就把這個事件發生的機率定為1。隨機試驗的結果不影響分佈律。

根據全機率公式：

\[P(T_m=10.3)=P(T_m=10.3|T=10)P(T=10)+P(T_m=10.3|T=11)P(T=11) \]

可以看到，$P(T_m=10.3)$與T有關的，那為什麼很多教材上說$P(T_m=10.3)$與T無關呢？因為**$P(T_m=10.3)$**與T的取值無關，與T的分佈律是有關的。

在上面的公式中可以看到，$P(T_m=10.3|T=10)$是似然機率，$P(T=10)$是先驗機率。而似然機率是感測器本身的性質，因此在某種長度上，也可以說**$P(T_m=10.3)$**與T的取值無關。

繼續進行計算：

\[P(T=10|T_m=10.3)=\frac{P(T_m=10.3|T=10)P(T=10)}{P(T_m=10.3)}=\eta P(T_m=10.3|T=10)P(T=10) \]

\[P(T=11|T_m=10.3)=\frac{P(T_m=10.3|T=11)P(T=11)}{P(T_m=10.3)}=\eta P(T_m=10.3|T=11)P(T=11) \]

可以近似於：

\[後驗機率=\eta×似然機率×先驗機率 \]

那麼$\eta$怎麼計算呢？其實很簡單，因為所有的後驗機率相加為1，所以

\[\sum 後驗機率 = \eta \sum 似然機率 × 先驗機率 \]

\[\eta = \frac{1}{ \sum 似然機率 × 先驗機率} \]

為什麼叫似然機率呢？

似然：likelihood，可能性。源於最大似然估計。他表示那個原因最有可能導致了結果。

比如A班有99男1女，B班有1男99女。那麼隨機數抽取一個班，再隨機抽一個人進行觀測，結果是女，那麼最有可能是從B班抽出來的。

\[P(狀態|觀測)=\eta P(觀測|狀態)P(狀態) \]

狀態為因，觀測為果。後驗機率為由果推因，似然機率是由因推果。

如果兩個隨機變數存在一定的函式關係，他們是不是一定不獨立?
答：不一定。

等價命題：如果兩個隨機變數相互獨立，他們是不是一定沒有函式關係？
答：不一定。

獨立未必沒有函式關係，雖然聽起來匪夷所思，但這是事實。

舉個例子，一個必然事件，$Y = X+1$，$P(X=1)=1$,$P(Y=2)=1$,$P(X=1, Y=2)=1$,兩者有函式關係，但是他們是獨立的。

這個例子看起來沒有太多說服力，那麼說一個非必然事件的例子

設有一個正態機率分佈$N(\mu, \sigma^2)$，$(\mu, \sigma)$未知，從此分佈中，抽取$n$個獨立的樣本，$X_1, X_2,X_3,...,X_n$獨立同分布，則下面兩個隨機變數相互獨立。

\[\overline{X}=\frac{X_1+X_2+...+X_n}{n} \]

\[S^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline X)^2 \]

均值和方差相互獨立只有再正態分佈中才有。顯然，他們兩個是存在函式關係的。

關於樣本均值與樣本方差的獨立性證明，可以參考這個影片

卡爾曼濾波
2024-06-10
圖解卡爾曼濾波(Kalman Filter)--理解1
2024-03-29
圖解Filter
卡爾曼濾波器(Kalman Filters)
2018-10-16
Filter
卡爾曼濾波學習資料
2019-01-27
卡爾曼濾波跑通調參
2020-11-20
卡爾曼濾波器預測原理
2020-04-29
詳解卡爾曼濾波（Kalman Filter）原理
2020-10-04
Filter
卡爾曼濾波器階次問題
2020-10-30
全機率公式與貝葉斯公式
2024-11-27
公式
最小二乘法和卡爾曼濾波 BY AI
2024-11-21
AI
條件機率、全機率、貝葉斯公式理解
2020-05-22
公式
SciTech-BigDataAIML-Boltzmann constant波爾茲曼常數 + Boltzmann Machine波爾茲曼機模型
2024-10-25
AIMac模型
使用樸素貝葉斯過濾垃圾郵件
2020-02-03
【含原始碼】鳳凰號水下機器人導航資料的離散非同步卡爾曼濾波
2020-12-24
原始碼機器人非同步
高階人工智慧系列（一）——貝葉斯網路、機率推理和樸素貝葉斯網路分類器
2022-11-20
人工智慧
04貝葉斯演算法-貝葉斯網路
2018-12-19
演算法
樸素貝葉斯與Laplace平滑
2023-03-07
貝葉斯定理
2024-11-29
貝葉斯公式
2024-09-07
公式
機器學習中貝葉斯建模和機率程式設計簡介
2024-05-16
機器學習程式設計
【機器學習】--貝葉斯網路
2018-04-09
機器學習
貝葉斯變換
2020-09-28
基於EKF擴充套件卡爾曼濾波的感測器網路目標跟蹤matlab模擬
2024-03-04
套件Matlab
機器學習——貝葉斯演算法
2018-06-02
機器學習演算法
1.影像濾波與影像融合
2024-04-20
樸素貝葉斯模型
2024-03-13
模型
貝葉斯迴歸簡介
2024-03-13
ML-樸素貝葉斯
2019-03-20
全概率公式、貝葉斯公式
2022-02-02
公式
樸素貝葉斯分類
2023-01-27
頻率域濾波基本操作
2024-03-30
樸素貝葉斯和半樸素貝葉斯（AODE）分類器Python實現
2019-12-30
Python
通過貝葉斯公式來評估功能難度和返工率
2018-05-02
公式
機器學習之樸素貝葉斯分類
2019-02-28
機器學習
機器學習Sklearn系列：（四）樸素貝葉斯
2021-07-18
機器學習
當貝葉斯，奧卡姆和夏農一起來定義機器學習
2018-10-23
機器學習
貝葉斯超參優化方法
2018-08-21
優化
貝葉斯深度學習簡介
2024-03-13
深度學習

貝葉斯與卡爾曼濾波(1)--三大機率

貝葉斯與卡爾曼濾波(1)--三大機率

相關文章