SciTech-BigDataAIML-Statistical Model
Bayes Inference-資料/事實 ∩ 假設
\(\large \begin{array}{rl} \\
P(H|D) &=\dfrac{P(H)×P(D|H)}{P(D)} \\
H :& Hypothesis or Belief and Judgement \\
D :& Data/Reality \\
P(D \bigcap H): & probability \text{ of the } connection \text{ between }D\text{ and }H \\
\end{array}\)
注意點:
0.社會的政治經濟鬥爭, 本質影響"資料/信念";
大多數資料/信念, 是社會現實的表現, 本質是各種力量鬥爭.
運用好統計機率可以科學的發現與總結事實幕後的客觀規律,
更好指導經濟、政治、科學研究以及社會生活方方面面。
-
真科學能透過歷史、現在和未來檢驗.
而這些都是理論(書文字, 語音影片)、經歷(事實經驗)、人(理解與運用)等
多方面的統一。 -
每一個人都有其信念, 而且每個信念的"客觀度"(科學度)不同.
人信念都有"主觀", 由每個人"自我立場/關係/利益/"影響判斷.- 為透過"人們"的"主觀", 由事實/資料, 挖掘幕後科學規律時:
對重大事件成立"專案組",組織一群人有"計劃"的,
對每一條"資料/事實"進行 篩選, 分析,檢驗(含交叉).
例如:偵破大案要案, 與審計重大財務案, 就是這種方法。 - 有一組資料/事實\(\large \{D_1,D_2,... D_m\}\)由專案處理, 並且可能會動態增減,
專案組得到一組假設$\large {H_1,H_2,...H_n}$, 並且可能動態增減. - 但是在每一階段可視為$\large m \(條資料/事實, 與\)\large k \(人的專案組 作出\)\large n \(種假設: 則\)\large {D_1,D_2, \cdots, D_m} \times {H_1,H_2, \cdots, H_n}\(的 每一個元素\)\large P(D_i|H_j)$
- 為透過"人們"的"主觀", 由事實/資料, 挖掘幕後科學規律時:
-
P(D)是資料或事實; 而不稱"證據",
稱"資料"體現"客觀科學的研究態度"。
因為資料經過檢驗修正, 才可能稱為"證據". -
H 是Hypothesis(假設 或 信念).
\(\large P(HID)=( P(H)×P(D|H) ) / P(D)\)
注意:- 因為 \(\large P(D|H) \leq 1 \text{ and }P(H|D) \leq 1\)
- \(\large P(D \bigcap H) = P(H) \times P(D|H) \bm{ < P(H) }\)
- \(\large P(D \bigcap H) = P(D) \times P(H|D) \bm{ < P(D) }\)
- \(\large P(D)\) 表示資料/事實原本的機率,
用"Freq.","Theoritical"或"Subjective"得出
- 因為 \(\large P(D|H) \leq 1 \text{ and }P(H|D) \leq 1\)
Types of Bayes Inference
1.同一資料D, 不同假設: H1和H2,
則可只對比 Bayes公式 右式的"分子" P(H)×P(D|H),
即 P(H1)×P(D|H1) 與 P(H2)×P(D|H2),
每一種H的先驗機率 與其 對資料解釋能力.
或每一種H與D同時發生的機率。
是因為:P(D∩H) = P(H)×P(D|H)
- 不同資料D1和D2, 同一假設H
- 不同資料D1和D2, 不同假設H1和H2
- 多份資料{Di}, 多份假設{Hi}
Bayes Theorem
\(\large \begin{array}{rl} \\
P(H|D) &=\dfrac{P(H)×P(D|H)}{P(D)} \\
H :& Hypothesis or Belief and Judgement \\
D :& Data/Reality \\
P(D \bigcap H): & probability \text{ of the } connection \text{ between }D\text{ and }H \\
\end{array}\)
-
P(H): 先驗機率,
看到資料前, "我們認為"假設發生的機率"我們"對Hypothesis(假設)的主觀機率
-
P(D|H): 似然,
如果Hypothesis為真,得到現有資料的機率Hypothesis(信念)解釋資料的能力
-
P(H|D): 後驗機率,
給定資料,"我們認為"Hypothesis發生機率 -
One Example:
D = 窗外有光,天空有碟狀飛行物;
H = 天空出現一個UFO-
觀察資料(稱資料而非證據, 客觀事實):
收集資料點,
D1 = 窗外有光,天空有碟狀飛行物; -
提出假設:
H1 = 天空出現一個UFO
以 H 成立為條件, P(D1|H1) >> P(D1)
表示一個假設/信念 解釋資料的能力 -
更新信念: 需要Bayes公式
- P(H1): 對一個信念H的先驗機率
- P(D|1H1): 信念/假設 解釋資料 的能力/機率
- P(D1∩H1): 信念/假設與資料/證據同時發生
- P(D1∩H1) / P(D1):
表示用P(D1)歸一化後,
得到P(H1|D1)的後驗機率
-
持續收集資料/事實
列出Data為行, Hypothesises為列的矩陣, 用矩陣分析每對(D,H)二維座標的機率
注意😛(D1|H1), P(D2|H2),...,P(Dn|Hn) 即對角線上座標,
因為每一步的\(\large H_{i}\), 都是基於之前已有的所有資料集\(\large D_{i-1}\)和假設\(\large H_{i-1}\),
所以可以構造出 對角線上座標的機率 普遍比其他的座標的 機率高.
甚至可以構造出特殊的“對角矩陣”。 -
例如:
H2 = 有人在窗外拍電影
D2 = 有電線吊碟狀物, 有攝影人員和燈光組
P(D2|H2) >> P(D2|H1)
而且當新的資料出現時,
新假設比最初假設, 解釋能力或可信度更強;
於是大多數人們, 會根據更多資料改變信念.
但這種行為,是不是“客觀科學”?
假設,- 1條評論評價一個商品 "5分", 少數人認為可信;
- 1000條評論評價同一個商品"5分", 更多人認為可信;
- 是不是這個"商品"就真的"5分"? 😉
這與"從眾效應"有什麼不同? - 事實上一些商家透過"刷評論"或"信用"提高"點選和購買率"推高營業額。
但這不是"Bayes公式"的問題, Bayes Theorem本身沒問題。
而是 少數商家透過"欺詐"操控"客戶"的"Subjective"主觀認知。 - 怎麼,找出每一個商品的"客觀評價"?
- 同時,這給我們一個啟示:科學本身是經過歷史檢驗和證明的,
但是“社會人”運用科學, 有不同的"認知","立場"及"利益"等多方面因素.
科學就是我們政治經濟與社會鬥爭的強大武器之一。 - 當然,還有教科書上的"Statistic Swindle"和Schemes經典案例。
-
在以上Bayes公式, 如果 P(D)(右式分母)不易計算,
但我們可以透過對比分子上的項, 就是 先驗機率 和 似然機率 的乘積,
來比較哪一個信念(假設)更更有可信度。然後, 一步步根據資料更新信念。 -
於是人們會根據更多的"資料", 綜合判斷, 更新這一系列信念的"機率";
-