人工智慧必備數學基礎:概率論與數理統計(2)

戰爭熱誠發表於2021-02-16

如果需要小編其他數學基礎部落格,請移步小編的GitHub地址

  傳送門:請點選我

  如果點選有誤:https://github.com/LeBron-Jian/DeepLearningNote

   這裡我打算再補充一下關於常見概率分佈,似然函式,後驗概率估計和一些距離公式的基礎。

  (注意:目前自己補充到的所有知識點,均按照自己網課視訊中老師課程知識點走的,同時一些公式是網友辛辛苦苦敲的,這裡用到那個部落格均在文末補充地址,不過這裡首先表示感謝!!)

 

1,常見離散概率分佈

  介紹一個概念:PMF(概率質量函式):是對離散隨機變數的定義,是離散隨機變數在各個特定取值的概率,該函式通俗來說,就是對於一個離散型概率事件來說,使用這個函式來求它的各個成功事件結果的概率。

1.1  0-1分佈

  0-1 分佈是單個二值型(n=1情況下)離散隨機變數的分佈。即只先進行一次事件實驗,該事件發生的概率為 p,不發生的概率為 1-p,這是一個最簡單的分佈,任何只有兩種結果的隨機現象都服從0-1分佈,其概率分佈函式為:

  性質:數學期望為 E(X) = p,方差為 D(X)=p(1-p)

   舉個例子,比如拋硬幣觀察正反面,新生兒是男還是女,檢測產品是否合格等,都可以用0-1分佈描述。

1.2 伯努利分佈

  伯努利分佈指的是對於隨機變數 X 有引數為 p(0<p<1),如果它以概率 p 和 1-p 取 1和 0 的值。EX=p,DX=p(1-p)。伯努利試驗成功的次數服從伯努利分佈,引數p是試驗成功的概率。伯努利分佈是一個離散型機率分佈,是 N=1時的二項分佈的特殊情況,為紀念瑞士科學家詹姆斯*伯努利而命名。

  如果隨機變數 X 只取0和1兩個值,並且相應的概率為:

  則稱隨機變數X服從引數為 p 的伯努利分佈,若令 q = 1-p,則X的概率函式可寫為:

 

1.3  二項分佈(Binomial Distribution)

  讓我們看看玩板球這個例子,假設你今天贏了一場比賽,這表示一個成功的事件。你再比了一場,但是你輸了。如果你今天贏了一場比賽,但這並不表示你明天肯定會贏。我們來分配一個隨機變數X,用於表示贏得的次數。X可能的值是多少呢?他可以是任意值,這取決於你擲硬幣的次數。只有兩種可能的結果,成功和失敗。因此,成功的概率為0.5,失敗的概率也很容易計算出來,即 q = 1- p = 0.5。

  二項分佈即重複 n 次伯努利試驗,各種試驗之間都相互獨立,並且每次試驗中只有兩種可能的結果,而且這兩種結果發生與否相互對立,比如成功與失敗,得到與失去等。如果每次試驗時,事件發生的概率為 p,不發生的概率為 1-p,則 n次重複獨立試驗中發生 k 次的概率為:

  性質:每一次嘗試都是獨立的,因為前一次投擲的結果不能影響或決定當前投擲的結果。只有兩個可能的結果並且重複n次的試驗叫二項式,二項式分佈的引數為n和p,其中n是試驗總數,p是每次試驗成功的概率,一般的二項分佈是 n 次獨立的伯努利試驗的和,它的期望值和方差分別等於每次單獨試驗的期望值和方差的和:

  這個事實很容易證明。首先假設有一個伯努利試驗。實驗中有兩個可能的結果:1和0,前者發生的概率為p,後者發生的概率為 1-p。該試驗的期望值等於 1*p + 0*(1-p) = p。該試驗的方差也可以類似的計算:σ2= (1−p)2·p+ (0−p)2·(1−p) =p(1 − p)

  總結一下,二項式分佈的屬性包括:

  • 1,每個實驗都是獨立的
  • 2,在實驗中只有兩個可能的結果:成功或失敗
  • 3,總共進行了 n 次相同的實驗
  • 4,所有實驗成功和失敗的概率是相同的

 

1.4  泊松分佈

  Poisson分佈,是一種統計與概率學裡面常見到的離散概率分佈,由法國數學家西摩恩*德尼*泊松在 2838年時發表,現實生活中多數服從泊松分佈。

  日常生活中,大量事件是由固定頻率的,比如:

  • 某醫院平均每小時出生 3 個嬰兒
  • 某網站平均每分鐘有 2次訪問
  • 某超市平均每小時銷售 4 包奶粉

  他們的特點就是,我們可以預估這些事情的總數,但是沒法知道具體的發生時間。已知平均每小時出生 3 個嬰兒,請問下一個小時,會出生幾個?有可能一下出生 6 個,也有可能一個都不出生,這是我們沒法知道的。

  當以下假設有效時,則稱為泊松分佈:

  • 1,任何一個成功的事件都不應該影響另一個成功的事件
  • 2,在短時間內成功的概率必須等於在更長的時間內成功的概率
  • 3,時間間隔很小時,在給間隔時間內成功的概率趨於零

  泊松分佈就是描述某段時間內,事件具體的發生概率。其概率函式為:

  其中:P表示概率,N表示某種函式關係,t 表示時間(即時間間隔的長),n 表示數量(即該時間間隔內的事件數),λ 表示事件的頻率,令 μ 表示長度為 t 的間隔中的平均事件數,那麼 μ = λ*t。

  例如說一個醫院內,每個出生嬰兒的都是隨機並獨立的概率,則該醫院一天(或者其他特定時間段,一小時,一週等等)要出生的嬰兒總數可以看作是一個服從 poisson 分佈的隨機變數。但是為什麼可以這樣處理你?通俗定義:假設一個事件在一段時間內隨機發生,且符合以下條件:

  • 1,將該時間段無限分割成果若干個小的時間段,在這個接近於零的小時間段內,該事件發生一次的概率與這個極小時間段的長度成正比
  • 2,在每個極小時間段內,該事件發生兩次及以上的概率恆等於零
  • 3,該事件在不同的小時間段裡,發生與否相互獨立

  繼續用上面的例子,1小時內出生3個嬰兒的概率,就表示為 P(N(1) = 3),那麼接下來兩個小時,請問會出生幾個孩子?

  有可能一下生出6個孩子,也有可能一個都不出生,這是我們沒法知道的。而泊松分佈就是描述某段時間內,事件具體發生的概率。

  一個嬰兒都不出生的概率可以求得為0.0025,說明概率非常小,基本不可能發生,計算如下:

  同理,我們可以求接下來一個小時,至少出生兩個嬰兒的概率0.8,說明概率非常大,計算如下:

   完整計算如下:

   泊松分佈的圖形大概是下面的樣子:

1.5  泊松分佈與二項分佈的關係

  當二項分佈的 n 很大而 p 很小時,泊松分佈可作為二項分佈的近似,其中 λ 為 np。通常當 n >=20,p <=0.05時,就可以用泊松公式近似的計算。

   事實上,泊松分佈正是由二項分佈推導而來的。

 

2,常見連續概率分佈

  與PMF相對應的,在連續隨機變數中叫 PDF(概率密度函式):是對連續性隨機變數的定義,與PMF 不同的是 PDF 在特定點上的值並不是該點的概率,連續隨機概率事件只能求一段區域內發生事件的概率,通過對這段區間進行積分來求,通俗來說,使用這個概率密度函式將想要求的概率的區間的臨界點(最大值和最小值)帶入求積分,就是該區間的概率。

2.1  均勻分佈

  在概率論和統計學中,均勻分佈也叫矩形分佈,它是對稱概率分佈,在相同長度間隔的分佈概率是等可能的。均勻分佈由兩個引數a和b定義,他們是數軸上的最小值和最大值,通常縮寫為 U(a,  b)

  對於擲骰子來說,結果是1~6,得到任何一個結果的概率是相同的,這就是均勻分佈的基礎。與伯努利分佈不同,均勻分佈的所有可能結果的 n 個數也是相等的。如果變數 X 是均勻分佈的,則密度函式可以表示為:

  均勻分佈的曲線是這樣的:

  你可以看到,均勻分佈曲線的形狀是一個矩形,這也是均勻分佈又稱為矩形分佈的原因,其中a和b是引數。

  均值和方差如下:

  舉個例子,花店每天銷售的花束數量是均勻分佈的,最多為 40 ,最小為 10,我們來計算一下銷售量在 15~30之間的概率。

  日銷售量 在 15~30之間的概率為 (30-15)/(40-10)) = 0.5,同樣的,日銷售量大於 20 的概率為 0.667。

2.2   指數分佈

  在概率理論和統計學中,指數分佈(也稱為負指數分佈)是描述泊松過程中的事件之間的時間的概率分佈,即事件以恆定平均速率連續且獨立地發生的過程。這是伽馬分佈的一個特殊情況。他是幾何分佈的連續模擬,它具有無記憶的關鍵性質。除了用於分析泊松過程外,還可以在其他各種環境中找到。

  指數分佈是指事件的時間間隔的概率,它的一個重要特徵是無記憶性。例如:如果某一元件的壽命為T,已知元件使用了 t 小時,它總共使用至少 t+s 小時的條件概率,與從開始使用時他使用至少 s 小時的概率相等。下面這些都屬於指數分佈:

  • 嬰兒出生的時間間隔
  • 網站訪問的時間間隔
  • 奶粉銷售的時間間隔

   指數分佈的公式可以從泊松分佈推斷出來。如果下一個嬰兒要間隔時間 t,就等同於 t 之內沒有任何嬰兒出生,即:

  則:

  如:接下來 15 分鐘,會有嬰兒出生的概率為:

  指數分佈的影像如下:

  指數分佈的均值和方差:

2.3  高斯分佈(整體分佈)

  高斯分佈又叫正態分佈,其曲線呈鐘形,兩頭低,中間高,左右對稱因其曲線呈鐘形,如下圖所示:

  若隨機變數 X 服從一個數學期望為 μ ,方差為 σ2 的概率分佈,且其概率密度函式為:

  則這個隨機變數就稱為正態隨機變數,正態隨機變數服從的分佈稱為正態分佈,我們將其記為:X~N(μ, σ2)。其期望值 μ 決定了正態分佈的位置,其標準差 σ (方差的開方)決定了正態分佈的幅度。

  標準正態分佈為當 μ = 0, σ = 1時,正態分佈就成了標註正態分佈:

  正態分佈為什麼常見?

  真正原因是中心極限定理(Central limit theorem)。根據中心極限定理,如果一個事物受到多種因素的英雄,不管每個勻速本身是什麼分佈,他們加總後,結果的平均值就是正態分佈。正態分佈只適合各種因素累加的情況,如果這些因素不是彼此獨立的,會互相加強英雄,那麼就不是正態分佈了。

2.4  卡方分佈(Chi-Squared Distribution)

  卡方分佈通俗的說,就是通過小數量的樣本容量去預估總體容量的分佈情況。卡方檢驗就是統計樣本的實際觀測值與理論推斷值之間的偏離程度。

  若 n 個相互獨立的隨機變數 ζ1, ζ2, ζ3.... ζn,均服從標準正態分佈(也稱獨立同分佈於標準正態分佈),則這 n 個服從標準正態分佈的隨機變數的平方和構成一新的隨機變數,其分佈規律成為卡方分佈(chi-square distribution)。

  自由度:假設你現在手頭有3個樣本。因為樣本具有隨機性,所以他們取值不定。但是假設處於某種原因,我們需要讓樣本均值固定,比如說有一個樣本是固定的,那麼這時真正取值自由,”有隨機性“ 的樣本只有兩個,試想,如果每取一組的值,將影響下一組的值,那麼對於後面樣本來說,就被剝奪了自由度。所以就這個例子而言,三個樣本最終”自由“的樣本只有一個。

  卡方檢驗的思想是根據樣本資料推斷總體的頻次與期望頻次是否有顯著性差異。

  公式如下:

2.5  beta 分佈

  貝塔分佈(Beta Distribution) 是一個作為伯努利分佈和二項式分佈的共軛先驗分佈的密度函式,在及其學習和數理統計學中有重要應用。在概率論中,貝塔分佈也稱為 B分佈,是指一組定義在(0, 1)區間的連續概率分佈。

  B 分佈的概率密度函式為:

 

  其中,Γ(z) 是 Γ 函式,隨機變數  X 服從引數為 α,β 的 B 分佈通常寫作:

 

  B 分佈的累積分佈函式是:

 

  其中 Bx(α,β )  是不完全 B 函式, Ix(α,β ) 是正則不完全貝塔函式。

  簡單說,Beta分佈可以看作一個概率的概率分佈,當你不知道一個東西的具體概率是多少時,他可以給出來所有概率出現的可能性大小。

  舉一個簡單的例子,熟悉棒球運動的都知道有一個指標就是棒球擊球率( betting  average),就是用一個運動員擊中的球數除以擊球的總數,我們一般認為 0.266 是正常水平的擊球率,而如果擊球率高達 0.3 就被認為是非常優秀的。現在有一個棒球運動員,我們希望能夠預測他在這一賽季中的棒球擊球率是多少。你可能就會直接計算棒球擊球率,用擊中的數除以擊球數,但是如果這個棒球運動員只打了一次,而且還命中了,那麼他的擊球率就是 100%,這顯然是不合理的,因為根據棒球的歷史資訊,我們知道這個擊球率應該是 0.215~0.36之間才對。所以對於這個問題一個最好的辦法就是用 beta 分佈,這表示我們沒有看見這個運動員打球之前,我們就有了一個大概的範圍。beta分佈的定義域是(0, 1),這就跟概率的範圍是一樣的。接下來我們將這些先驗資訊轉換為 beta 分佈的引數,我們知道一個擊球率應該是平均 0.27 左右,而他的範圍是 0.21~0.35 ,那麼根據這個資訊,我們可以取 α = 81,β = 219 (擊中了 81 次,未擊中 219 次)。

  之所以取這兩個引數是因為:

  • beta 分佈的均值是從圖中可以看到這個分佈主要落在了 (0.2, 0.35)區間,這是從經驗中得到的合理範圍
  • 在這個例子中,我們的 x 軸就表示各個擊球率的取值,x 對應的 y 值就是這個擊球率所對應的概率,也就是說 beta 分佈可以堪稱一個概率的概率分佈

  0 和 β0 是一開始的引數,在這裡是 81 和 219,當 α 增加了 1(擊中了一次)。β 沒有增加(沒有漏球)。這就是我們的新的 beta 分佈 Beta(81,  219),可以看到這個分佈其實沒有多大的變化,這是因為只打了一次球並不能說明什麼問題。但如果我們得到了更多的資料,假設一共打了 300 次,其中擊中了 100次,200次沒有擊中,那麼這一新分佈就是 Beta(81+100, 219+200)。注意到這個曲線變得更尖,並且平移到了一個右邊的位置,表示比平均水平要高。因此,對於一個我們不知道概率是什麼,而又有一些合理的猜測時,Beta分佈能夠很好的作為一個表示概率的概率分佈。

 

3, 極大似然估計與最大後驗概率估計

3.1  概率和似然的區別

  其實將似然放在這裡有些不妥,畢竟似然和概率還是有些區別的。不過我在學習似然之前,還是先學習一下其與概率的區別。

  概率用於在已知一些引數的情況下,預測接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物的性質的引數進行估計。這裡需要對引數估計進行說明,引數估計(parameter estimation) 則是根據從總體中抽取的樣本估計總體分佈中包含的未知引數的方法。人們常常需要根據手中的資料,分析或推斷資料反應的本質規律。即根據樣本資料如何選擇統計量去推斷總體的分佈或數字特徵等。統計推斷是數理統計研究的核心問題。所謂統計推斷是根據樣本對總體分佈或分佈的數字特徵等做出合理的推斷。他是統計推斷的一種基本形式,是數理統計學的一個重要分支,分為點估計和區間估計兩部分。

  順帶提一下先驗概率和後驗概率的區別:

  先驗概率是指根據以往經驗和分析得到的概率,如全概率公式中的,他往往作為”由因求果“問題中的”因“ 出現。後驗概率是指在得到”結果“ 的資訊後重新修正概率,是”執果尋因“ 問題中的”因“。

3.2 頻率學派和貝葉斯學派

  在說極大似然估計(Maximum  Likelihood Estimate) 與最大後驗概率估計(Maximum A Posteriori estimation)之前,我們要學習一下對概率看法的兩大學派頻率學派和貝葉斯學派。他們看待世界的視角不同,導致他們對於產生資料的模型引數的理解也不同。

頻率學派

  他們認為世界是確定的。他們直接為事件本身建模,也就是說事件在多次重複實驗中趨於一個穩定的值 p,那麼這個值就是該事件的概率。

  他們認為模型引數是個定值。希望通過類似解方程組的方式從資料中求得未知數。這就是頻率學派使用的引數估計方法——極大似然估計(MLE),這種方法往往在大資料量的情況下可以很好的還原模型的真實情況。

貝葉斯學派

  他們認為世界是不確定的,因獲取的資訊不同而異。假設對世界先有一個預先的估計,然後通過獲取的資訊來不斷調整之前的預估計。他們不試圖對事件本身進行建模,而是從旁觀者的角度來說。因此對於同一個事件,不同的人掌握的先驗不同的話,那麼他們所認為的事件狀態也會不同。

  他們認為模型引數源自於某種潛在的分佈,希望從資料中推出該分部。對於資料的觀測方式不同或者假設不同,那麼推知的該引數因此也存在差異。這就是貝葉斯學派視角下用來估計引數的常用方法——最大後驗概率估計(MAP),這種方法在先驗假設比較靠譜的情況下效果顯著,隨著資料量的增加,先驗假設對於模型引數的主導作用會逐漸削弱,相反真實資料樣例會大大佔據有利地位。極端情況下,比如把先驗假設去掉,或者假設先驗滿足均勻分佈的話,那麼她和極大似然估計就如出一轍。

3.3  似然函式的概念

  統計學中,似然函式是一種關於統計模型引數的函式,表示模型引數中的似然性。給定輸出 x 時,關於引數 Θ 的似然函式 L(Θ|x) (在數值上)等於給定引數 Θ 後變數  X 的概率:

  其中 P(x|Θ) 是密度函式,表示給定 Θ 下的聯合密度函式。而似然函式是關於 Θ 的函式,密度函式是關於 x 的函式

  似然函式在推斷統計學(Statistical  inference)中扮演重要角色,如在最大似然估計和費雪資訊之中的應用等等。“似然性” 與 “或然性” 或“概率” 意思相近,都是指某件事情發生的可能性,但是在統計學中,“似然性” 與 “或然性” 或“概率” 又有明確的區分。概率用於在已知一些引數的情況下,預測接下來的觀測所得到的結果,而似然性則是用於在已知某些觀測所得到的結果時,對有關事物的性質的引數進行估計。

  離散型概率分佈:假設一個關於引數 Θ ,具有離散型概率分佈 P 的隨機變數 X,則在給定 X 的輸出X時,引數 Θ 的似然函式可表示為:

  其中, p(x) 表示 X 取 x 時的概率。上式常常寫為 P(X=x|Θ) 或者 P(X=x ;Θ),需要注意的是,此處並非條件概率,因為 Θ 不(總)是隨機變數。

  如果有上式成立,則在引數 Θ1 下隨機變數 X取到 x 值的可能性大於 Θ2。

  連續型概率分佈:假定一個關於引數 Θ,具有連續概率密度函式 f 的隨機變數X,則在給定 X 的輸出 x 時,引數 Θ 的似然函式可表示為:

  上式常常寫為 f(x|Θ),同樣需要注意的是,此處並非條件概率密度函式。

  連續情況下的概率密度函式是:如果X是連續隨機變數給定足夠小的 ε >0 ,那麼其在(x-ε, x+ε)內的概率為:

  得到的結果與離散型是一致的,概率表達了在給定引數 Θ 時X=x 的可能性而似然表示的是給定樣本 X=x 時,引數的可能性!

3.4   極大似然估計

  極大似然估計方法(Maximum Likelihood Estimate,MLE)也稱為最大概似估計或最大似然估計,它是頻率學派模型引數估計的常用方法,是求估計的另一種方法。

  似然,可以簡單理解為概率,可能性。極大似然估計,通俗理解就是:利用已知的樣本結果資訊,反推最具有可能(最大概率)導致這些樣本結果出現的模型引數值!換句話說:極大似然估計提供了一種給定觀察資料來評估模型引數的方法,即“模型已定,引數未知”。

  極大似然估計的原理:它是建立在極大似然原理的基礎上的一個統計方法,極大似然原理的直觀想法是,一個隨機試驗如有若干個可能的結果A,B,C,...,若在一次實驗中,結果A出現了,那麼可以認為實驗條件對A的出現有利,也即出現的概率P(A) 較大。極大似然原理的直觀想法我們用心下面的例子說明。設甲箱中有 99 個白球,1個黑球;乙箱中有1個白球,99個黑球。現隨機取出一箱,再從抽取的箱子中隨機取出一球,結果是黑球,這一黑球從乙箱抽取的概率比甲箱抽取的概率大得多,這時我們自然更多的相信這個黑球是取自乙箱的。一般來說,事件A發生的概率與某一未知引數 Θ 有關,Θ 取值不同,則事件發生的概率 P(A|Θ) 也不同,當我們在一次實驗中事件A發生了,則認為此時的 Θ 值應該是 t 的一切可能取值中使 P(A|Θ) 達到最大的哪一個,極大似然估計法就是要選取這樣的 t 值作為引數 t 的估計值,使所選取的樣本在被選的總體中出現的可能性為最大。

   或者看如下例子:

   求極大似然函式估計值的一般步驟

  • 1,寫出似然函式
  • 2,對似然函式取對數,並整理
  • 3,求導數
  • 4,解似然函式

  利用高等數學中求多元函式的極值的方法,有以下極大似然估計法的具體做法

1,根據總體的分佈,建立似然函式 L(x1, x2,...xn;Θ1,Θ2,...Θk)

2,當  L關於 Θ1,Θ2,...Θk 可微時,(由微積分求極值的原理)可知方程組:

  定出 Θhati(i=1,2,...k),稱以上方程組為似然函式。

  因為 L與 InL 具有相同的極大值點,所以 Θhati(i=1,2,...k) 也可由方程組

  定出 Θhati(i=1,2,...k) ,稱以上方程組為對數似然方程;Θhati(i=1,2,...k) 就是所求引數Θi(i=1,2,...k) 的極大似然估計值。

  當總體是離散型的,將上面的概率密度函式 f(x, Θ1,Θ2,...Θk) 換成它的分佈律:

  例1:設X服從引數 λ( λ > 0) 的泊松分佈, x1, x2,...xn 是來自 X 的一個樣本值,求 λ 的極大似然估計值。

  因為 X的分佈律為:

  所以 λ 的似然函式為:

  對似然函式取對數:

  再取 λ 的偏導數等於 0的解:

  解得 λ 的極大似然估計值為:

  例2:假設一個盒子裡面有紅黑共10個球,每次有放回的取出,取了10次,結果為7次黑球,3次紅球。問拿出黑球的概率 p 是多少?

  我們假設7次黑球,三次紅球為事件 A,一個理所當然的想法就是既然事件 A 已經發生了,那麼事件 A 發生的概率應該最大。所以既然事件 A 的結果已定,我們就有理由相信這不是一個偶然發生的事件,這個已發生的事件肯定一定程度上反映了黑球在整體中的比例。所以我們要讓模型產生這個整體事件的概率最大,我們把這十次抽取看成一個整體事件 A,很明顯事件 A發生的概率是每次子事件概率之積。我們把 P(A) 看成一個關於 p 的函式,求 P(A) 取最大值時的 p,這就是極大似然估計的思想。具體公式化描述為 P(A) = p7*(1-p)3,接下來就是取對數轉換為累加,然後通過求導令式子為 0 來求極值,求出 p 的結果。

3.5  最大後驗概率估計

  最大後驗概率估計(Maximum a posteriori probability estimate,簡稱 MAP)是貝葉斯模型引數估計的常用方法,與最大似然估計類似,但是在似然函式後面多乘了一項,即“待估計引數的先驗分佈”。故最大後驗估計可以看做規則化的最大似然估計。

  顧名思義就是最大化在給定資料樣本的情況下模型引數的後驗概率。它依然是根據已知樣本,來通過調整模型引數使得模型能夠產生該資料樣本的概率最大,只不過對於模型引數有了一個先驗假設,即模型引數可能滿足某種分佈,不再一味地依賴資料樣例(萬一資料量少或者資料不靠譜呢)。

  根據貝葉斯理論,對於 θ 的後驗分佈:

 

  後驗分佈的目標為:

 

  分母為 f(x) ,是固定值。

  MAP 認為, θ 是一個隨機變數,其先驗概率密度函式是已知的,為 P(θ),所以其目標為:

 

  MLE 認為,θ 是非隨機變數或者分佈未知的隨機變數,這兩種情況都可以認為 P(θ) 均勻分佈的,即該概率是一個固定值,P(θ)=C,所以其目標為:

 

  注意:最大後驗估計可以看做是貝葉斯估計的一種特定形式。

  在這裡舉個擲硬幣的例子:擲一枚硬幣10次,有10次正面朝上,0次反面朝上。問證明朝上的概率 θ。

  在頻率學派看來,利用極大似然估計可以得到 θ = 10/10 = 1.0 。顯然當缺乏資料時 級大師讓郵寄會產生嚴重的偏差。

  如果我們利用最大後驗概率估計來看這件事,先驗認為大概率下這個硬幣是均勻的(例如最大值取在0.5 處的 beta分佈),那麼P(θ|X)  是一個分佈,最大值會介於 0.5~1 之間,而不是武斷的給出 θ =1。

  顯然,隨著資料量的增加,引數分佈會更傾向於向資料靠攏,先驗假設的影響會越來越小。

3.6  經驗風險最小化與結構風險最小化

  經驗風險最小化與結構風險最小化是對於損失函式而言的。可以說經驗風險最小化只側重訓練資料集上的損失降到最低;而結構風險最小化是在經驗風險最小化的基礎上約束模型的複雜度,使其在訓練資料集的損失降到最低的同時,模型不至於過於複雜,相當於在損失函式上增加了正則項,防止模型出現過擬合狀態。這一點也符合了奧卡姆剃刀原理:如無必要,勿增實體

  經驗風險最小化可以看做是採用了極大似然估計的引數評估方法,更側重從資料中學習模型的潛在引數,而且是隻看重資料樣本本身。這種在資料樣本缺失的情況下,很容易管中窺豹,模型發生過擬合的狀態;結構風險最小化採用了最大後驗概率估計的思想來推測模型引數,不僅僅是依賴資料,還依靠模型引數的先驗假設。這樣在資料樣本不是很充分的情況下,我們可以通過模型引數的先驗假設,輔助以資料樣本,做到儘可能的還原真實模型分佈。

經驗風險最小化

  MLE(極大似然估計)是經驗風險最小化的例子。當模型是條件概率分佈,損失函式是對數損失函式時,經驗風險最小化就等價於極大似然估計。這裡舉個邏輯(LR)迴歸的例子。

  • 對於二分類的邏輯迴歸來說,我們試圖把所有資料正確分類,要麼0,要麼1
  • 通過累乘每個資料樣例來模擬模型產生資料的過程,並最大化 ΠP(1)ΠP(0)
  • 我們需要通過取對數來實現概率之積轉為概率之和 Σ lnP(1) + Σ lnP(0)
  • 我們可以根據資料標籤的0, 1 特性來將上式改為 1/m*Σ(y * lnP(1) + (1-y) * lnP(0) )

  這樣我們通過極大似然估計來推匯出了邏輯迴歸的損失函式,同時極大似然是經驗風險最小化的一個特例。

結構風險最小化

  MAP(最大後驗概率估計)是結構風險最小化的例子。當模型是條件概率分佈,損失函式是對數損失函式,模型複雜度由模型的先驗概率表示時,結構風險最小化就等價於最大後驗概率估計。在這裡舉個推薦系統中的矩陣概率分解(PMF)的例子。

  • 先說一下矩陣分解的原理:推薦系統的評分預測場景可以看做是一個矩陣補全的遊戲,矩陣補全是推薦系統的任務,矩陣分解是其達到目的的手段。因此,矩陣分解是為了更好地完成矩陣補全任務(欲其補全,先其分解之)。之所以可以利用矩陣分解來完成矩陣補全的操作,那是因為基於這樣的假設——假設 UI矩陣是低秩的,即在大千世界中,總會存在相似的人或物,即物以類聚人以群分,然後我們可以利用兩個小矩陣相乘來還原評分大矩陣。
  • 它假設評分矩陣中的元素 Rij 是由使用者潛在偏好向量 Ui 和物品潛在屬性向量 Vj 的內積決定的,並且服從均值為 UiTVj ,方差為 σ2 的正態分佈:Rij~n(UiTVj, σ2)
  • 則觀測到的評分矩陣條件概率為:
  • 同時,假設使用者偏好向量與物品偏好向量服從均值都為0,方差分別為 σ2 UI, σ2VI 的正態分佈:

  • 根據最大後驗概率估計,可以得出隱變數 U,V 的後驗概率為:

  • 接著,等式兩邊取對數 In,並且將正態分佈展開後得到:

  這樣,我們通過最大後驗概率估計推匯出了概率矩陣分解的損失函式。可以看出結構風險最小化是在經驗風險最小化的基礎上增加了模型引數的先驗。

3.7  MLE 和 MAP 的聯絡

  在介紹經驗風險與結構風險最小化的時候以具體的邏輯迴歸(LR)與概率矩陣分解(PMF)模型來介紹 MLE 和 MAP,接下來從巨集觀的角度,不侷限於具體的某個模型來推導 MLE 和 MAP。

  假設資料 x1, x2, ....xn 是滿足獨立同分布(i.i.d)的一組抽樣 X=(x1, x2, ...xn),接下來就利用兩種引數估計方法來求解。

  • MLE 對引數 θ 的估計方法如下:

  • MAP 對引數 θ 的估計方法如下:

  所以 MAP 和 MLE 在優化時的不同就是在於增加一個先驗項  -log P(Θ)。

  通過上面的分析可以大致給出他們的聯絡:MAP(Θ) ≈  MLEP(Θ)  -log P(Θ)

 

4,幾種常用的距離

  在機器學習裡,我們的運算一般都是基於向量的,一條使用者具有100個特徵,那麼它對應的就是一個 100 維的向量,通過計算兩個使用者對應向量之間的距離值大小,有時候能反映出這兩個使用者的相似程度(這個在KNN演算法和K-Means演算法中很明顯)。

  這裡設有兩個 n 維變數 A={x11, x12, ... x1n} 和  B={x21, x22, ... x2n},則一些常用的距離公式定義如下:

4.1  曼哈頓距離

  曼哈頓距離也稱為城市街區距離,數學定義如下:

  曼哈頓距離的 Python實現:

from numpy import *

vector1 = mat([1,2,3])
vector2 = mat([4,5,6])

Manhattan_distance = sum(abs(vector1 - vector2))

 

4.2  歐式距離

  歐式距離其實就是L2範數,數學定義如下:

  歐式距離的Python實現:

from numpy import *

vector1 = mat([1,2,3])
vector2 = mat([4,5,6])

Euclidean_distance = sqrt((vector1 - vector2)*(vector1 - vector2).T)

 

4.3  閔可夫斯基距離

  從嚴格意義上講,閔可夫斯基距離不是一組距離,而是一組距離的定義:

  實際上,當 p=1 時,就是曼哈頓距離;當 p=2 時,就是歐式距離。

4.4  切比雪夫距離

  切比雪夫距離就是 Lw,即無窮範圍,數學表示式如下:

  切比雪夫距離Python實現如下:

from numpy import *

vector1 = mat([1,2,3])
vector2 = mat([4,5,6])

Chebyshev_distance = sqrt(abs(vector1 - vector2).max)

 

4.5  夾角餘弦

  夾角餘弦的取值範圍為 [-1, 1],可以用來衡量兩個向量方向的差異;夾角餘弦越大,表示兩個向量的夾角越小;當兩個向量的方向重合時,夾角餘弦取最大值1,當兩個向量的方向完全相反時,夾角餘弦取最小值 -1。

  機器學習中用這一概念來衡量樣本向量之間的差異,其數學表示式如下:

  夾角餘弦的Python實現如下:

from numpy import *
vector1 = mat([1,2,3])
vector2 = mat([4,5,6])
IncludedAngleCosine = dot(vector1,vector2)/(linalg.norm(vector1)*linalg.norm(vector2))

 

4.6  漢明距離

  漢明距離定義的是兩個字串中不相同維數的數目。例如:字串“1111”與“1001”之間的漢明距離為2。

  資訊編碼中一般應使得編碼間的漢明距離儘可能的小。

  漢明距離的Python實現:

from numpy import *

matV = mat([1,1,1,1], [1,0,0,1])

Hanming_distance = nonzero(matV[0] - matV[1])

 

4.7  傑拉德相似係數

  兩個集合 A 和 B 的交集元素在 A 和 B 的並集中所佔的比例稱為兩個集合的傑拉德相似係數,用符號 J(A, B) 表示,數學表示式為:

  傑拉德相似係數是衡量兩個集合的相似度的一種指標。一般可將其用在衡量樣本的相似度上。

4.8  傑拉德距離

  與傑拉德相似係數相反的概念是傑拉德距離,其定義式為:

  傑拉德距離的Python實現:

from numpy import *
import scipy.spatial.distance as dist

matV = mat([1,1,1,1],[1,0,0,1])
jaccard_distance =  dist.pdist(matV,'jaccard')

 

 

參考地址: 距離 https://zhuanlan.zhihu.com/p/25197792

https://zhuanlan.zhihu.com/p/40024110

相關文章