2019機器學習試題及個人思路
僅供參考,如有錯誤請指正
1. 資訊增益的定義,資訊增益的好處?決策樹決策面是否為線性,舉例說明。
- 資訊增益是集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A) - 一般也將熵與條件熵的差值叫做互資訊,決策樹學習中的資訊增益等價於訓練資料集中的類和特徵的互資訊。互資訊表示由於特徵A使資料集D分類的不確定性減少的程度,因此互資訊高的特徵有更強的分類能力。依此決策能夠有很好的分類效果。
- (感覺是在問資訊增益比的好處)資訊增益往往偏向於劃分數較多的特徵——劃分的越細往往分類效果越好。因此要進行校正,採用資訊增益比,將資訊增益除以資料集D關於特徵A值的熵
H
A
(
D
)
H_A(D)
HA(D)來決策:
g R ( D , A ) = g ( D , A ) H A ( D ) g_R(D,A)=\frac{g(D,A)}{H_A(D)} gR(D,A)=HA(D)g(D,A)
其中 H A ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ log 2 ∣ D i ∣ ∣ D ∣ H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|} HA(D)=−i=1∑n∣D∣∣Di∣log2∣D∣∣Di∣
-決策樹是非線性分類器(可以解決異或問題)。如果每個屬性只使用一次,決策樹的決策面是對樣本空間的一個劃分:
2.最小概率下最優分類方法及證明
即證明貝葉斯最優分類器 - 決策方法:
h ( X ) = − ln p 1 ( X ) + ln p 2 ( X ) > < ln π 1 π 2 h(X)=-\ln p_1(X)+\ln p_2(X) \frac{>}{<} \ln \frac{\pi_1}{\pi_2} h(X)=−lnp1(X)+lnp2(X)<>lnπ2π1
(大於小於放一塊不會打) - 證明
均損失為:
C M = ∫ L 1 P 2 p 2 ( x ) + ∫ L 2 P 1 p 1 ( x ) = ∫ L 1 P 2 p 2 ( x ) + P 1 ( 1 − ∫ L 1 p 1 ( x ) ) = ∫ L 1 ( P 2 p 2 ( x ) − P 1 p 1 ( x ) ) + P 1 \begin{aligned} C_M&=\int_{L1}P_2p_2(x) + \int_{L2}P_1p_1(x)\\ &=\int_{L1}P_2p_2(x)+P_1(1-\int_{L_1}p_1(x))\\ &=\int_{L1}(P_2p_2(x)-P_1p_1(x)) + P_1 \end{aligned} CM=∫L1P2p2(x)+∫L2P1p1(x)=∫L1P2p2(x)+P1(1−∫L1p1(x))=∫L1(P2p2(x)−P1p1(x))+P1
min ∫ L 1 ( P 2 p 2 ( x ) − P 1 p 1 ( x ) ) + P 1 ⟺ max ∫ L 1 ( P 1 p 1 ( x ) − P 2 p 2 ( x ) ) \min\int_{L1}(P_2p_2(x)-P_1p_1(x)) + P_1 \iff \max\int_{L1}(P_1p_1(x)-P_2p_2(x)) min∫L1(P2p2(x)−P1p1(x))+P1⟺max∫L1(P1p1(x)−P2p2(x))
易得 P 1 p 1 ( x ) = P 2 p 2 ( x ) P_1p_1(x)=P_2p_2(x) P1p1(x)=P2p2(x) 時滿足條件,為均誤差最小點,整理得最優判決界:
ln p 2 ( x ) p 1 ( x ) = ln π 1 π 2 \ln \frac{p_2(x)}{p_1(x)} = \ln \frac{\pi_1}{\pi_2} lnp1(x)p2(x)=lnπ2π1
3. 什麼是過擬合,決策樹、SVM如何解決過擬合?
- 過擬合:過擬合是指過度的學習訓練集特徵導致模型泛化能力不足,在訓練集上損失很低甚至零損失,但在測試集上表現的很差。
- 決策樹解決過擬合:決策樹採用剪枝來簡化模型,降低決策樹的複雜度,避免過擬合:
C α ( T ) = ∑ t = 1 ∣ T ∣ N t H t ( T ) + α ∣ T ∣ C_\alpha (T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha |T| Cα(T)=t=1∑∣T∣NtHt(T)+α∣T∣
決策樹的生成是不斷選擇區域性最優,而剪支則需考慮全域性的情況。遞迴的從葉節點回縮,如果得到的樹T相比原先的樹 C α C_\alpha Cα降低,則選擇剪枝。總體的思路是關注分類程度的同時,對樹的複雜度進行約束:
C o s t ( M o d e l , D a t a ) = C o s t ( D a t a ∣ M o d e l ) + C o s t ( M o d e l ) Cost(Model, Data)=Cost(Data|Model) + Cost(Model) Cost(Model,Data)=Cost(Data∣Model)+Cost(Model) - SVM解決過擬合:引入軟間隔概念,不再是絕對的劃分,允許一些點有誤差可以防止模型過擬合,提高泛化能力:
min w , b , ξ 1 2 ∣ ∣ w ∣ ∣ 2 + C ∑ i = 1 N ξ i \min_{w,b,\xi} \frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i w,b,ξmin21∣∣w∣∣2+Ci=1∑Nξi
s.t. y i ( w x i + b ) > = ξ i , i = 1 , 2 , . . . , N y_i(wx_i+b)>=\xi_i,i=1,2,...,N yi(wxi+b)>=ξi,i=1,2,...,N
ξ i > = 0 \xi_i>=0 ξi>=0
4. 在第二題的分類方法下,假設類概率分佈為伯努利,類條件概率為協方差相同的高斯分佈,求分介面方程和後驗概率? - 如題
π 1 = P , π 2 = 1 − P \pi_1=P,\pi_2=1-P π1=P,π2=1−P
p 1 ( x ) = 1 ( 2 π ) n ∣ Σ ∣ 1 2 exp − ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) 2 p_1(x)=\frac{1}{(2\pi)^n|\Sigma|^{\frac{1}{2}}}\exp^{-\frac{(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}{2}} p1(x)=(2π)n∣Σ∣211exp−2(x−μ1)TΣ−1(x−μ1)
p 2 ( x ) = 1 ( 2 π ) n ∣ Σ ∣ 1 2 exp − ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) 2 p_2(x)=\frac{1}{(2\pi)^n|\Sigma|^{\frac{1}{2}}}\exp^{-\frac{(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)}{2}} p2(x)=(2π)n∣Σ∣211exp−2(x−μ2)TΣ−1(x−μ2)
分介面為:
ln p 2 ( x ) p 1 ( x ) = ln π 1 π 2 \ln \frac{p_2(x)}{p_1(x)} = \ln \frac{\pi_1}{\pi_2} lnp1(x)p2(x)=lnπ2π1
ln p 2 ( x ) − ln p 1 ( x ) = ln P 1 − P \ln p_2(x) - \ln p_1(x) = \ln \frac{P}{1-P} lnp2(x)−lnp1(x)=ln1−PP
− ( x − μ 2 ) T Σ − 1 ( x − μ 2 ) 2 + ( x − μ 1 ) T Σ − 1 ( x − μ 1 ) 2 = ln P 1 − P -\frac{(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)}{2}+\frac{(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}{2} = \ln \frac{P}{1-P} −2(x−μ2)TΣ−1(x−μ2)+2(x−μ1)TΣ−1(x−μ1)=ln1−PP
2 ( μ 2 T Σ − 1 − μ 1 T Σ − 1 ) x + ( μ 1 T Σ − 1 μ 1 − μ 2 T Σ − 1 μ 2 ) + ln 1 − P P = 0 2(\mu_2^T\Sigma^{-1}-\mu_1^T\Sigma^{-1})x+(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)+\ln \frac{1-P}{P}=0 2(μ2TΣ−1−μ1TΣ−1)x+(μ1TΣ−1μ1−μ2TΣ−1μ2)+lnP1−P=0
5. 邏輯迴歸優化目標函式,以及交叉熵角度的理解
- 邏輯迴歸優化目標函式
l ( w ) = ln ∏ l P ( Y l ∣ X l , W ) = ∑ l ln P ( Y l ∣ X l , W ) = ∑ l Y l ln ( P ( Y l = 1 ∣ X l , W ) ) + ( 1 − Y l ) ln ( P ( Y l = 0 ∣ X l , W ) ) \begin{aligned} l(w)&=\ln \prod_l P(Y^l|X^l,W)\\ &=\sum_l \ln P(Y^l|X^l,W)\\ &=\sum_l Y^l\ln(P(Y^l=1|X^l,W))+(1-Y^l)\ln(P(Y^l=0|X^l,W)) \end{aligned} l(w)=lnl∏P(Yl∣Xl,W)=l∑lnP(Yl∣Xl,W)=l∑Ylln(P(Yl=1∣Xl,W))+(1−Yl)ln(P(Yl=0∣Xl,W)) - 交叉熵角度:交叉熵的兩個概率分別是真實分佈和估計分佈。本式中,
Y
l
Y^l
Yl為類別1時的真實分佈,
ln
(
P
(
Y
l
=
1
∣
X
l
,
W
)
)
\ln(P(Y^l=1|X^l,W))
ln(P(Yl=1∣Xl,W))為類別1的估計概率資訊量,因為:
D K l ( p ∣ ∣ q ) = − H ( p ) + H ( p , q ) D_{Kl}(p||q)=-H(p)+H(p,q) DKl(p∣∣q)=−H(p)+H(p,q)
Kl散度為交叉熵減去真實分佈的資訊熵,kl散度用來判斷分佈之間差距,因此用交叉熵作為損失函式可以很好的反應估計分佈與真實分佈之間的關係。
6. PCA推導,應用舉例
- 想要找到一個投影方向使得資訊能最大程度保留,即方差最大:
max ∑ i ( u T x i − u T x ‾ ) 2 = u T S u \max \sum_i (u^Tx_i-u^T\overline{x})^2=u^TSu maxi∑(uTxi−uTx)2=uTSu
s.t. u T u = 1 u^Tu=1 uTu=1
拉格朗日乘子法求解:
u T S u + λ ( 1 − u T u ) u^TSu+\lambda(1-u^Tu) uTSu+λ(1−uTu)
得:
S u = λ u , u T S u = λ Su=\lambda u,u^TSu=\lambda Su=λu,uTSu=λ
因此最大方差對應最大特徵值,投影方向為最大特徵值的特徵向量。 - 應用:影像壓縮,特徵提取,資料降維
7. GMM模型優化目標函式(EM)主要步驟,協方差為0的情況,處理方法?
- 目標函式,不完全資料的對數似然函式:
L ( θ ) = log P ( y ∣ θ ) = log ( ∑ Z P ( y , z ∣ θ ) ) L(\theta)=\log P(y|\theta)=\log(\sum_ZP(y,z|\theta)) L(θ)=logP(y∣θ)=log(Z∑P(y,z∣θ))
經過推導,可以轉換為完全資料對數似然函式的期望:
log P ( y ∣ θ ) = log ( ∑ Z P ( y , z ∣ θ ) ) = log ( ∑ Z P ( z ) P ( y , z ∣ θ ) P ( z ) ) ≥ ∑ Z P ( z ) log ( P ( y , z ∣ θ ) P ( z ) ) = E z [ log P ( y , z ∣ θ ) ] + H ( z ) \begin {aligned} \log P(y|\theta)&=\log(\sum_ZP(y,z|\theta))\\ &=\log(\sum_ZP(z)\frac{P(y,z|\theta)}{P(z)})\\ &\ge\sum_ZP(z)\log(\frac{P(y,z|\theta)}{P(z)})\\ &=E_{z}[\log P(y,z|\theta)]+H(z ) \end {aligned} logP(y∣θ)=log(Z∑P(y,z∣θ))=log(Z∑P(z)P(z)P(y,z∣θ))≥Z∑P(z)log(P(z)P(y,z∣θ))=Ez[logP(y,z∣θ)]+H(z)
因此主要步驟為EM兩步:
(直接粘報告了)
E步驟——得到完全資料對數似然函式的期望
M步驟——將期望最大化
- 協方差矩陣奇異:說明有一個屬性的方差為0,該屬性冗餘,可以直接使用PCA的思路將資料降維後再處理。
8. 低維不可分的情況高維可分,舉例說明為什麼,實驗中有無應用
- 高維空間提供更多的資訊,使不可分的資料變得可分。如SVM中的核技巧,將原空間內積運算變換到特徵空間中的內積運算,在新特徵空間學習線性SVM,當核函式為非線性,可達到高維度線性方法解決低維非線性分類問題。
9. 內積的應用,舉例3個
- PCA中使用內積來計算原向量在特徵向量方向的投影,實現基底的轉換達到降維的目的。
- SVM中使用內積來進行核技巧,不顯示定義對映函式 ϕ \phi ϕ,而是直接將內積運算進行特徵變換,等價於經過對映函式將輸入變換到新的特徵空間。
- 正則化中常用引數w的內積來表示其二範數,用來表徵模型的複雜度
總的來說內積運算用來直觀地衡量向量之間的相似度距離,如皮爾遜相似度。
時間緊寫的倉促,沒涵蓋的地方或有錯誤的地方希望大家指出
相關文章
- 機器學習及深度學習的知識點及面試題總結機器學習深度學習面試題
- 【機器學習】支援向量機(個人筆記)機器學習筆記
- 面試Python機器學習時,常見的十個面試題Python機器學習面試題
- 機器學習面試問題彙總機器學習面試
- 機器學習筆試題精選(七)機器學習筆試
- 機器學習筆試精選題(四)機器學習筆試
- 機器學習筆試題精選(五)機器學習筆試
- 機器學習筆試題精選(六)機器學習筆試
- 機器學習筆試題精選(一)機器學習筆試
- 機器學習筆試題精選(三)機器學習筆試
- 機器學習筆試題精選(二)機器學習筆試
- 10道機器學習、深度學習必會面試題機器學習深度學習面試題
- 機器學習個人筆記(三)之無監督學習機器學習筆記
- 機器學習-習題(二)機器學習
- 機器學習-習題(一)機器學習
- 資料科學和機器學習面試問題資料科學機器學習面試
- 10個python常用且好用的機器學習及深度學習庫!Python機器學習深度學習
- 【機器學習】機器學習面試乾貨精講機器學習面試
- 機器學習面試題,更有大廠內推機會機器學習面試題
- 做個愛學習的孩子!收藏2019知名機器學習暑期學校大列表機器學習
- 從 Quora 的 187 個問題中學習機器學習和 NLP機器學習
- 機器學習/深度學習書單推薦及學習方法機器學習深度學習
- 優思學院:質量人33個面試問題及答案解析面試
- 用深度學習網路搭建一個聊天機器人(下篇)深度學習機器人
- 用深度學習網路搭建一個聊天機器人(上篇)深度學習機器人
- Python常見面試題總結——個人Python學習經驗Python面試題
- 學習node遇上的難題--個人
- TikTok機器學習與資料科學家的面試題 - Reddit機器學習資料科學面試題
- Python 機器學習及分析工具:ScipyPython機器學習
- 「乾貨」22道機器學習常見面試題目機器學習面試題
- 2019年度機器學習49個頂級工程彙總機器學習
- 機器學習:迴歸問題機器學習
- 2019最新Python學習路線圖:如何用Python建立微信機器人Python機器人
- 飢人谷2019筆試題筆試
- 機器學習導圖系列(5):機器學習模型及神經網路模型機器學習模型神經網路
- 機器學習面試準備大全 – 技能要求、面試例題詳解機器學習面試
- 機器學習面試準備大全 - 技能要求、面試例題詳解機器學習面試
- 簡明機器學習——01機器學習的幾個基本要素機器學習