2019機器學習試題及個人思路

僅供參考，如有錯誤請指正

1. 資訊增益的定義，資訊增益的好處？決策樹決策面是否為線性，舉例說明。

資訊增益是集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差：
$g (D, A) = H (D) - H (D ∣ A)$
一般也將熵與條件熵的差值叫做互資訊，決策樹學習中的資訊增益等價於訓練資料集中的類和特徵的互資訊。互資訊表示由於特徵A使資料集D分類的不確定性減少的程度，因此互資訊高的特徵有更強的分類能力。依此決策能夠有很好的分類效果。
（感覺是在問資訊增益比的好處）資訊增益往往偏向於劃分數較多的特徵——劃分的越細往往分類效果越好。因此要進行校正，採用資訊增益比，將資訊增益除以資料集D關於特徵A值的熵 $H_A(D)$ 來決策：
$g_R(D,A)=\frac{g(D,A)}{H_A(D)}$
其中 $H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|}$
-決策樹是非線性分類器（可以解決異或問題）。如果每個屬性只使用一次，決策樹的決策面是對樣本空間的一個劃分：

2.最小概率下最優分類方法及證明
即證明貝葉斯最優分類器
決策方法：
$h(X)=-\ln p_1(X)+\ln p_2(X) \frac{>}{<} \ln \frac{\pi_1}{\pi_2}$
(大於小於放一塊不會打)
證明
均損失為：

$\begin{aligned} C_M&=\int_{L1}P_2p_2(x) + \int_{L2}P_1p_1(x)\\ &=\int_{L1}P_2p_2(x)+P_1(1-\int_{L_1}p_1(x))\\ &=\int_{L1}(P_2p_2(x)-P_1p_1(x)) + P_1 \end{aligned}$
$\min\int_{L1}(P_2p_2(x)-P_1p_1(x)) + P_1 \iff \max\int_{L1}(P_1p_1(x)-P_2p_2(x))$
易得 $P_1p_1(x)=P_2p_2(x)$ 時滿足條件，為均誤差最小點，整理得最優判決界：
$\ln \frac{p_2(x)}{p_1(x)} = \ln \frac{\pi_1}{\pi_2}$

3. 什麼是過擬合，決策樹、SVM如何解決過擬合？

過擬合：過擬合是指過度的學習訓練集特徵導致模型泛化能力不足，在訓練集上損失很低甚至零損失，但在測試集上表現的很差。
決策樹解決過擬合：決策樹採用剪枝來簡化模型，降低決策樹的複雜度，避免過擬合：
$C_\alpha (T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha |T|$
決策樹的生成是不斷選擇區域性最優，而剪支則需考慮全域性的情況。遞迴的從葉節點回縮，如果得到的樹T相比原先的樹 $C_\alpha$ 降低，則選擇剪枝。總體的思路是關注分類程度的同時，對樹的複雜度進行約束：
$C o s t (M o d e l, D a t a) = C o s t (D a t a ∣ M o d e l) + C o s t (M o d e l)$
SVM解決過擬合：引入軟間隔概念，不再是絕對的劃分，允許一些點有誤差可以防止模型過擬合，提高泛化能力：
$\min_{w,b,\xi} \frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$
s.t. $y_i(wx_i+b)>=\xi_i,i=1,2,...,N$
$\xi_i>=0$
4. 在第二題的分類方法下，假設類概率分佈為伯努利，類條件概率為協方差相同的高斯分佈，求分介面方程和後驗概率？
如題
$\pi_1=P,\pi_2=1-P$
$p_1(x)=\frac{1}{(2\pi)^n|\Sigma|^{\frac{1}{2}}}\exp^{-\frac{(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}{2}}$
$p_2(x)=\frac{1}{(2\pi)^n|\Sigma|^{\frac{1}{2}}}\exp^{-\frac{(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)}{2}}$
分介面為：
$\ln \frac{p_2(x)}{p_1(x)} = \ln \frac{\pi_1}{\pi_2}$
$\ln p_2(x) - \ln p_1(x) = \ln \frac{P}{1-P}$
$-\frac{(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)}{2}+\frac{(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)}{2} = \ln \frac{P}{1-P}$
$2(\mu_2^T\Sigma^{-1}-\mu_1^T\Sigma^{-1})x+(\mu_1^T\Sigma^{-1}\mu_1-\mu_2^T\Sigma^{-1}\mu_2)+\ln \frac{1-P}{P}=0$

5. 邏輯迴歸優化目標函式，以及交叉熵角度的理解

邏輯迴歸優化目標函式
$\begin{aligned} l(w)&=\ln \prod_l P(Y^l|X^l,W)\\ &=\sum_l \ln P(Y^l|X^l,W)\\ &=\sum_l Y^l\ln(P(Y^l=1|X^l,W))+(1-Y^l)\ln(P(Y^l=0|X^l,W)) \end{aligned}$
交叉熵角度：交叉熵的兩個概率分別是真實分佈和估計分佈。本式中， $Y^l$ 為類別1時的真實分佈， $ln(P(Y^l=1|X^l,W))$ 為類別1的估計概率資訊量，因為：
$D_{Kl}(p||q)=-H(p)+H(p,q)$
Kl散度為交叉熵減去真實分佈的資訊熵，kl散度用來判斷分佈之間差距，因此用交叉熵作為損失函式可以很好的反應估計分佈與真實分佈之間的關係。

6. PCA推導，應用舉例

想要找到一個投影方向使得資訊能最大程度保留，即方差最大：
$\max \sum_i (u^Tx_i-u^T\overline{x})^2=u^TSu$
s.t. $u^Tu=1$
拉格朗日乘子法求解：
$u^TSu+\lambda(1-u^Tu)$
得：
$Su=\lambda u,u^TSu=\lambda$
因此最大方差對應最大特徵值，投影方向為最大特徵值的特徵向量。
應用：影像壓縮，特徵提取，資料降維

7. GMM模型優化目標函式（EM）主要步驟，協方差為0的情況，處理方法？

目標函式，不完全資料的對數似然函式：
$L(\theta)=\log P(y|\theta)=\log(\sum_ZP(y,z|\theta))$
經過推導，可以轉換為完全資料對數似然函式的期望：
$\begin {aligned} \log P(y|\theta)&=\log(\sum_ZP(y,z|\theta))\\ &=\log(\sum_ZP(z)\frac{P(y,z|\theta)}{P(z)})\\ &\ge\sum_ZP(z)\log(\frac{P(y,z|\theta)}{P(z)})\\ &=E_{z}[\log P(y,z|\theta)]+H(z ） \end {aligned}$
因此主要步驟為EM兩步：
(直接粘報告了)
E步驟——得到完全資料對數似然函式的期望

M步驟——將期望最大化
在這裡插入圖片描述

協方差矩陣奇異：說明有一個屬性的方差為0，該屬性冗餘，可以直接使用PCA的思路將資料降維後再處理。

8. 低維不可分的情況高維可分，舉例說明為什麼，實驗中有無應用

高維空間提供更多的資訊，使不可分的資料變得可分。如SVM中的核技巧，將原空間內積運算變換到特徵空間中的內積運算，在新特徵空間學習線性SVM，當核函式為非線性，可達到高維度線性方法解決低維非線性分類問題。

9. 內積的應用，舉例3個

PCA中使用內積來計算原向量在特徵向量方向的投影，實現基底的轉換達到降維的目的。
SVM中使用內積來進行核技巧，不顯示定義對映函式 $\phi$ ，而是直接將內積運算進行特徵變換，等價於經過對映函式將輸入變換到新的特徵空間。
正則化中常用引數w的內積來表示其二範數，用來表徵模型的複雜度

總的來說內積運算用來直觀地衡量向量之間的相似度距離，如皮爾遜相似度。

時間緊寫的倉促，沒涵蓋的地方或有錯誤的地方希望大家指出

2019機器學習試題及個人思路

相關文章