機器學習筆試題精選（六）

機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時，我們常常會遇到各種各樣的機器學習問題和知識點。為了幫助大家對這些知識點進行梳理和理解，以便能夠更好地應對機器學習筆試包括面試。紅色石頭準備在公眾號連載一些機器學習筆試題系列文章，希望能夠對大家有所幫助！

今天的筆試題主要涉及的知識點包括：降維、PCA、特徵選擇、隨機森林、GBDT、整合學習等。

Q1. 我們想要訓練一個 ML 模型，樣本數量有 100 萬個，特徵維度是 5000，面對如此大資料，如何有效地訓練模型（多選）？

A. 對訓練集隨機取樣，在隨機取樣的資料上建立模型

B. 嘗試使用線上機器學習演算法

C. 使用 PCA 演算法減少特徵維度

答案：ABC

解析：本題考查的是如何解決樣本數量和特徵維度過大的問題。

在有限的記憶體下，如何處理高特徵緯度的訓練樣本是一項非常艱鉅的任務。下面這些方法可以用來解決這一問題。

我們可以隨機抽樣資料集，包括樣本數量和特徵數量。這意味著，我們可以建立一個更小的資料集，比如說，有 1000 個特徵和 300000 個樣本進行訓練。
使用線上學習（online learning）演算法
使用主成分分析演算法（PCA）挑選有效的特徵，去除冗餘特徵。

關於線上學習與離線學習，離線學習是我們最為常見的一種機器學習演算法模式，使用全部資料參與訓練。訓練完成，整個模型就確定了；而線上學習一般每次使用一個資料或是小批量資料進行訓練，每次訓練都會優化模型，模型處於不斷優化更改狀態。

PCA(principal Component Analysis)，是一種使用最廣泛的資料壓縮演算法。在PCA中，資料從原來的座標系轉換到新的座標系，由資料本身決定。轉換座標系時，以方差最大的方向作為座標軸方向，因為資料的最大方差給出了資料的最重要的資訊。第一個新座標軸選擇的是原始資料中方差最大的方法，第二個新座標軸選擇的是與第一個新座標軸正交且方差次大的方向。重複該過程，重複次數為原始資料的特徵維數。

什麼是冗餘特徵呢？比如汽車資料中，裡面既有以“千米/每小時”度量特徵，也有“英里/小時”的特徵，顯然這兩個特徵有一個是多餘的。

Q2. 我們希望減少資料集中的特徵數量。你可以採取以下哪一個步驟來減少特徵（多選）？

A. 使用正向選擇法（Forward Selection）

B. 使用反向消除法（Backward Elimination）

C. 逐步選擇消除法（Stepwise）

D. 計算不同特徵之間的相關係數，刪去相關係數高的特徵之一

答案：ABCD

解析：本題考查的是機器學習模型中特徵選擇問題。

正向選擇（Forward Selection）是首先選擇一個特徵，每個特徵都試一遍，選擇對模型準確率提升最高的那個特徵；然後再在這個特徵基礎上新增另外一個特徵，方法類似，直到模型準確率不再提示為止。

反向消除（Backward Elimination）是首先包含了所有的特徵，然後嘗試刪除每個特徵，最終刪掉對模型準確率提升最高的一個特徵（因為刪除這個特徵，模型準確率反而增加了，說明是無用特徵）。如此類推，直到刪除特徵並不能提升模型為止。

相對於 Forward Selection，Backward Elimination 的優點在於其允許一些低貢獻值的特徵能夠進到模型中去(有時候低貢獻值的特徵能在組合中有更大的貢獻值，而 Forward Selection 忽略了這種組合的可能性)，因此Backward Elimination能夠避免受一兩個占主導地位的特徵的干擾。

另外還有一種特徵選擇方法是 Stepwise，該方法結合上述兩者的方法，新加入一個特徵之後，再嘗試刪去一個特徵，直至達到某個預設的標準。這種方法的缺點是，預設的標準不好定，而且容易陷入到過擬合當中。

除此之外，也可以使用基於相關性的特徵選擇，可以去除多重線性特徵。例如上一題中“千米/每小時”和“英里/小時”是相關性很大的特徵，可刪其一。

Q3. 下面關於 Random Forest 和 Gradient Boosting Trees 說法正確的是？

A. Random Forest 的中間樹不是相互獨立的，而 Gradient Boosting Trees 的中間樹是相互獨立的

B. 兩者都使用隨機特徵子集來建立中間樹

C. 在 Gradient Boosting Trees 中可以生成並行樹，因為它們是相互獨立的

D. 無論任何資料，Gradient Boosting Trees 總是優於 Random Forest

答案：B

解析：本題考查的是隨機森林和梯度提升樹（GBDT）的基本概率和區別。

Random Forest 是基於 Bagging 的，而 Gradient Boosting Trees 是基於 Boosting 的。Bagging 和 Boosting 的區別在於：

1）樣本選擇上：

Bagging：訓練集是在原始集中有放回選取的，從原始集中選出的各輪訓練集之間是獨立的。

Boosting：每一輪的訓練集不變，只是訓練集中每個樣例在分類器中的權重發生變化。而權值是根據上一輪的分類結果進行調整。

2）樣例權重：

Bagging：使用均勻取樣，每個樣例的權重相等。

Boosting：根據錯誤率不斷調整樣例的權值，錯誤率越大則權重越大。

3）預測函式：

Bagging：所有預測函式的權重相等。

Boosting：每個弱分類器都有相應的權重，對於分類誤差小的分類器會有更大的權重。

4）平行計算：

Bagging：各個預測函式可以並行生成。

Boosting：各個預測函式只能順序生成，因為後一個模型引數需要前一輪模型的結果。

因此，Gradient Boosting Trees 的中間樹不是相互獨立的，因為前一棵樹的結果影響下一棵樹。Random Forest 的中間樹相互獨立，因此可以並行生成這些樹。

在這兩種演算法中，我們使用隨機特徵集來生成中間樹。

Gradient Boosting Trees 並不總比 Random Forest 好，依賴於資料。

Q4. “對於 PCA 處理後的特徵，其樸素貝葉斯特徵相互獨立的假設一定成立，因為所有主成分都是正交的，所以不相關”。這句話是否正確？

A. True

B. False

答案：B

解析：本題考查的是 PCA 和樸素貝葉斯的基本概率和區別。

這句話有兩處錯誤：一是 PCA 轉換之後的特徵不一定不相關；二是不相關並不等價於相互獨立。

正交和不相關沒有必然關係，只有當一個隨機變數的統計平均等於零時，正交和不相關等價。

獨立則必定不相關，而不相關卻不一定互相獨立，只有是高斯時獨立和不相關才等價。

Q5. 下列關於 PCA 說法正確的是（多選）？

A. 在使用 PCA 之前，我們必須標準化資料

B. 應該選擇具有最大方差的主成分

C. 應該選擇具有最小方差的主成分

D. 可以使用 PCA 在低維空間中視覺化資料

答案：ABD

解析：本題考查的是主成分分析（PCA）的基本概念和推導原理。

PCA 對資料中變數的尺度非常敏感，因此我們需要對各個變數進行標準化。方法是減去各自變數的均值，除以標準差。

$\frac{x_i-\mu}{\sigma}$

舉個例子，假如某個變數單位從 km 改成 cm，大大增加了其方差，那麼該變數可能就成為了主成分。這是我們不希望看大的。

B 是正確的，因為我們總是選擇方差最大的主成分。可以這麼來理解，方差越大，說明在該特徵上分佈越廣泛，說明該特徵月有用，影響越大。

PCA 有時在較低維度上繪製資料是非常有用。例如我們可以提取前 2 個主要組成部分，然後在二維平面上使用散點圖視覺化資料。

Q6. 下圖中，主成分的最佳數目是多少？

A. 10

B. 20

C. 30

D. 無法確定

答案：C

解析：本題考查的是 PCA 的基本概念。

顯然，當主成分數目為 30 的時候，積累的方差比例最大。

Q7. 資料科學家經常使用多個演算法進行預測，並將多個機器學習演算法的輸出（稱為“整合學習”）結合起來，以獲得比所有個體模型都更好的更健壯的輸出。則下列說法正確的是？

A. 基本模型之間相關性高

B. 基本模型之間相關性低

C. 整合方法中，使用加權平均代替投票方法

D. 基本模型都來自於同一演算法

答案：B

解析：本題考查的是整合學習的基本原理。

整合學習，顧名思義，通過將多個單個學習器整合/組合在一起，使它們共同完成學習任務。

舉個例子來說明，假如你有 T 個朋友，每個朋友向你預測推薦明天某支股票會漲還是會跌，那麼你該選擇哪個朋友的建議呢？第一種方法是從 T 個朋友中選擇一個最受信任，對股票預測能力最強的人，直接聽從他的建議就好。這是一種普遍的做法，對應的就是 validation 的思想，即選擇犯錯誤最小的模型。第二種方法，如果每個朋友在股票預測方面都是比較厲害的，都有各自的專長，那麼就同時考慮 T 個朋友的建議，將所有結果做個投票，一人一票，最終決定出對該支股票的預測。這種方法對應的是 uniformly 思想。第三種方法，如果每個朋友水平不一，有的比較厲害，投票比重應該更大一些，有的比較差，投票比重應該更小一些。那麼，仍然對 T 個朋友進行投票，只是每個人的投票權重不同。這種方法對應的是 non-uniformly 的思想。第四種方法與第三種方法類似，但是權重不是固定的，根據不同的條件，給予不同的權重。比如如果是傳統行業的股票，那麼給這方面比較厲害的朋友較高的投票權重，如果是服務行業，那麼就給這方面比較厲害的朋友較高的投票權重。以上所述的這四種方法都是將不同人不同意見融合起來的方式，這就是整合思想，即把多個基本模型結合起來，得到更好的預測效果。

通常來說，基本模型之間的相關性越低越好，因為每個模型有各自的特長，整合起來才更加強大。

Q8. 如何在監督式學習中使用聚類演算法（多選）？

A. 首先，可以建立聚類，然後分別在不同的叢集上應用監督式學習演算法

B. 在應用監督式學習演算法之前，可以將其類別 ID 作為特徵空間中的一個額外的特徵

C. 在應用監督式學習之前，不能建立聚類

D. 在應用監督式學習演算法之前，不能將其類別 ID 作為特徵空間中的一個額外的特徵

答案：AB

解析：本題考查的是聚類演算法與監督式學習。

我們可以為不同的叢集構建獨立的機器學習模型，並且可以提高預測精度。將每個類別的 ID 作為特徵空間中的一個額外的特徵可能會提高的精度結果。

Q9. 下面哪句話是正確的？

A. 機器學習模型的精準度越高，則模型的效能越好

B. 增加模型的複雜度，總能減小測試樣本誤差

C. 增加模型的複雜度，總能減小訓練樣本誤差

D. 以上說法都不對

答案：C

解析：本題考查的是機器學習模型的評判指標。

機器學習模型的精準度（Precision）越高，模型效能不一定越好，還要看模型的召回率（Recall），特別是在正負樣本分佈不均的情況下。一般使用 F1 score 評判標準。

$F1=2\cdot\frac{P\cdot R}{P+R}$

增加模型複雜度，通常可能造成過擬合。過擬合的表現是訓練樣本誤差減小，而測試樣本誤差增大。

Q10. 關於 GBDT 演算法，下列說法正確的是（多選）？

A. 增加用於分割的最小樣本數量，有助於避免過擬合

B. 增加用於分割的最小樣本數量，容易造成過擬合

C. 減小每個基本樹的樣本比例，有助於減小方差

D. 減小每個基本樹的樣本比例，有助於減小偏差

答案：AC

解析：本題考查的是 GBDT 的基本概念。

節點中用於分割所需的最小樣本數用來控制過擬合。過高的值可能導致欠擬合，因此，它應該使用交叉驗證進行調整。

每個基本樹選擇的樣本比例是通過隨機抽樣來完成的。小於1的值能夠減小方差使模型具有魯棒性。典型值 0.8 通常工作良好，但可以進一步精細調整。

GBDT 通過多輪迭代,每輪迭代產生一個弱分類器，每個分類器在上一輪分類器的殘差基礎上進行訓練。對弱分類器的要求一般是足夠簡單，並且是低方差和高偏差的，因為訓練的過程是通過降低偏差來不斷提高最終分類器的精度。

參考文獻：

Solutions for Skilltest Machine Learning : Revealed

機器學習筆試題精選（六）

相關文章