機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。為了幫助大家對這些知識點進行梳理和理解,以便能夠更好地應對機器學習筆試包括面試。紅色石頭準備在公眾號連載一些機器學習筆試題系列文章,希望能夠對大家有所幫助!
Q1. 在迴歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?
A. 多項式階數
B. 更新權重 w 時,使用的是矩陣求逆還是梯度下降
C. 使用常數項
答案:A
解析:選擇合適的多項式階數非常重要。如果階數過大,模型就會更加複雜,容易發生過擬合;如果階數較小,模型就會過於簡單,容易發生欠擬合。如果有對過擬合和欠擬合概念不清楚的,見下圖所示:
Q2. 假設你有以下資料:輸入和輸出都只有一個變數。使用線性迴歸模型(y=wx+b)來擬合資料。那麼使用留一法(Leave-One Out)交叉驗證得到的均方誤差是多少?
A. 10/27
B. 39/27
C. 49/27
D. 55/27
答案:C
解析:留一法,簡單來說就是假設有 N 個樣本,將每一個樣本作為測試樣本,其它 N-1 個樣本作為訓練樣本。這樣得到 N 個分類器,N 個測試結果。用這 N個結果的平均值來衡量模型的效能。
對於該題,我們先畫出 3 個樣本點的座標:
使用兩個點進行線性擬合,分成三種情況,如下圖所示:
第一種情況下,迴歸模型是 y = 2,誤差 E1 = 1。
第二種情況下,迴歸模型是 y = -x + 4,誤差 E2 = 2。
第三種情況下,迴歸模型是 y = -1/3x + 2,誤差 E3 = 2/3。
則總的均方誤差為:
MSE=\frac13(E_1^2+E_2^2+E_3^2)=\frac13(1^2+2^2+(\frac23)^2)=\frac{49}{27}
Q3. 下列關於極大似然估計(Maximum Likelihood Estimate,MLE),說法正確的是(多選)?
A. MLE 可能並不存在
B. MLE 總是存在
C. 如果 MLE 存在,那麼它的解可能不是唯一的
D. 如果 MLE 存在,那麼它的解一定是唯一的
答案:AC
解析:如果極大似然函式 L(θ) 在極大值處不連續,一階導數不存在,則 MLE 不存在,如下圖所示:
另一種情況是 MLE 並不唯一,極大值對應兩個 θ。如下圖所示:
Q4. 如果我們說“線性迴歸”模型完美地擬合了訓練樣本(訓練樣本誤差為零),則下面哪個說法是正確的?
A. 測試樣本誤差始終為零
B. 測試樣本誤差不可能為零
C. 以上答案都不對
答案:C
解析:根據訓練樣本誤差為零,無法推斷測試樣本誤差是否為零。值得一提是,如果測試樣本樣本很大,則很可能發生過擬合,模型不具備很好的泛化能力!
Q5. 在一個線性迴歸問題中,我們使用 R 平方(R-Squared)來判斷擬合度。此時,如果增加一個特徵,模型不變,則下面說法正確的是?
A. 如果 R-Squared 增加,則這個特徵有意義
B. 如果R-Squared 減小,則這個特徵沒有意義
C. 僅看 R-Squared 單一變數,無法確定這個特徵是否有意義。
D. 以上說法都不對
答案:C
解析:線性迴歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的相似程度。其表示式如下所示:
上式中,分子部分表示真實值與預測值的平方差之和,類似於均方差 MSE;分母部分表示真實值與均值的平方差之和,類似於方差 Var。根據 R-Squared 的取值,來判斷模型的好壞:如果結果是 0,說明模型擬合效果很差;如果結果是 1,說明模型無錯誤。一般來說,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,因為,隨著樣本數量的增加,R-Square必然增加,無法真正定量說明準確程度,只能大概定量。
對於本題來說,單獨看 R-Squared,並不能推斷出增加的特徵是否有意義。通常來說,增加一個特徵,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關。
如果使用校正決定係數(Adjusted R-Square):
其中,n 是樣本數量,p 是特徵數量。Adjusted R-Square 抵消樣本數量對 R-Square的影響,做到了真正的 0~1,越大越好。
Q6. 下列關於線性迴歸分析中的殘差(Residuals)說法正確的是?
A. 殘差均值總是為零
B. 殘差均值總是小於零
C. 殘差均值總是大於零
D. 以上說法都不對
答案:A
解析:線性迴歸分析中,目標是殘差最小化。殘差平方和是關於引數的函式,為了求殘差極小值,令殘差關於引數的偏導數為零,會得到殘差和為零,即殘差均值為零。
Q7. 下列關於異方差(Heteroskedasticity)說法正確的是?
A. 線性迴歸具有不同的誤差項
B. 線性迴歸具有相同的誤差項
C. 線性迴歸誤差項為零
D. 以上說法都不對
答案:A
解析:異方差性是相對於同方差(Homoskedasticity)而言的。所謂同方差,是為了保證迴歸引數估計量具有良好的統計性質,經典線性迴歸模型的一個重要假定:總體迴歸函式中的隨機誤差項滿足同方差性,即它們都有相同的方差。如果這一假定不滿足,即:隨機誤差項具有不同的方差,則稱線性迴歸模型存在異方差性。
通常來說,奇異值的出現會導致異方差性增大。
Q8. 下列哪一項能反映出 X 和 Y 之間的強相關性?
A. 相關係數為 0.9
B. 對於無效假設 β=0 的 p 值為 0.0001
C. 對於無效假設 β=0 的 t 值為 30
D. 以上說法都不對
答案:A
解析:相關係數的概念我們很熟悉,它反映了不同變數之間線性相關程度,一般用 r 表示。
其中,Cov(X,Y) 為 X 與 Y 的協方差,Var[X] 為 X 的方差,Var[Y] 為 Y 的方差。r 取值範圍在 [-1,1] 之間,r 越大表示相關程度越高。A 選項中,r=0.9 表示 X 和 Y 之間有較強的相關性。
而 p 和 t 的數值大小沒有統計意義,只是將其與某一個閾值進行比對,以得到二選一的結論。例如,有兩個假設:
- 無效假設(null hypothesis)H0:兩參量間不存在“線性”相關。
-
備擇假設(alternative hypothesis)H1:兩參量間存在“線性”相關。
如果閾值是 0.05,計算出的 p 值很小,比如為 0.001,則可以說“有非常顯著的證據拒絕 H0 假設,相信 H1 假設。即兩參量間存在“線性”相關。p 值只用於二值化判斷,因此不能說 p=0.06 一定比 p=0.07 更好。
Q9. 下列哪些假設是我們推導線性迴歸引數時遵循的(多選)?
A. X 與 Y 有線性關係(多項式關係)
B. 模型誤差在統計學上是獨立的
C. 誤差一般服從 0 均值和固定標準差的正態分佈
D. X 是非隨機且測量沒有誤差的
答案:ABCD
解析:在進行線性迴歸推導和分析時,我們已經預設上述四個條件是成立的。
Q10. 為了觀察測試 Y 與 X 之間的線性關係,X 是連續變數,使用下列哪種圖形比較適合?
A. 散點圖
B. 柱形圖
C. 直方圖
D. 以上都不對
答案:A
解析:散點圖反映了兩個變數之間的相互關係,在測試 Y 與 X 之間的線性關係時,使用散點圖最為直觀。
Q11. 一般來說,下列哪種方法常用來預測連續獨立變數?
A. 線性迴歸
B. 邏輯回顧
C. 線性迴歸和邏輯迴歸都行
D. 以上說法都不對
答案:A
解析:線性迴歸一般用於實數預測,邏輯迴歸一般用於分類問題。
Q12. 個人健康和年齡的相關係數是 -1.09。根據這個你可以告訴醫生哪個結論?
A. 年齡是健康程度很好的預測器
B. 年齡是健康程度很糟的預測器
C. 以上說法都不對
答案:C
解析:因為相關係數的範圍是 [-1,1] 之間,所以,-1.09 不可能存在。
Q13. 下列哪一種偏移,是我們在最小二乘直線擬合的情況下使用的?圖中橫座標是輸入 X,縱座標是輸出 Y。
A. 垂直偏移(vertical offsets)
B. 垂向偏移(perpendicular offsets)
C. 兩種偏移都可以
D. 以上說法都不對
答案:A
解析:線性迴歸模型計算損失函式,例如均方差損失函式時,使用的都是 vertical offsets。perpendicular offsets 一般用於主成分分析(PCA)中。
Q14. 假如我們利用 Y 是 X 的 3 階多項式產生一些資料(3 階多項式能很好地擬合資料)。那麼,下列說法正確的是(多選)?
A. 簡單的線性迴歸容易造成高偏差(bias)、低方差(variance)
B. 簡單的線性迴歸容易造成低偏差(bias)、高方差(variance)
C. 3 階多項式擬合會造成低偏差(bias)、高方差(variance)
D. 3 階多項式擬合具備低偏差(bias)、低方差(variance)
答案:AD
解析:偏差和方差是兩個相對的概念,就像欠擬合和過擬合一樣。如果模型過於簡單,通常會造成欠擬合,伴隨著高偏差、低方差;如果模型過於複雜,通常會造成過擬合,伴隨著低偏差、高方差。
用一張圖來形象地表示偏差與方差的關係:
圖片來源:https://www.zhihu.com/question/27068705
偏差(bias)可以看成模型預測與真實樣本的差距,想要得到 low bias,就得複雜化模型,但是容易造成過擬合。方差(variance)可以看成模型在測試集上的表現,想要得到 low variance,就得簡化模型,但是容易造成欠擬合。實際應用中,偏差和方差是需要權衡的。若模型在訓練樣本和測試集上都表現的不錯,偏差和方差都會比較小,這也是模型比較理想的情況。
Q15. 假如你在訓練一個線性迴歸模型,有下面兩句話:
1. 如果資料量較少,容易發生過擬合。
2. 如果假設空間較小,容易發生過擬合。
關於這兩句話,下列說法正確的是?
A. 1 和 2 都錯誤
B. 1 正確,2 錯誤
C. 1 錯誤,2 正確
D. 1 和 2 都正確
答案:B
解析:先來看第 1 句話,如果資料量較少,容易在假設空間找到一個模型對訓練樣本的擬合度很好,容易造成過擬合,該模型不具備良好的泛化能力。
再來看第 2 句話,如果假設空間較小,包含的可能的模型就比較少,也就不太可能找到一個模型能夠對樣本擬合得很好,容易造成高偏差、低方差,即欠擬合。
參考文獻:
https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/