機器學習筆試題精選(一)

dicksonjyl560101發表於2018-08-04

https://blog.csdn.net/red_stone1/article/details/80982149


機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。為了幫助大家對這些知識點進行梳理和理解,以便能夠更好地應對機器學習筆試包括面試。紅色石頭準備在公眾號連載一些機器學習筆試題系列文章,希望能夠對大家有所幫助!

Q1. 在迴歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?

A. 多項式階數

B. 更新權重 w 時,使用的是矩陣求逆還是梯度下降

C. 使用常數項

答案 :A

解析:選擇合適的多項式階數非常重要。如果階數過大,模型就會更加複雜,容易發生過擬合;如果階數較小,模型就會過於簡單,容易發生欠擬合。如果有對過擬合和欠擬合概念不清楚的,見下圖所示:

 


這裡寫圖片描述

 

Q2. 假設你有以下資料:輸入和輸出都只有一個變數。使用線性迴歸模型(y=wx+b)來擬合資料。那麼使用留一法(Leave-One Out)交叉驗證得到的均方誤差是多少?

 


這裡寫圖片描述

 

A. 10/27

B. 39/27

C. 49/27

D. 55/27

答案 :C

解析 :留一法,簡單來說就是假設有 N 個樣本,將每一個樣本作為測試樣本,其它 N-1 個樣本作為訓練樣本。這樣得到 N 個分類器,N 個測試結果。用這 N個結果的平均值來衡量模型的效能。

對於該題,我們先畫出 3 個樣本點的座標:

 


這裡寫圖片描述

 

使用兩個點進行線性擬合,分成三種情況,如下圖所示:

 


這裡寫圖片描述

 

第一種情況下,迴歸模型是 y = 2,誤差 E1 = 1。

第二種情況下,迴歸模型是 y = -x + 4,誤差 E2 = 2。

第三種情況下,迴歸模型是 y = -1/3x + 2,誤差 E3 = 2/3。

則總的均方誤差為:

M S E = 1 3   ( E   2   1   + E   2   2   + E   2   3   ) = 1 3   ( 1   2   + 2   2   + ( 2 3   )   2   ) = 49 27     MSE=13(E12+E22+E32)=13(12+22+(23)2)=4927

 

Q3. 下列關於極大似然估計(Maximum Likelihood Estimate,MLE),說法正確的是(多選)?

A. MLE 可能並不存在

B. MLE 總是存在

C. 如果 MLE 存在,那麼它的解可能不是唯一的

D. 如果 MLE 存在,那麼它的解一定是唯一的

答案 :AC

解析 :如果極大似然函式 L(θ) 在極大值處不連續,一階導數不存在,則 MLE 不存在,如下圖所示:

![這裡寫圖片描述](https://img-blog.csdn.net/20180710095307259?) 另一種情況是 MLE 並不唯一,極大值對應兩個 θ。如下圖所示:

![這裡寫圖片描述](https://img-blog.csdn.net/20180710095316882?) **Q4. 如果我們說“線性迴歸”模型完美地擬合了訓練樣本(訓練樣本誤差為零),則下面哪個說法是正確的?** A. 測試樣本誤差始終為零 B. 測試樣本誤差不可能為零 C. 以上答案都不對 **答案**:C **解析**:根據訓練樣本誤差為零,無法推斷測試樣本誤差是否為零。值得一提是,如果測試樣本樣本很大,則很可能發生過擬合,模型不具備很好的泛化能力! **Q5. 在一個線性迴歸問題中,我們使用 R 平方(R-Squared)來判斷擬合度。此時,如果增加一個特徵,模型不變,則下面說法正確的是?** A. 如果 R-Squared 增加,則這個特徵有意義 B. 如果R-Squared 減小,則這個特徵沒有意義 C. 僅看 R-Squared 單一變數,無法確定這個特徵是否有意義。 D. 以上說法都不對 **答案**:C **解析**:線性迴歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的相似程度。其表示式如下所示:

![這裡寫圖片描述](https://img-blog.csdn.net/20180710102632788?) 上式中,分子部分表示真實值與預測值的平方差之和,類似於均方差 MSE;分母部分表示真實值與均值的平方差之和,類似於方差 Var。根據 R-Squared 的取值,來判斷模型的好壞:如果結果是 0,說明模型擬合效果很差;如果結果是 1,說明模型無錯誤。一般來說,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,因為,隨著樣本數量的增加,R-Square必然增加,無法真正定量說明準確程度,只能大概定量。 對於本題來說,單獨看 R-Squared,並不能推斷出增加的特徵是否有意義。通常來說,增加一個特徵,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關。 如果使用校正決定係數(Adjusted R-Square):

![這裡寫圖片描述](https://img-blog.csdn.net/20180710102739906?) 其中,n 是樣本數量,p 是特徵數量。Adjusted R-Square 抵消樣本數量對 R-Square的影響,做到了真正的 0~1,越大越好。 **Q6. 下列關於線性迴歸分析中的殘差(Residuals)說法正確的是?** A. 殘差均值總是為零 B. 殘差均值總是小於零 C. 殘差均值總是大於零 D. 以上說法都不對 **答案**:A **解析**:線性迴歸分析中,目標是殘差最小化。殘差平方和是關於引數的函式,為了求殘差極小值,令殘差關於引數的偏導數為零,會得到殘差和為零,即殘差均值為零。 **Q7. 下列關於異方差(Heteroskedasticity)說法正確的是?** A. 線性迴歸具有不同的誤差項 B. 線性迴歸具有相同的誤差項 C. 線性迴歸誤差項為零 D. 以上說法都不對 **答案**:A **解析**:異方差性是相對於同方差(Homoskedasticity)而言的。所謂同方差,是為了保證迴歸引數估計量具有良好的統計性質,經典線性迴歸模型的一個重要假定:總體迴歸函式中的隨機誤差項滿足同方差性,即它們都有相同的方差。如果這一假定不滿足,即:隨機誤差項具有不同的方差,則稱線性迴歸模型存在異方差性。 通常來說,奇異值的出現會導致異方差性增大。 **Q8. 下列哪一項能反映出 X 和 Y 之間的強相關性?** A. 相關係數為 0.9 B. 對於無效假設 β=0 的 p 值為 0.0001 C. 對於無效假設 β=0 的 t 值為 30 D. 以上說法都不對 **答案**:A **解析**:相關係數的概念我們很熟悉,它反映了不同變數之間線性相關程度,一般用 r 表示。

r ( X , Y ) = C o v ( X , Y ) V a r [ X ] V a r [ Y ]   −  −  −  −  −  −  −  −  −  −  −  −          r(X,Y)=Cov(X,Y)Var[X]Var[Y]

 

其中,Cov(X,Y) 為 X 與 Y 的協方差,Var[X] 為 X 的方差,Var[Y] 為 Y 的方差。r 取值範圍在 [-1,1] 之間,r 越大表示相關程度越高。A 選項中,r=0.9 表示 X 和 Y 之間有較強的相關性。

而 p 和 t 的數值大小沒有統計意義,只是將其與某一個閾值進行比對,以得到二選一的結論。例如,有兩個假設:

  • 無效假設(null hypothesis)H0:兩參量間不存在“線性”相關。

  • 備擇假設(alternative hypothesis)H1:兩參量間存在“線性”相關。

如果閾值是 0.05,計算出的 p 值很小,比如為 0.001,則可以說“有非常顯著的證據拒絕 H0 假設,相信 H1 假設。即兩參量間存在“線性”相關。p 值只用於二值化判斷,因此不能說 p=0.06 一定比 p=0.07 更好。

Q9. 下列哪些假設是我們推導線性迴歸引數時遵循的(多選)?

A. X 與 Y 有線性關係(多項式關係)

B. 模型誤差在統計學上是獨立的

C. 誤差一般服從 0 均值和固定標準差的正態分佈

D. X 是非隨機且測量沒有誤差的

答案 :ABCD

解析 :在進行線性迴歸推導和分析時,我們已經預設上述四個條件是成立的。

Q10. 為了觀察測試 Y 與 X 之間的線性關係,X 是連續變數,使用下列哪種圖形比較適合?

A. 散點圖

B. 柱形圖

C. 直方圖

D. 以上都不對

答案 :A

解析 :散點圖反映了兩個變數之間的相互關係,在測試 Y 與 X 之間的線性關係時,使用散點圖最為直觀。

Q11. 一般來說,下列哪種方法常用來預測連續獨立變數?

A. 線性迴歸

B. 邏輯回顧

C. 線性迴歸和邏輯迴歸都行

D. 以上說法都不對

答案 :A

解析 :線性迴歸一般用於實數預測,邏輯迴歸一般用於分類問題。

Q12. 個人健康和年齡的相關係數是 -1.09。根據這個你可以告訴醫生哪個結論?

A. 年齡是健康程度很好的預測器

B. 年齡是健康程度很糟的預測器

C. 以上說法都不對

答案 :C

解析 :因為相關係數的範圍是 [-1,1] 之間,所以,-1.09 不可能存在。

Q13. 下列哪一種偏移,是我們在最小二乘直線擬合的情況下使用的?圖中橫座標是輸入 X,縱座標是輸出 Y。

 


這裡寫圖片描述

 

A. 垂直偏移(vertical offsets)

B. 垂向偏移(perpendicular offsets)

C. 兩種偏移都可以

D. 以上說法都不對

答案 :A

解析 :線性迴歸模型計算損失函式,例如均方差損失函式時,使用的都是 vertical offsets。perpendicular offsets 一般用於主成分分析(PCA)中。

Q14. 假如我們利用 Y 是 X 的 3 階多項式產生一些資料(3 階多項式能很好地擬合資料)。那麼,下列說法正確的是(多選)?

A. 簡單的線性迴歸容易造成高偏差(bias)、低方差(variance)

B. 簡單的線性迴歸容易造成低偏差(bias)、高方差(variance)

C. 3 階多項式擬合會造成低偏差(bias)、高方差(variance)

D. 3 階多項式擬合具備低偏差(bias)、低方差(variance)

答案 :AD

解析 :偏差和方差是兩個相對的概念,就像欠擬合和過擬合一樣。如果模型過於簡單,通常會造成欠擬合,伴隨著高偏差、低方差;如果模型過於複雜,通常會造成過擬合,伴隨著低偏差、高方差。

用一張圖來形象地表示偏差與方差的關係:

 


這裡寫圖片描述

 

圖片來源:

偏差(bias)可以看成模型預測與真實樣本的差距,想要得到 low bias,就得複雜化模型,但是容易造成過擬合。方差(variance)可以看成模型在測試集上的表現,想要得到 low variance,就得簡化模型,但是容易造成欠擬合。實際應用中,偏差和方差是需要權衡的。若模型在訓練樣本和測試集上都表現的不錯,偏差和方差都會比較小,這也是模型比較理想的情況。

Q15. 假如你在訓練一個線性迴歸模型,有下面兩句話:

1. 如果資料量較少,容易發生過擬合。

2. 如果假設空間較小,容易發生過擬合。

關於這兩句話,下列說法正確的是?

A. 1 和 2 都錯誤

B. 1 正確,2 錯誤

C. 1 錯誤,2 正確

D. 1 和 2 都正確

答案 :B

解析 :先來看第 1 句話,如果資料量較少,容易在假設空間找到一個模型對訓練樣本的擬合度很好,容易造成過擬合,該模型不具備良好的泛化能力。

再來看第 2 句話,如果假設空間較小,包含的可能的模型就比較少,也就不太可能找到一個模型能夠對樣本擬合得很好,容易造成高偏差、低方差,即欠擬合。

參考文獻:

https://www.analyticsvidhya.com/blog/2016/12/45-questions-to-test-a-data-scientist-on-regression-skill-test-regression-solution/

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2198751/,如需轉載,請註明出處,否則將追究法律責任。

相關文章