機器學習筆試題精選(一)
https://blog.csdn.net/red_stone1/article/details/80982149
機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。為了幫助大家對這些知識點進行梳理和理解,以便能夠更好地應對機器學習筆試包括面試。紅色石頭準備在公眾號連載一些機器學習筆試題系列文章,希望能夠對大家有所幫助!
Q1. 在迴歸模型中,下列哪一項在權衡欠擬合(under-fitting)和過擬合(over-fitting)中影響最大?
A. 多項式階數
B. 更新權重 w 時,使用的是矩陣求逆還是梯度下降
C. 使用常數項
答案 :A
解析:選擇合適的多項式階數非常重要。如果階數過大,模型就會更加複雜,容易發生過擬合;如果階數較小,模型就會過於簡單,容易發生欠擬合。如果有對過擬合和欠擬合概念不清楚的,見下圖所示:
Q2. 假設你有以下資料:輸入和輸出都只有一個變數。使用線性迴歸模型(y=wx+b)來擬合資料。那麼使用留一法(Leave-One Out)交叉驗證得到的均方誤差是多少?
A. 10/27
B. 39/27
C. 49/27
D. 55/27
答案 :C
解析 :留一法,簡單來說就是假設有 N 個樣本,將每一個樣本作為測試樣本,其它 N-1 個樣本作為訓練樣本。這樣得到 N 個分類器,N 個測試結果。用這 N個結果的平均值來衡量模型的效能。
對於該題,我們先畫出 3 個樣本點的座標:
使用兩個點進行線性擬合,分成三種情況,如下圖所示:
第一種情況下,迴歸模型是 y = 2,誤差 E1 = 1。
第二種情況下,迴歸模型是 y = -x + 4,誤差 E2 = 2。
第三種情況下,迴歸模型是 y = -1/3x + 2,誤差 E3 = 2/3。
則總的均方誤差為:
M S E = 1 3 ( E 2 1 + E 2 2 + E 2 3 ) = 1 3 ( 1 2 + 2 2 + ( 2 3 ) 2 ) = 49 27 MSE=13(E12+E22+E32)=13(12+22+(23)2)=4927
Q3. 下列關於極大似然估計(Maximum Likelihood Estimate,MLE),說法正確的是(多選)?
A. MLE 可能並不存在
B. MLE 總是存在
C. 如果 MLE 存在,那麼它的解可能不是唯一的
D. 如果 MLE 存在,那麼它的解一定是唯一的
答案 :AC
解析 :如果極大似然函式 L(θ) 在極大值處不連續,一階導數不存在,則 MLE 不存在,如下圖所示:
![這裡寫圖片描述](https://img-blog.csdn.net/20180710095307259?) 另一種情況是 MLE 並不唯一,極大值對應兩個 θ。如下圖所示:
![這裡寫圖片描述](https://img-blog.csdn.net/20180710095316882?) **Q4. 如果我們說“線性迴歸”模型完美地擬合了訓練樣本(訓練樣本誤差為零),則下面哪個說法是正確的?** A. 測試樣本誤差始終為零 B. 測試樣本誤差不可能為零 C. 以上答案都不對 **答案**:C **解析**:根據訓練樣本誤差為零,無法推斷測試樣本誤差是否為零。值得一提是,如果測試樣本樣本很大,則很可能發生過擬合,模型不具備很好的泛化能力! **Q5. 在一個線性迴歸問題中,我們使用 R 平方(R-Squared)來判斷擬合度。此時,如果增加一個特徵,模型不變,則下面說法正確的是?** A. 如果 R-Squared 增加,則這個特徵有意義 B. 如果R-Squared 減小,則這個特徵沒有意義 C. 僅看 R-Squared 單一變數,無法確定這個特徵是否有意義。 D. 以上說法都不對 **答案**:C **解析**:線性迴歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的相似程度。其表示式如下所示:
![這裡寫圖片描述](https://img-blog.csdn.net/20180710102632788?) 上式中,分子部分表示真實值與預測值的平方差之和,類似於均方差 MSE;分母部分表示真實值與均值的平方差之和,類似於方差 Var。根據 R-Squared 的取值,來判斷模型的好壞:如果結果是 0,說明模型擬合效果很差;如果結果是 1,說明模型無錯誤。一般來說,R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準,因為,隨著樣本數量的增加,R-Square必然增加,無法真正定量說明準確程度,只能大概定量。 對於本題來說,單獨看 R-Squared,並不能推斷出增加的特徵是否有意義。通常來說,增加一個特徵,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關。 如果使用校正決定係數(Adjusted R-Square):
![這裡寫圖片描述](https://img-blog.csdn.net/20180710102739906?) 其中,n 是樣本數量,p 是特徵數量。Adjusted R-Square 抵消樣本數量對 R-Square的影響,做到了真正的 0~1,越大越好。 **Q6. 下列關於線性迴歸分析中的殘差(Residuals)說法正確的是?** A. 殘差均值總是為零 B. 殘差均值總是小於零 C. 殘差均值總是大於零 D. 以上說法都不對 **答案**:A **解析**:線性迴歸分析中,目標是殘差最小化。殘差平方和是關於引數的函式,為了求殘差極小值,令殘差關於引數的偏導數為零,會得到殘差和為零,即殘差均值為零。 **Q7. 下列關於異方差(Heteroskedasticity)說法正確的是?** A. 線性迴歸具有不同的誤差項 B. 線性迴歸具有相同的誤差項 C. 線性迴歸誤差項為零 D. 以上說法都不對 **答案**:A **解析**:異方差性是相對於同方差(Homoskedasticity)而言的。所謂同方差,是為了保證迴歸引數估計量具有良好的統計性質,經典線性迴歸模型的一個重要假定:總體迴歸函式中的隨機誤差項滿足同方差性,即它們都有相同的方差。如果這一假定不滿足,即:隨機誤差項具有不同的方差,則稱線性迴歸模型存在異方差性。 通常來說,奇異值的出現會導致異方差性增大。 **Q8. 下列哪一項能反映出 X 和 Y 之間的強相關性?** A. 相關係數為 0.9 B. 對於無效假設 β=0 的 p 值為 0.0001 C. 對於無效假設 β=0 的 t 值為 30 D. 以上說法都不對 **答案**:A **解析**:相關係數的概念我們很熟悉,它反映了不同變數之間線性相關程度,一般用 r 表示。
r ( X , Y ) = C o v ( X , Y ) V a r [ X ] V a r [ Y ] − − − − − − − − − − − − √ r(X,Y)=Cov(X,Y)Var[X]Var[Y]
其中,Cov(X,Y) 為 X 與 Y 的協方差,Var[X] 為 X 的方差,Var[Y] 為 Y 的方差。r 取值範圍在 [-1,1] 之間,r 越大表示相關程度越高。A 選項中,r=0.9 表示 X 和 Y 之間有較強的相關性。
而 p 和 t 的數值大小沒有統計意義,只是將其與某一個閾值進行比對,以得到二選一的結論。例如,有兩個假設:
-
無效假設(null hypothesis)H0:兩參量間不存在“線性”相關。
-
備擇假設(alternative hypothesis)H1:兩參量間存在“線性”相關。
如果閾值是 0.05,計算出的 p 值很小,比如為 0.001,則可以說“有非常顯著的證據拒絕 H0 假設,相信 H1 假設。即兩參量間存在“線性”相關。p 值只用於二值化判斷,因此不能說 p=0.06 一定比 p=0.07 更好。
Q9. 下列哪些假設是我們推導線性迴歸引數時遵循的(多選)?
A. X 與 Y 有線性關係(多項式關係)
B. 模型誤差在統計學上是獨立的
C. 誤差一般服從 0 均值和固定標準差的正態分佈
D. X 是非隨機且測量沒有誤差的
答案 :ABCD
解析 :在進行線性迴歸推導和分析時,我們已經預設上述四個條件是成立的。
Q10. 為了觀察測試 Y 與 X 之間的線性關係,X 是連續變數,使用下列哪種圖形比較適合?
A. 散點圖
B. 柱形圖
C. 直方圖
D. 以上都不對
答案 :A
解析 :散點圖反映了兩個變數之間的相互關係,在測試 Y 與 X 之間的線性關係時,使用散點圖最為直觀。
Q11. 一般來說,下列哪種方法常用來預測連續獨立變數?
A. 線性迴歸
B. 邏輯回顧
C. 線性迴歸和邏輯迴歸都行
D. 以上說法都不對
答案 :A
解析 :線性迴歸一般用於實數預測,邏輯迴歸一般用於分類問題。
Q12. 個人健康和年齡的相關係數是 -1.09。根據這個你可以告訴醫生哪個結論?
A. 年齡是健康程度很好的預測器
B. 年齡是健康程度很糟的預測器
C. 以上說法都不對
答案 :C
解析 :因為相關係數的範圍是 [-1,1] 之間,所以,-1.09 不可能存在。
Q13. 下列哪一種偏移,是我們在最小二乘直線擬合的情況下使用的?圖中橫座標是輸入 X,縱座標是輸出 Y。
A. 垂直偏移(vertical offsets)
B. 垂向偏移(perpendicular offsets)
C. 兩種偏移都可以
D. 以上說法都不對
答案 :A
解析 :線性迴歸模型計算損失函式,例如均方差損失函式時,使用的都是 vertical offsets。perpendicular offsets 一般用於主成分分析(PCA)中。
Q14. 假如我們利用 Y 是 X 的 3 階多項式產生一些資料(3 階多項式能很好地擬合資料)。那麼,下列說法正確的是(多選)?
A. 簡單的線性迴歸容易造成高偏差(bias)、低方差(variance)
B. 簡單的線性迴歸容易造成低偏差(bias)、高方差(variance)
C. 3 階多項式擬合會造成低偏差(bias)、高方差(variance)
D. 3 階多項式擬合具備低偏差(bias)、低方差(variance)
答案 :AD
解析 :偏差和方差是兩個相對的概念,就像欠擬合和過擬合一樣。如果模型過於簡單,通常會造成欠擬合,伴隨著高偏差、低方差;如果模型過於複雜,通常會造成過擬合,伴隨著低偏差、高方差。
用一張圖來形象地表示偏差與方差的關係:
圖片來源:
偏差(bias)可以看成模型預測與真實樣本的差距,想要得到 low bias,就得複雜化模型,但是容易造成過擬合。方差(variance)可以看成模型在測試集上的表現,想要得到 low variance,就得簡化模型,但是容易造成欠擬合。實際應用中,偏差和方差是需要權衡的。若模型在訓練樣本和測試集上都表現的不錯,偏差和方差都會比較小,這也是模型比較理想的情況。
Q15. 假如你在訓練一個線性迴歸模型,有下面兩句話:
1. 如果資料量較少,容易發生過擬合。
2. 如果假設空間較小,容易發生過擬合。
關於這兩句話,下列說法正確的是?
A. 1 和 2 都錯誤
B. 1 正確,2 錯誤
C. 1 錯誤,2 正確
D. 1 和 2 都正確
答案 :B
解析 :先來看第 1 句話,如果資料量較少,容易在假設空間找到一個模型對訓練樣本的擬合度很好,容易造成過擬合,該模型不具備良好的泛化能力。
再來看第 2 句話,如果假設空間較小,包含的可能的模型就比較少,也就不太可能找到一個模型能夠對樣本擬合得很好,容易造成高偏差、低方差,即欠擬合。
參考文獻:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2198751/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 機器學習筆試題精選(七)機器學習筆試
- 機器學習筆試精選題(四)機器學習筆試
- 機器學習筆試題精選(三)機器學習筆試
- 機器學習筆試題精選(五)機器學習筆試
- 機器學習筆試題精選(六)機器學習筆試
- 機器學習筆試題精選(二)機器學習筆試
- 精選乾貨:Java精選筆試題附答案Java筆試
- 機器學習資料精選機器學習
- 測試筆試多選題筆試
- 中興筆試選擇題筆試
- 2018名企校招筆試真題精選技術篇筆試
- 試用開放筆試題,高效篩選人才筆試
- iOS面試題精選iOS面試題
- Unity 筆試題目(一)Unity筆試
- 微軟面試試題精選--9道!<全文及完整答案> (轉)微軟面試
- Linux運維常見筆試題(選擇題)Linux運維筆試
- 百度2015校招機器學習筆試題機器學習筆試
- 2021精選 Java面試題附答案(一)Java面試題
- 機器學習筆記(一)機器學習筆記
- 軟體測試每週一問最佳答案精選
- 從一道筆試題題說起筆試
- Java併發面試題精選Java面試題
- 每週精選+原創題
- 記一次面試筆試題面試筆試
- 分享一個Android筆試題Android筆試
- 每週AI應用方案精選:智慧試衣間;機器學習惡意軟體防範等AI機器學習
- 【機器學習】機器學習面試乾貨精講機器學習面試
- 筆試題目——研發工程師筆試題筆試工程師
- 機器學習-習題(一)機器學習
- 最新精選Java面試題,附答案!Java面試題
- 騰訊筆試題筆試
- java筆試題Java筆試
- shell 筆試題筆試
- SQL 筆試題SQL筆試
- 阮一峰部落格精選
- 軟體測試筆試題筆試
- 機器學習筆記——模型選擇與正則化機器學習筆記模型
- 【筆試題】用 PHP 寫一個微波爐筆試PHP