BAT機器學習面試1000題系列(二)

weixin_34236497發表於2017-12-18

101.深度學習(CNN RNN Attention)解決大規模文字分類問題。

用深度學習(CNN RNN Attention)解決大規模文字分類問題 - 綜述和實踐

102.如何解決RNN梯度爆炸和彌散的問題的?

深度學習與自然語言處理(7)_史丹佛cs224d 語言模型,RNN,LSTM與GRU

103.如何提高深度學習的效能?

機器學習系列(10)_如何提高深度學習(和機器學習)的效能

104.RNN、LSTM、GRU區別?

@我愛大泡泡,本題解析來源:

面試筆試整理3:深度學習機器學習面試問題準備(必會)

105.當機器學習效能遭遇瓶頸時,你會如何優化的?

可以從這4個方面進行嘗試:基於資料、藉助演算法、用演算法調參、藉助模型融合。當然能談多細多深入就看你的經驗心得了。

這裡有一份參考清單:機器學習系列(20)_機器學習效能改善備忘單

106.做過什麼樣的機器學習專案?比如如何從零構建一個推薦系統?

推薦系統的公開課http://www.julyedu.com/video/play/18/148,另,再推薦一個課程:機器學習專案班 [10次純專案講解,100%純實戰](https://www.julyedu.com/course/getDetail/48)。

107.什麼樣的資料集不適合用深度學習?

@抽象猴,來源:

知乎解答

108.廣義線性模型是怎被應用在深度學習中?

@許韓,來源:

知乎解答

109.準備機器學習面試應該瞭解哪些理論知識?

2340478-bfad48a76ab4de02

知乎解答

110.標準化與歸一化的區別?

簡單來說,標準化是依照特徵矩陣的列處理資料,其通過求z-score的方法,將樣本的特徵值轉換到同一量綱下。歸一化是依照特徵矩陣的行處理資料,其目的在於樣本向量在點乘運算或其他核函式計算相似性時,擁有統一的標準,也就是說都轉化為“單位向量”。規則為L2的歸一化公式如下:

特徵向量的缺失值處理:

1.缺失值較多.直接將該特徵捨棄掉,否則可能反倒會帶入較大的noise,對結果造成不良影響。
2.缺失值較少,其餘的特徵缺失值都在10%以內,我們可以採取很多的方式來處理:

  1. 把NaN直接作為一個特徵,假設用0表示;
  2. 用均值填充;
  3. 用隨機森林等演算法預測填充

111.隨機森林如何處理缺失值。

方法一(na.roughfix)簡單粗暴,對於訓練集,同一個class下的資料,如果是分類變數缺失,用眾數補上,如果是連續型變數缺失,用中位數補。
方法二(rfImpute)這個方法計算量大,至於比方法一好壞?不好判斷。先用na.roughfix補上缺失值,然後構建森林並計算proximity matrix,再回頭看缺失值,如果是分類變數,則用沒有陣進行加權平均的方法補缺失值。然後迭代4-6次,這個補缺失值的思想和KNN有些類似1缺失的觀測例項的proximity中的權重進行投票。如果是連續型變數,則用proximity矩2。

112.隨機森林如何評估特徵重要性。

衡量變數重要性的方法有兩種,Decrease GINI 和 Decrease Accuracy:

  1. Decrease GINI: 對於迴歸問題,直接使用argmax(VarVarLeftVarRight)作為評判標準,即當前節點訓練集的方差Var減去左節點的方差VarLeft和右節點的方差VarRight。
  2. Decrease Accuracy:對於一棵樹Tb(x),我們用OOB樣本可以得到測試誤差1;然後隨機改變OOB樣本的第j列:保持其他列不變,對第j列進行隨機的上下置換,得到誤差2。至此,我們可以用誤差1-誤差2來刻畫變數j的重要性。基本思想就是,如果一個變數j足夠重要,那麼改變它會極大的增加測試誤差;反之,如果改變它測試誤差沒有增大,則說明該變數不是那麼的重要。

113.優化Kmeans。

使用Kd樹或者Ball Tree
將所有的觀測例項構建成一顆kd樹,之前每個聚類中心都是需要和每個觀測點做依次距離計算,現在這些聚類中心根據kd樹只需要計算附近的一個區域性區域即可。

114.KMeans初始類簇中心點的選取。

K-means++演算法選擇初始seeds的基本思想就是:初始的聚類中心之間的相互距離要儘可能的遠。

1.從輸入的資料點集合中隨機選擇一個點作為第一個聚類中心
2.對於資料集中的每一個點x,計算它與最近聚類中心(指已選擇的聚類中心)的距離D(x)
3.選擇一個新的資料點作為新的聚類中心,選擇的原則是:D(x)較大的點,被選取作為聚類中心的概率較大
4.重複2和3直到k個聚類中心被選出來
5.利用這k個初始的聚類中心來執行標準的k-means演算法

115.解釋對偶的概念。

一個優化問題可以從兩個角度進行考察,一個是primal 問題,一個是dual 問題,就是對偶問題,一般情況下對偶問題給出主問題最優值的下界,在強對偶性成立的情況下由對偶問題可以得到主問題的最優下界,對偶問題是凸優化問題,可以進行較好的求解,SVM中就是將Primal問題轉換為dual問題進行求解,從而進一步引入核函式的思想。

116.如何進行特徵選擇?

特徵選擇是一個重要的資料預處理過程,主要有兩個原因:一是減少特徵數量、降維,使模型泛化能力更強,減少過擬合;二是增強對特徵和特徵值之間的理解。

常見的特徵選擇方式:
1.去除方差較小的特徵。
2.正則化。1正則化能夠生成稀疏的模型。L2正則化的表現更加穩定,由於有用的特徵往往對應係數非零。
3.隨機森林,對於分類問題,通常採用基尼不純度或者資訊增益,對於迴歸問題,通常採用的是方差或者最小二乘擬合。一般不需要feature engineering、調參等繁瑣的步驟。它的兩個主要問題,1是重要的特徵有可能得分很低(關聯特徵問題),2是這種方法對特徵變數類別多的特徵越有利(偏向問題)。
4.穩定性選擇。是一種基於二次抽樣和選擇演算法相結合較新的方法,選擇演算法可以是迴歸、SVM或其他類似的方法。它的主要思想是在不同的資料子集和特徵子集上執行特徵選擇演算法,不斷的重複,最終彙總特徵選擇結果,比如可以統計某個特徵被認為是重要特徵的頻率(被選為重要特徵的次數除以它所在的子集被測試的次數)。理想情況下,重要特徵的得分會接近100%。稍微弱一點的特徵得分會是非0的數,而最無用的特徵得分將會接近於0。

117.資料預處理。

1.缺失值,填充缺失值fillna:
i. 離散:None,
ii. 連續:均值。
iii. 缺失值太多,則直接去除該列
2.連續值:離散化。有的模型(如決策樹)需要離散值
3.對定量特徵二值化。核心在於設定一個閾值,大於閾值的賦值為1,小於等於閾值的賦值為0。如影像操作
4.皮爾遜相關係數,去除高度相關的列

118.簡單說說特徵工程。

2340478-5834374e57c68289

119.你知道有哪些資料處理和特徵工程的處理?

2340478-7f20d1b5f4c7adda

120.請對比下Sigmoid、Tanh、ReLu這三個啟用函式?

2340478-5917e2e4caf3de87

121.Sigmoid、Tanh、ReLu這三個啟用函式有什麼缺點或不足,有沒改進的啟用函式?

@我愛大泡泡,來源:

面試筆試整理3:深度學習機器學習面試問題準備(必會)

122.怎麼理解決策樹、xgboost能處理缺失值?而有的模型(svm)對缺失值比較敏感?

知乎解答

123.為什麼引入非線性激勵函式?

@Begin Again,來源:

知乎解答

如果不用激勵函式(其實相當於激勵函式是f(x) = x),在這種情況下你每一層輸出都是上層輸入的線性函式,很容易驗證,無論你神經網路有多少層,輸出都是輸入的線性組合,與沒有隱藏層效果相當,這種情況就是最原始的感知機(Perceptron)了。

正因為上面的原因,我們決定引入非線性函式作為激勵函式,這樣深層神經網路就有意義了(不再是輸入的線性組合,可以逼近任意函式)。最早的想法是Sigmoid函式或者Tanh函式,輸出有界,很容易充當下一層輸入(以及一些人的生物解釋)。

124.請問人工神經網路中為什麼ReLu要好過於Tanh和Sigmoid function?

@Begin Again,來源:

知乎解答

125.為什麼LSTM模型中既存在Sigmoid又存在Tanh兩種啟用函式?

本題解析來源:知乎解答

@beanfrog:二者目的不一樣:sigmoid 用在了各種gate上,產生0~1之間的值,這個一般只有sigmoid最直接了。tanh 用在了狀態和輸出上,是對資料的處理,這個用其他啟用函式或許也可以。

@hhhh:另可參見A Critical Review of Recurrent Neural Networks for Sequence Learning的section4.1,說了那兩個tanh都可以替換成別的。

126.衡量分類器的好壞。

@我愛大泡泡,來源:

答案解析

這裡首先要知道TP、FN(真的判成假的)、FP(假的判成真)、TN四種(可以畫一個表格)。

幾種常用的指標:

精度precision = TP/(TP+FP) = TP/~P (~p為預測為真的數量)
召回率 recall = TP/(TP+FN) = TP/ P
F1值: 2/F1 = 1/recall + 1/precision
ROC曲線:ROC空間是一個以偽陽性率(FPR,false positive rate)為X軸,真陽性率(TPR, true positive rate)為Y軸的二維座標系所代表的平面。其中真陽率TPR = TP / P = recall, 偽陽率FPR = FP / N

127.機器學習和統計裡面的auc的物理意義是什麼?

詳情參見機器學習和統計裡面的auc怎麼理解?

128.觀察增益gain, alpha和gamma越大,增益越小?

@AntZ:XGBoost尋找分割點的標準是最大化gain. 考慮傳統的列舉每個特徵的所有可能分割點的貪心法效率太低,XGBoost實現了一種近似的演算法。大致的思想是根據百分位法列舉幾個可能成為分割點的候選者,然後從候選者中計算Gain按最大值找出最佳的分割點。它的計算公式分為四項, 可以由正則化項引數調整(lamda為葉子權重平方和的係數, gama為葉子數量):

2340478-e667ba93f267d1fd

第一項是假設分割的左孩子的權重分數, 第二項為右孩子, 第三項為不分割總體分數, 最後一項為引入一個節點的複雜度損失。

由公式可知, gama越大gain越小, lamda越大, gain可能小也可能大。

原問題是alpha而不是lambda, 這裡paper上沒有提到, XGBoost實現上有這個引數. 上面是我從paper上理解的答案,下面是搜尋到的:

如何對XGBoost模型進行引數調優

129.什麼造成梯度消失問題? 推導一下。
  
@許韓,來源:

神經網路的訓練中,通過改變神經元的權重,使網路的輸出值儘可能逼近標籤以降低誤差值,訓練普遍使用BP演算法,核心思想是,計算出輸出與標籤間的損失函式值,然後計算其相對於每個神經元的梯度,進行權值的迭代。

梯度消失會造成權值更新緩慢,模型訓練難度增加。造成梯度消失的一個原因是,許多啟用函式將輸出值擠壓在很小的區間內,在啟用函式兩端較大範圍的定義域內梯度為0,造成學習停止。

2340478-30b7d2da19cbfb44

130.什麼是梯度消失和梯度爆炸?

@寒小陽,反向傳播中鏈式法則帶來的連乘,如果有數很小趨於0,結果就會特別小(梯度消失);如果數都比較大,可能結果會很大(梯度爆炸)。

@單車

神經網路訓練中的梯度消失與梯度爆炸

131.如何解決梯度消失和梯度膨脹?

(1)梯度消失:
  根據鏈式法則,如果每一層神經元對上一層的輸出的偏導乘上權重結果都小於1的話,那麼即使這個結果是0.99,在經過足夠多層傳播之後,誤差對輸入層的偏導會趨於0,可以採用ReLU啟用函式有效的解決梯度消失的情況。
(2)梯度膨脹
  根據鏈式法則,如果每一層神經元對上一層的輸出的偏導乘上權重結果都大於1的話,在經過足夠多層傳播之後,誤差對輸入層的偏導會趨於無窮大,可以通過啟用函式來解決。

132.推導下反向傳播Backpropagation。

@我愛大泡泡,來源:

推導過程

133.SVD和PCA。

PCA的理念是使得資料投影后的方差最大,找到這樣一個投影向量,滿足方差最大的條件即可。而經過了去除均值的操作之後,就可以用SVD分解來求解這樣一個投影向量,選擇特徵值最大的方向。

134.資料不平衡問題。

這主要是由於資料分佈不平衡造成的。解決方法如下:

1)取樣,對小樣本加噪聲取樣,對大樣本進行下采樣
2)進行特殊的加權,如在Adaboost中或者SVM中
3)採用對不平衡資料集不敏感的演算法
4)改變評價標準:用AUC/ROC來進行評價
5)採用Bagging/Boosting/Ensemble等方法
6)考慮資料的先驗分佈

135.簡述神經網路的發展。

MP模型+sgn—->單層感知機(只能線性)+sgn— Minsky 低谷 —>多層感知機+BP+Sigmoid— (低谷) —>深度學習+Pretraining+ReLU/Sigmoid

136.深度學習常用方法。

@SmallisBig,來源:

機器學習崗位面試問題彙總 之 深度學習

137.神經網路模型(Neural Network)因受人類大腦的啟發而得名。神經網路由許多神經元(Neuron)組成,每個神經元接受一個輸入,對輸入進行處理後給出一個輸出。請問下列關於神經元的描述中,哪一項是正確的?(E)

A.每個神經元只有一個輸入和一個輸出
B.每個神經元有多個輸入和一個輸出
C.每個神經元有一個輸入和多個輸出
D.每個神經元有多個輸入和多個輸出
E.上述都正確

答案:(E)
每個神經元可以有一個或多個輸入,和一個或多個輸出

138.下圖是一個神經元的數學表示,

2340478-6876913e1145a159

139.在一個神經網路中,知道每一個神經元的權重和偏差是最重要的一步。如果知道了神經元準確的權重和偏差,便可以近似任何函式,但怎麼獲知每個神經的權重和偏移呢?(C)

A. 搜尋每個可能的權重和偏差組合,直到得到最佳值
B. 賦予一個初始值,然後檢查跟最佳值的差值,不斷迭代調整權重
C. 隨機賦值,聽天由命
D. 以上都不正確的

答案:(C)
選項C是對梯度下降的描述。

140.梯度下降演算法的正確步驟是什麼?( D)

1.計算預測值和真實值之間的誤差
2.重複迭代,直至得到網路權重的最佳值
3.把輸入傳入網路,得到輸出值
4.用隨機值初始化權重和偏差
5.對每一個產生誤差的神經元,調整相應的(權重)值以減小誤差

A. 1, 2, 3, 4, 5
B. 5, 4, 3, 2, 1
C. 3, 2, 1, 5, 4
D. 4, 3, 1, 5, 2

答案:(D)

141.已知:

  • 大腦是有很多個叫做神經元的東西構成,神經網路是對大腦的簡單的數學表達。
  • 每一個神經元都有輸入、處理函式和輸出。
  • 神經元組合起來形成了網路,可以擬合任何函式。
  • 為了得到最佳的神經網路,我們用梯度下降方法不斷更新模型
    給定上述關於神經網路的描述,什麼情況下神經網路模型被稱為深度學習模型?

A. 加入更多層,使神經網路的深度增加
B. 有維度更高的資料
C. 當這是一個圖形識別的問題時
D. 以上都不正確

答案:(A)
更多層意味著網路更深。沒有嚴格的定義多少層的模型才叫深度模型,目前如果有超過2層的隱層,那麼也可以及叫做深度模型。

142.卷積神經網路可以對一個輸入進行多種變換(旋轉、平移、縮放),這個表述正確嗎?

答案:錯誤
把資料傳入神經網路之前需要做一系列資料預處理(也就是旋轉、平移、縮放)工作,神經網路本身不能完成這些變換。

143.下面哪項操作能實現跟神經網路中Dropout的類似效果?(B)

A. Boosting
B. Bagging
C. Stacking
D. Mapping
  
答案:B
Dropout可以認為是一種極端的Bagging,每一個模型都在單獨的資料上訓練,同時,通過和其他模型對應引數的共享,從而實現模型引數的高度正則化。

144.下列哪一項在神經網路中引入了非線性?(B)

A. 隨機梯度下降
B. 修正線性單元(ReLU)
C. 卷積函式
D .以上都不正確

答案:(B)
修正線性單元是非線性的啟用函式。

145.在訓練神經網路時,損失函式(loss)在最初的幾個epochs時沒有下降,可能的原因是?(A)

A. 學習率(learning rate)太低
B. 正則引數太高
C. 陷入區域性最小值
D. 以上都有可能

答案:(A)

146.下列哪項關於模型能力(model capacity)的描述是正確的?(指神經網路模型能擬合複雜函式的能力)(A)

A. 隱藏層層數增加,模型能力增加
B. Dropout的比例增加,模型能力增加
C. 學習率增加,模型能力增加
D. 都不正確

答案:(A)

147.如果增加多層感知機(Multilayer Perceptron)的隱藏層層數,分類誤差便會減小。這種陳述正確還是錯誤?

答案:錯誤
並不總是正確。過擬合可能會導致錯誤增加。

148.構建一個神經網路,將前一層的輸出和它自身作為輸入。下列哪一種架構有反饋連線?(A)

A. 迴圈神經網路
B. 卷積神經網路
C. 限制玻爾茲曼機
D. 都不是

答案:(A)

149.下列哪一項在神經網路中引入了非線性?在感知機中(Perceptron)的任務順序是什麼?

1.隨機初始化感知機的權重
2.去到資料集的下一批(batch)
3.如果預測值和輸出不一致,則調整權重
4.對一個輸入樣本,計算輸出值

答案:1 - 4 - 3 - 2

150.假設你需要調整引數來最小化代價函式(cost function),可以使用下列哪項技術?(D)

A. 窮舉搜尋
B. 隨機搜尋
C. Bayesian優化
D. 以上任意一種

答案:(D)

151.在下面哪種情況下,一階梯度下降不一定正確工作(可能會卡住)?(B)

2340478-2fb2fb7b93ef50dc

答案:(B)

這是鞍點(Saddle Point)的梯度下降的經典例子。另,本題來源於:題目來源

152.下圖顯示了訓練過的3層卷積神經網路準確度,與引數數量(特徵核的數量)的關係。

2340478-5b750be65e1407f8

從圖中趨勢可見,如果增加神經網路的寬度,精確度會增加到一個特定閾值後,便開始降低。造成這一現象的可能原因是什麼?(C)

A. 即使增加摺積核的數量,只有少部分的核會被用作預測
B. 當卷積核數量增加時,神經網路的預測能力(Power)會降低
C. 當卷積核數量增加時,它們之間的相關性增加(correlate),導致過擬合
D. 以上都不正確

答案:(C)
如C選項指出的那樣,可能的原因是核之間的相關性。

153.假設我們有一個如下圖所示的隱藏層。隱藏層在這個網路中起到了一定的降維作用。假如現在我們用另一種維度下降的方法,比如說主成分分析法(PCA)來替代這個隱藏層。那麼,這兩者的輸出效果是一樣的嗎?

答案:不同,因為PCA用於相關特徵而隱層用於有預測能力的特徵。

154.神經網路能組成函式($y=\frac{1}{x}$)嗎?

答案:可以,因為啟用函式可以是互反函式。

155.下列哪個神經網路結構會發生權重共享?(D)

A. 卷積神經網路
B. 迴圈神經網路
C. 全連線神經網路
D. 選項A和B
  
答案:(D)

156.批規範化(Batch Normalization)的好處都有啥?(A)

A. 在將所有的輸入傳遞到下一層之前對其進行歸一化(更改)
B. 它將權重的歸一化平均值和標準差
C. 它是一種非常有效的反向傳播(BP)方法
D. 這些均不是

答案:(A)

157.在一個神經網路中,下面哪種方法可以用來處理過擬合?(D)
  
A. Dropout
B. 分批歸一化(Batch Normalization)
C. 正則化(regularization)
D. 都可以

答案:(D)

158.如果我們用了一個過大的學習速率會發生什麼?(D)
  
A. 神經網路會收斂
B. 不好說
C. 都不對
D. 神經網路不會收斂

答案:(D)

159.下圖所示的網路用於訓練識別字元H和T,如下所示:

2340478-864e69bd5f9d1a83

網路的輸出是什麼?(D)

2340478-391abe3658e2e2f1

D.可能是A或B,取決於神經網路的權重設定

答案:(D)
不知道神經網路的權重和偏差是什麼,則無法判定它將會給出什麼樣的輸出。

160.假設我們已經在ImageNet資料集(物體識別)上訓練好了一個卷積神經網路。然後給這張卷積神經網路輸入一張全白的圖片。對於這個輸入的輸出結果為任何種類的物體的可能性都是一樣的,對嗎?(D)

A. 對的
B. 不知道
C. 看情況
D. 不對

答案:(D)各個神經元的反應是不一樣的

161.當在卷積神經網路中加入池化層(pooling layer)時,變換的不變性會被保留,是嗎?(C)

A. 不知道
B. 看情況
C. 是
D. 否

答案:(C)使用池化時會導致出現不變性。

162.當資料過大以至於無法在RAM中同時處理時,哪種梯度下降方法更加有效?(A)

A. 隨機梯度下降法(Stochastic Gradient Descent)
B. 不知道
C. 整批梯度下降法(Full Batch Gradient Descent)
D. 都不是

答案:(A)

163.下圖是一個利用sigmoid函式作為啟用函式的含四個隱藏層的神經網路訓練的梯度下降圖。這個神經網路遇到了梯度消失的問題。下面哪個敘述是正確的?(A)

2340478-66c39003aeefc3e1

A. 第一隱藏層對應D,第二隱藏層對應C,第三隱藏層對應B,第四隱藏層對應A
B. 第一隱藏層對應A,第二隱藏層對應C,第三隱藏層對應B,第四隱藏層對應D
C. 第一隱藏層對應A,第二隱藏層對應B,第三隱藏層對應C,第四隱藏層對應D
D. 第一隱藏層對應B,第二隱藏層對應D,第三隱藏層對應C,第四隱藏層對應A

答案:(A)由於反向傳播演算法進入起始層,學習能力降低,這就是梯度消失。

164.對於一個分類任務,如果開始時神經網路的權重不是隨機賦值的,二是都設成0,下面哪個敘述是正確的?(C)

A. 其他選項都不對
B. 沒啥問題,神經網路會正常開始訓練
C. 神經網路可以訓練,但是所有的神經元最後都會變成識別同樣的東西
D. 神經網路不會開始訓練,因為沒有梯度改變

答案:(C)

165.下圖顯示,當開始訓練時,誤差一直很高,這是因為神經網路在往全域性最小值前進之前一直被卡在區域性最小值裡。為了避免這種情況,我們可以採取下面哪種策略?(A)

2340478-876426bde3a45895

A. 改變學習速率,比如一開始的幾個訓練週期不斷更改學習速率
B. 一開始將學習速率減小10倍,然後用動量項(momentum)
C. 增加引數數目,這樣神經網路就不會卡在區域性最優處
D. 其他都不對

答案:(A)
選項A可以將陷於區域性最小值的神經網路提取出來。

166.對於一個影像識別問題(在一張照片裡找出一隻貓),下面哪種神經網路可以更好地解決這個問題?(D)

A. 迴圈神經網路
B. 感知機
C. 多層感知機
D. 卷積神經網路

卷積神經網路將更好地適用於影像相關問題,因為考慮到影像附近位置變化的固有性質。

答案:(D)

167.假設在訓練中我們突然遇到了一個問題,在幾次迴圈之後,誤差瞬間降低。你認為資料有問題,於是你畫出了資料並且發現也許是資料的偏度過大造成了這個問題。

2340478-e30fa76ce2092bd0

你打算怎麼做來處理這個問題?(D)

A. 對資料作歸一化
B. 對資料取對數變化
C. 都不對
D. 對資料作主成分分析(PCA)和歸一化

答案:(D)
首先將相關的資料去掉,然後將其置零。

168.下面那個決策邊界是神經網路生成的?(E)

2340478-6cd021e67766ab8d

A. A
B. D
C. C
D. B
E. 以上都有

答案:(E)

169.在下圖中,我們可以觀察到誤差出現了許多小的"漲落"。 這種情況我們應該擔心嗎?(B)

2340478-d96b0a2bd8656e0d

A. 需要,這也許意味著神經網路的學習速率存在問題
B. 不需要,只要在訓練集和交叉驗證集上有累積的下降就可以了
C. 不知道
D. 不好說

答案:(B)
選項B是正確的,為了減少這些“起伏”,可以嘗試增加批尺寸(batch size)。

170.在選擇神經網路的深度時,下面那些引數需要考慮?(C)

1 神經網路的型別(如MLP,CNN)
2 輸入資料
3 計算能力(硬體和軟體能力決定)
4 學習速率
5 對映的輸出函式

A. 1,2,4,5
B. 2,3,4,5
C. 都需要考慮
D. 1,3,4,5

答案:(C)
所有上述因素對於選擇神經網路模型的深度都是重要的。

171.考慮某個具體問題時,你可能只有少量資料來解決這個問題。不過幸運的是你有一個類似問題已經預先訓練好的神經網路。可以用下面哪種方法來利用這個預先訓練好的網路?(C)

A. 把除了最後一層外所有的層都凍住,重新訓練最後一層
B. 對新資料重新訓練整個模型
C. 只對最後幾層進行調參(fine tune)
D. 對每一層模型進行評估,選擇其中的少數來用

答案:(C)

172.增加摺積核的大小對於改進卷積神經網路的效果是必要的嗎?

答案:不是,增加核函式的大小不一定會提高效能。這個問題在很大程度上取決於資料集。

173.請簡述神經網路的發展史。

@SIY.Z。本題解析來源:

淺析 Hinton 最近提出的 Capsule 計劃

174.說說spark的效能調優。

https://tech.meituan.com/spark-tuning-basic.html
https://tech.meituan.com/spark-tuning-pro.html

175.機器學習中,有哪些特徵選擇的工程方法?

資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已

1.計算每一個特徵與響應變數的相關性:工程上常用的手段有計算皮爾遜係數和互資訊係數,皮爾遜係數只能衡量線性相關性而互資訊係數能夠很好地度量各種相關性,但是計算相對複雜一些,好在很多toolkit裡邊都包含了這個工具(如sklearn的MINE),得到相關性之後就可以排序選擇特徵了;
2.構建單個特徵的模型,通過模型的準確性為特徵排序,藉此來選擇特徵;
3.通過L1正則項來選擇特徵:L1正則方法具有稀疏解的特性,因此天然具備特徵選擇的特性,但是要注意,L1沒有選到的特徵不代表不重要,原因是兩個具有高相關性的特徵可能只保留了一個,如果要確定哪個特徵重要應再通過L2正則方法交叉檢驗*;
4.訓練能夠對特徵打分的預選模型:RandomForest和Logistic Regression等都能對模型的特徵打分,通過打分獲得相關性後再訓練最終模型;
5.通過特徵組合後再來選擇特徵:如對使用者id和使用者特徵最組合來獲得較大的特徵集再來選擇特徵,這種做法在推薦系統和廣告系統中比較常見,這也是所謂億級甚至十億級特徵的主要來源,原因是使用者資料比較稀疏,組合特徵能夠同時兼顧全域性模型和個性化模型,這個問題有機會可以展開講。
6.通過深度學習來進行特徵選擇:目前這種手段正在隨著深度學習的流行而成為一種手段,尤其是在計算機視覺領域,原因是深度學習具有自動學習特徵的能力,這也是深度學習又叫unsupervised feature learning的原因。從深度學習模型中選擇某一神經層的特徵後就可以用來進行最終目標模型的訓練了。

176.常見的分類演算法有哪些?

SVM、神經網路、隨機森林、邏輯迴歸、KNN、貝葉斯

177.常見的監督學習演算法有哪些?

感知機、SVM、人工神經網路、決策樹、邏輯迴歸

178.在其他條件不變的前提下,以下哪種做法容易引起機器學習中的過擬合問題(D)

A. 增加訓練集量
B. 減少神經網路隱藏層節點數
C. 刪除稀疏的特徵
D. SVM演算法中使用高斯核/RBF核代替線性核

正確答案:(D)

@劉炫320

一般情況下,越複雜的系統,過擬合的可能性就越高,一般模型相對簡單的話泛化能力會更好一點。

B.一般認為,增加隱層數可以降低網路誤差(也有文獻認為不一定能有效降低),提高精度,但也使網路複雜化,從而增加了網路的訓練時間和出現“過擬合”的傾向, svm高斯核函式比線性核函式模型更復雜,容易過擬合

D.徑向基(RBF)核函式/高斯核函式的說明,這個核函式可以將原始空間對映到無窮維空間。對於引數 ,如果選的很大,高次特徵上的權重實際上衰減得非常快,實際上(數值上近似一下)相當於一個低維的子空間;反過來,如果選得很小,則可以將任意的資料對映為線性可分——當然,這並不一定是好事,因為隨之而來的可能是非常嚴重的過擬合問題。不過,總的來說,通過調整引數 ,高斯核實際上具有相當高的靈活性,也是 使用最廣泛的核函式之一。

179.下列時間序列模型中,哪一個模型可以較好地擬合波動性的分析和預測?(D)

A. AR模型
B. MA模型
C. ARMA模型
D. GARCH模型

正確答案:(D)

@劉炫320

R模型是一種線性預測,即已知N個資料,可由模型推出第N點前面或後面的資料(設推出P點),所以其本質類似於插值。

MA模型(moving average model)滑動平均模型,其中使用趨勢移動平均法建立直線趨勢的預測模型。

ARMA模型(auto regressive moving average model)自迴歸滑動平均模型,模型參量法高解析度譜分析方法之一。這種方法是研究平穩隨機過程有理譜的典型方法。它比AR模型法與MA模型法有較精確的譜估計及較優良的譜解析度效能,但其引數估算比較繁瑣。

GARCH模型稱為廣義ARCH模型,是ARCH模型的擴充,由Bollerslev(1986)發展起來的。它是ARCH模型的推廣。GARCH(p,0)模型,相當於ARCH(p)模型。GARCH模型是一個專門針對金融資料所量體訂做的迴歸模型,除去和普通迴歸模型相同的之處,GARCH對誤差的方差進行了進一步的建模。特別適用於波動性的分析和預測,這樣的分析對投資者的決策能起到非常重要的指導性作用,其意義很多時候超過了對數值本身的分析和預測。

180.以下哪個屬於線性分類器最佳準則?(ACD)

A. 感知準則函式
B.貝葉斯分類
C.支援向量機
D.Fisher準則

正確答案:(ACD)

@劉炫320

線性分類器有三大類:感知器準則函式、SVM、Fisher準則,而貝葉斯分類器不是線性分類器。

感知準則函式 :準則函式以使錯分類樣本到分介面距離之和最小為原則。其優點是通過錯分類樣本提供的資訊對分類器函式進行修正,這種準則是人工神經元網路多層感知器的基礎。

支援向量機 :基本思想是在兩類線性可分條件下,所設計的分類器介面使兩類之間的間隔為最大,它的基本出發點是使期望泛化風險儘可能小。(使用核函式可解決非線性問題)

Fisher 準則 :更廣泛的稱呼是線性判別分析(LDA),將所有樣本投影到一條遠點出發的直線,使得同類樣本距離儘可能小,不同類樣本距離儘可能大,具體為最大化“廣義瑞利商”。

根據兩類樣本一般類內密集,類間分離的特點,尋找線性分類器最佳的法線向量方向,使兩類樣本在該方向上的投影滿足類內儘可能密集,類間儘可能分開。這種度量通過類內離散矩陣$S_{w}$和類間離散矩陣$S_{b}$實現。

181.基於二次準則函式的H-K演算法較之於感知器演算法的優點是(BD)?

A. 計算量小
B. 可以判別問題是否線性可分
C. 其解完全適用於非線性可分的情況
D. 其解的適應性更好

正確答案:(BD)

@劉炫320

HK演算法思想很樸實,就是在最小均方誤差準則下求得權向量。
他相對於感知器演算法的優點在於,他適用於線性可分和非線性可分得情況,對於線性可分的情況,給出最優權向量,對於非線性可分得情況,能夠判別出來,以退出迭代過程。

182.以下說法中正確的是(BD)?

A. SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒
B. 在AdaBoost演算法中,所有被分錯的樣本的權重更新比例相同
C. Boosting和Bagging都是組合多個分類器投票的方法,二者都是根據單個分類器的正確率決定其權重
D. 給定n個資料點,如果其中一半用於訓練,一般用於測試,則訓練誤差和測試誤差之間的差別會隨著n的增加而減少

正確答案:(BD)

@劉炫320

A、SVM對噪聲(如來自其他分佈的噪聲樣本)魯棒
  SVM本身對噪聲具有一定的魯棒性,但實驗證明,是當噪聲率低於一定水平的噪聲對SVM沒有太大影響,但隨著噪聲率的不斷增加,分類器的識別率會降低。
B、在AdaBoost演算法中所有被分錯的樣本的權重更新比例相同
  AdaBoost演算法中不同的訓練集是通過調整每個樣本對應的權重來實現的。開始時,每個樣本對應的權重是相同的,即其中n為樣本個數,在此樣本分佈下訓練出一弱分類器。對於分類錯誤的樣本,加大其對應的權重;而對於分類正確的樣本,降低其權重,這樣分錯的樣本就被凸顯出來,從而得到一個新的樣本分佈。在新的樣本分佈下,再次對樣本進行訓練,得到弱分類器。以此類推,將所有的弱分類器重疊加起來,得到強分類器。
C、Boost和Bagging都是組合多個分類器投票的方法,二者均是根據單個分類器的正確率決定其權重。
  Bagging與Boosting的區別:
  取樣方式不同。
  Bagging採用均勻取樣,而Boosting根據錯誤率取樣。
  Bagging的各個預測函式沒有權重,而Boosting是有權重的。
  Bagging的各個預測函式可以並行生成,而Boosing的各個預測函式只能順序生成。

183.輸入圖片大小為200×200,依次經過一層卷積(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一層卷積(kernel size 3×3,padding 1,stride 1)之後,輸出特徵圖大小為(C):

A. 95
B. 96
C. 97
D. 98

正確答案:(C)

@劉炫320

首先我們應該知道卷積或者池化後大小的計算公式:
out_height=((input_height - filter_height + padding_top+padding_bottom)/stride_height )+1
out_width=((input_width - filter_width + padding_left+padding_right)/stride_width )+1

其中,padding指的是向外擴充套件的邊緣大小,而stride則是步長,即每次移動的長度。

這樣一來就容易多了,首先長寬一般大,所以我們只需要計算一個維度即可,這樣,經過第一次卷積後的大小為: (200-5+2)/2+1,取99;經過第一次池化後的大小為:(99-3)/1+1 為97;經過第二次卷積後的大小為: (97-3+2)/1+1 為97。

184.在SPSS的基礎分析模組中,作用是“以行列表的形式揭示資料之間的關係”的是(C)

A. 資料描述
B. 相關
C. 交叉表
D. 多重相應

正確答案:(C )

185.一監獄人臉識別准入系統用來識別待進入人員的身份,此係統一共包括識別4種不同的人員:獄警,小偷,送餐員,其他。下面哪種學習方法最適合此種應用需求:(B)。

A. 二分類問題
B. 多分類問題
C. 層次聚類問題
D. k-中心點聚類問題
E. 迴歸問題
F. 結構分析問題
  
正確答案:(B)

@劉炫320

二分類:每個分類器只能把樣本分為兩類。監獄裡的樣本分別為獄警、小偷、送餐員、其他。二分類肯 定行不通。瓦普尼克95年提出來基礎的支援向量機就是個二分類的分類器,這個分類器學習過 程就是解一個基於正負二分類推導而來的一個最優規劃問題(對偶問題),要解決多分類問題 就要用決策樹把二分類的分類器級聯,VC維的概念就是說的這事的複雜度。
  層次聚類: 建立一個層次等級以分解給定的資料集。監獄裡的物件分別是獄警、小偷、送餐員、或者其 他,他們等級應該是平等的,所以不行。此方法分為自上而下(分解)和自下而上(合併)兩種操作方式。
  K-中心點聚類:挑選實際物件來代表簇,每個簇使用一個代表物件。它是圍繞中心點劃分的一種規則,所以這裡並不合適。
  迴歸分析:處理變數之間具有相關性的一種統計方法,這裡的獄警、小偷、送餐員、其他之間並沒有什 麼直接關係。
  結構分析: 結構分析法是在統計分組的基礎上,計算各組成部分所佔比重,進而分析某一總體現象的內部結構特徵、總體的性質、總體內部結構依時間推移而表現出的變化規律性的統計方法。結構分析法的基本表現形式,就是計算結構指標。這裡也行不通。
  多分類問題: 針對不同的屬性訓練幾個不同的弱分類器,然後將它們整合為一個強分類器。這裡獄警、 小偷、送餐員 以及他某某,分別根據他們的特點設定依據,然後進行區分識別。

186.關於 Logit 迴歸和 SVM 不正確的是(A)。

A. Logit迴歸目標函式是最小化後驗概率
B. Logit迴歸可以用於預測事件發生概率的大小
C. SVM目標是結構風險最小化
D. SVM可以有效避免模型過擬合

正確答案:(A)

@劉炫320

A. Logit迴歸本質上是一種根據樣本對權值進行極大似然估計的方法,而後驗概率正比於先驗概率和似然函式的乘積。logit僅僅是最大化似然函式,並沒有最大化後驗概率,更談不上最小化後驗概率。而最小化後驗概率是樸素貝葉斯演算法要做的。A錯誤
  B. Logit迴歸的輸出就是樣本屬於正類別的機率,可以計算出概率,正確
  C. SVM的目標是找到使得訓練資料儘可能分開且分類間隔最大的超平面,應該屬於結構風險最小化。
  D. SVM可以通過正則化係數控制模型的複雜度,避免過擬合。

187.有兩個樣本點,第一個點為正樣本,它的特徵向量是(0,-1);第二個點為負樣本,它的特徵向量是(2,3),從這兩個樣本點組成的訓練集構建一個線性SVM分類器的分類面方程是(C)

A. 2x+y=4
B. x+2y=5
C. x+2y=3
D. 2x-y=0

正確答案:(C)

解析:這道題簡化了,對於兩個點來說,最大間隔就是垂直平分線,因此求出垂直平分線即可。

188.下面有關分類演算法的準確率,召回率,F1 值的描述,錯誤的是?(C)

A. 準確率是檢索出相關文件數與檢索出的文件總數的比率,衡量的是檢索系統的查準率
B. 召回率是指檢索出的相關文件數和文件庫中所有的相關文件數的比率,衡量的是檢索系統的查全率
C. 正確率、召回率和 F 值取值都在0和1之間,數值越接近0,查準率或查全率就越高
D. 為了解決準確率和召回率衝突問題,引入了F1分數

正確答案:(C)

解析:對於二類分類問題常用的評價指標是精準度(precision)與召回率(recall)。通常以關注的類為正類,其他類為負類,分類器在測試資料集上的預測或正確或不正確,4種情況出現的總數分別記作:
  TP——將正類預測為正類數
  FN——將正類預測為負類數
  FP——將負類預測為正類數
  TN——將負類預測為負類數
  由此:
  精準率定義為:P = TP / (TP + FP)
  召回率定義為:R = TP / (TP + FN)
  F1值定義為: F1 = 2 P R / (P + R)
精準率和召回率和F1取值都在0和1之間,精準率和召回率高,F1值也會高,不存在數值越接近0越高的說法,應該是數值越接近1越高。

189.以下幾種模型方法屬於判別式模型(Discriminative Model)的有(A)
1)混合高斯模型 2)條件隨機場模型
3)區分度訓練 4)隱馬爾科夫模型
  
A. 2,3
B. 3,4
C. 1,4
D. 1,2

正確答案:(A)

@劉炫320

常見的判別式模型有:Logistic Regression(Logistical 迴歸)

Linear discriminant analysis(線性判別分析)
  Supportvector machines(支援向量機)
  Boosting(整合學習)
  Conditional random fields(條件隨機場)
  Linear regression(線性迴歸)
  Neural networks(神經網路)
  
常見的生成式模型有:Gaussian mixture model and othertypes of mixture model(高斯混合及其他型別混合模型)
  Hidden Markov model(隱馬爾可夫)
  NaiveBayes(樸素貝葉斯)
  AODE(平均單依賴估計)
  Latent Dirichlet allocation(LDA主題模型)
  Restricted Boltzmann Machine(限制波茲曼機)

生成式模型是根據概率乘出結果,而判別式模型是給出輸入,計算出結果。

190.SPSS中,資料整理的功能主要集中在(AD )等選單中。

A. 資料
B. 直銷
C. 分析
D. 轉換
  
正確答案:(AD )

@劉炫320

解析:對資料的整理主要在資料和轉換功能選單中。

191.深度學習是當前很熱門的機器學習演算法,在深度學習中,涉及到大量的矩陣相乘,現在需要計算三個稠密矩陣A,B,C的乘積ABC,假設三個矩陣的尺寸分別為m∗n,n∗p,p∗q,且m<n<p<q,以下計算順序效率最高的是(A)

A. (AB)C
B. AC(B)
C. A(BC)
D. 所以效率都相同

正確答案:(A)

@劉炫320

首先,根據簡單的矩陣知識,因為 A*B , A 的列數必須和 B 的行數相等。因此,可以排除 B 選項。

然後,再看 A 、 C 選項。在 A 選項中,m∗n 的矩陣 A 和n∗p的矩陣 B 的乘積,得到 m∗p的矩陣 AB ,而 A∗B的每個元素需要 n 次乘法和 n-1 次加法,忽略加法,共需要 m∗n∗p次乘法運算。同樣情況分析 AB 之後再乘以 C 時的情況,共需要 m∗p∗q次乘法運算。因此, A 選項 (AB)C 需要的乘法次數是 m∗n∗p+m∗p∗q 。同理分析, C 選項 A (BC) 需要的乘法次數是 n∗p∗q+m∗n∗q。

由於m∗n∗p<m∗n∗q,m∗p∗q<n∗p∗q,顯然 A 運算次數更少,故選 A 。

192.Nave Bayes是一種特殊的Bayes分類器,特徵變數是X,類別標籤是C,它的一個假定是:( C )

A. 各類別的先驗概率P(C)是相等的
B. 以0為均值,sqr(2)/2為標準差的正態分佈
C. 特徵變數X的各個維度是類別條件獨立隨機變數
D. P(X|C)是高斯分佈

正確答案:( C )

@劉炫320

樸素貝葉斯的條件就是每個變數相互獨立。

193.關於支援向量機SVM,下列說法錯誤的是(C)

A. L2正則項,作用是最大化分類間隔,使得分類器擁有更強的泛化能力
B. Hinge 損失函式,作用是最小化經驗分類錯誤
C. 分類間隔為$\frac{1}{||w||}$,||w||代表向量的模
D. 當引數C越小時,分類間隔越大,分類錯誤越多,趨於欠學習

正確答案:(C)

@劉炫320

A正確。考慮加入正則化項的原因:想象一個完美的資料集,y>1是正類,y<-1是負類,決策面y=0,加入一個y=-30的正類噪聲樣本,那麼決策面將會變“歪”很多,分類間隔變小,泛化能力減小。加入正則項之後,對噪聲樣本的容錯能力增強,前面提到的例子裡面,決策面就會沒那麼“歪”了,使得分類間隔變大,提高了泛化能力。

B正確。

C錯誤。間隔應該是$\frac{2}{||w||}$才對,後半句應該沒錯,向量的模通常指的就是其二範數。

D正確。考慮軟間隔的時候,C對優化問題的影響就在於把a的範圍從[0,+inf]限制到了[0,C]。C越小,那麼a就會越小,目標函式拉格朗日函式導數為0可以求出$w=\sum_{i}^{ }a_{i}y_{i}x_{i}$,a變小使得w變小,因此間隔$\frac{2}{||w||}$變大。

194.在HMM中,如果已知觀察序列和產生觀察序列的狀態序列,那麼可用以下哪種方法直接進行引數估計( D )

A. EM演算法
B. 維特比演算法
C. 前向後向演算法
D. 極大似然估計

正確答案:( D )

@劉炫320

EM演算法: 只有觀測序列,無狀態序列時來學習模型引數,即Baum-Welch演算法

維特比演算法: 用動態規劃解決HMM的預測問題,不是引數估計

前向後向演算法:用來算概率

極大似然估計:即觀測序列和相應的狀態序列都存在時的監督學習演算法,用來估計引數

注意的是在給定觀測序列和對應的狀態序列估計模型引數,可以利用極大似然發估計。如果給定觀測序列,沒有對應的狀態序列,才用EM,將狀態序列看不不可測的隱資料。

195.假定某同學使用Naive Bayesian(NB)分類模型時,不小心將訓練資料的兩個維度搞重複了,那麼關於NB的說法中正確的是: (BD)

A. 這個被重複的特徵在模型中的決定作用會被加強
B. 模型效果相比無重複特徵的情況下精確度會降低
C. 如果所有特徵都被重複一遍,得到的模型預測結果相對於不重複的情況下的模型預測結果一樣。
D. 當兩列特徵高度相關時,無法用兩列特徵相同時所得到的結論來分析問題
E. NB可以用來做最小二乘迴歸
F. 以上說法都不正確
  
正確答案:(BD)

196.L1與L2範數在Logistic Regression 中,如果同時加入L1和L2範數,會產生什麼效果( A )。

A. 可以做特徵選擇,並在一定程度上防止過擬合
B. 能解決維度災難問題
C. 能加快計算速度
D. 可以獲得更準確的結果

正確答案:( A )

@劉炫320

L1範數具有係數解的特性,但是要注意的是,L1沒有選到的特徵不代表不重要,原因是兩個高相關性的特徵可能只保留一個。如果需要確定哪個特徵重要,再通過交叉驗證。

在代價函式後面加上正則項,L1即是Losso迴歸,L2是嶺迴歸。L1範數是指向量中各個元素絕對值之和,用於特徵選擇。L2範數 是指向量各元素的平方和然後求平方根,用於 防止過擬合,提升模型的泛化能力。因此選擇A。

對於機器學習中的範數規則化,也就是L0,L1,L2範數的詳細解答,請參閱範數規則化

197.機器學習中L1正則化和L2正則化的區別是?(AD)

A. 使用L1可以得到稀疏的權值
B. 使用L1可以得到平滑的權值
C. 使用L2可以得到稀疏的權值
D. 使用L2可以得到平滑的權值

正確答案:(AD)

@劉炫320

L1正則化偏向於稀疏,它會自動進行特徵選擇,去掉一些沒用的特徵,也就是將這些特徵對應的權重置為0。
L2主要功能是為了防止過擬合,當要求引數越小時,說明模型越簡單,而模型越簡單則,越趨向於平滑,從而防止過擬合。

L1正則化/Lasso
L1正則化將係數w的L1範數作為懲罰項加到損失函式上,由於正則項非零,這就迫使那些弱的特徵所對應的係數變成0。因此L1正則化往往會使學到的模型很稀疏(係數w經常為0),這個特性使得L1正則化成為一種很好的特徵選擇方法。

L2正則化/Ridge regression
L2正則化將係數向量的L2範數新增到了損失函式中。由於L2懲罰項中係數是二次方的,這使得L2和L1有著諸多差異,最明顯的一點就是,L2正則化會讓係數的取值變得平均。對於關聯特徵,這意味著他們能夠獲得更相近的對應係數。還是以$Y=X_{1}+X_{2}$為例,假設$X_{1}$和$X_{1}$具有很強的關聯,如果用L1正則化,不論學到的模型是$Y=X_{1}+X_{2}$還是$Y=2X_{1}$,懲罰都是一樣的,都是$2\alpha $。但是對於L2來說,第一個模型的懲罰項是$2\alpha $,但第二個模型的是$4\alpha $。可以看出,係數之和為常數時,各系數相等時懲罰是最小的,所以才有了L2會讓各個係數趨於相同的特點。

可以看出,L2正則化對於特徵選擇來說一種穩定的模型,不像L1正則化那樣,係數會因為細微的資料變化而波動。所以L2正則化和L1正則化提供的價值是不同的,L2正則化對於特徵理解來說更加有用:表示能力強的特徵對應的係數是非零。

因此,一句話總結就是:L1會趨向於產生少量的特徵,而其他的特徵都是0,而L2會選擇更多的特徵,這些特徵都會接近於0。Lasso在特徵選擇時候非常有用,而Ridge就只是一種規則化而已。

198.位勢函式法的積累勢函式K(x)的作用相當於Bayes判決中的( AD )

A. 後驗概率
B. 先驗概率
C. 類概率密度
D. 類概率密度與先驗概率的乘積

正確答案: (AD)

@劉炫320

事實上,AD說的是一回事。

參考連結:勢函式主要用於確定分類面,其思想來源於物理。

199.隱馬爾可夫模型三個基本問題以及相應的演算法說法正確的是( ABC)

A. 評估—前向後向演算法
B. 解碼—維特比演算法
C. 學習—Baum-Welch演算法
D. 學習—前向後向演算法

正確答案: ( ABC)

解析:評估問題,可以使用前向演算法、後向演算法、前向後向演算法。

200.特徵比資料量還大時,選擇什麼樣的分類器?

答案:線性分類器,因為維度高的時候,資料一般在維度空間裡面會比較稀疏,很有可能線性可分。

相關文章