9 大主題!機器學習演算法理論面試題大彙總

紅色石頭發表於2020-11-27

機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。

演算法理論基礎不僅包含基本概念、數學基礎,也包含了機器學習、深度學習相關。今天給大家推薦一個不錯的演算法理論基礎面試題彙總資源,已開源~

首先放上這份開源面試題彙總的地址:

https://github.com/sladesha/Reflection_Summary

其作者是 SladeSal 和 tcandzq,來自 2020 屆校招面試各類演算法問題及個人理解的彙總。目前已經收穫 900+ 的讚了~

資源目錄:

  • 基礎概念
  • 數學
  • 資料預處理
  • 機器學習
  • 深度學習
  • 自然語言處理
  • 推薦
  • 風控
  • 評價指標

下面來看一下詳細內容,一睹為快!

1. 基礎概念

基礎概念部分包含了 5 個主題,分別是:方差和偏差、生成與判別模型、先驗機率和後驗機率、頻率機率、AutoML。每個主題都包含若干常見、高頻出現的面試題。

例如“如何解釋偏差、方差,模型訓練為什麼要引入偏差和方差?”

問題的解釋都來自面試題的精煉總結,不羅嗦,簡單易懂。

2. 數學

數學部分包含了 12 個主題,分別是:資料質量、最大公約數問題、牛頓法、擬牛頓法、機率密度分佈、平面曲線的切線和法線、導數、微分中值定理、泰勒公式、尤拉公式、矩陣、機率論。

例如,看下關於泰勒公式的講解:

泰勒公式一句話描述:就是用多項式函式去逼近光滑函式。常見的泰勒公式有:

3. 資料預處理

資料預處理部分包含了 5 個主題,分別是資料平衡、異常點處理、缺失值處理、特徵選擇、特徵提取。資料預處理是機器學習演算法的重要組成部分。

例如“為什麼需要對資料進行變換?”,“歸一化和標準化之間的關係?”

這部分作者總結得很詳細,後面還有展開!關於連續特徵的常用方法,作者引入一張圖進行總結歸納:

4. 機器學習

機器學習部分包含了 9 個主題,分別是:聚類、線性迴歸、邏輯迴歸、決策樹、貝葉斯、隨機森林、整合學習、FM/FFM、SVM。這部分內容詳實,核心面試題也總結得很好。

例如 SVM 面試題非常豐富,涵蓋得比較全面。眾所周知,支援向量機(Support Vector Machine, SVM)是一類按監督學習方式對資料進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。

關於KKT限制條件,KKT條件有哪些、引入拉格朗日的最佳化方法後的損失函式解釋、核函式的作用是啥、核函式的種類和應用場景作者都有詳細解釋。

5. 深度學習

深度學習部分包含了 8 個主題,分別是:dropout、batch_normalization、bp過程、embedding、softmax、梯度消失/爆炸、殘差網路、Attention。

例如“殘差網路為什麼能解決梯度消失的問題?”

6. 自然語言處理

自然語言處理部分包含了 8 個主題,分別是:GloVe、WordsVec、CRF、LDA、LSTM、GRU、Bert、文字相似度計算。

例如“word2vec和glove區別?”

7. 推薦

推薦部分包含 8 個主題,分別是:DIN、DeepFM、YoutubeNet、Wide&Deep、MLR、Neural Network全家桶、XDeepFM、Recall。

8. 風控

風控部分包含了 2 個主題,分別是:孤立森林和評分卡。

9. 評價指標

評價指標包含了 5 個主題,分別是:二分類、多分類、迴歸指標、聚類指標、排序指標。

總的來說,這是一份不錯的演算法理論基礎面試資源,作者對常見的大廠面試題做了較好的歸納和總結。幫助大家對這些知識點進行梳理和理解,以便能夠更好地應對機器學習筆試包括面試。

目前該專案應該還在補充完善。

最後,再次放上該資源的 GitHub 開源地址:

https://github.com/sladesha/Reflection_Summary


本文首發於公眾號:AI有道(ID: redstonewill),歡迎關注!

相關文章