機器學習是一門理論性和實戰性都比較強的技術學科。在應聘機器學習相關工作崗位時,我們常常會遇到各種各樣的機器學習問題和知識點。
演算法理論基礎不僅包含基本概念、數學基礎,也包含了機器學習、深度學習相關。今天給大家推薦一個不錯的演算法理論基礎面試題彙總資源,已開源~
首先放上這份開源面試題彙總的地址:
https://github.com/sladesha/Reflection_Summary
其作者是 SladeSal 和 tcandzq,來自 2020 屆校招面試各類演算法問題及個人理解的彙總。目前已經收穫 900+ 的讚了~
資源目錄:
- 基礎概念
- 數學
- 資料預處理
- 機器學習
- 深度學習
- 自然語言處理
- 推薦
- 風控
- 評價指標
下面來看一下詳細內容,一睹為快!
1. 基礎概念
基礎概念部分包含了 5 個主題,分別是:方差和偏差、生成與判別模型、先驗概率和後驗概率、頻率概率、AutoML。每個主題都包含若干常見、高頻出現的面試題。
例如“如何解釋偏差、方差,模型訓練為什麼要引入偏差和方差?”
問題的解釋都來自面試題的精煉總結,不羅嗦,簡單易懂。
2. 數學
數學部分包含了 12 個主題,分別是:資料質量、最大公約數問題、牛頓法、擬牛頓法、概率密度分佈、平面曲線的切線和法線、導數、微分中值定理、泰勒公式、尤拉公式、矩陣、概率論。
例如,看下關於泰勒公式的講解:
泰勒公式一句話描述:就是用多項式函式去逼近光滑函式。常見的泰勒公式有:
3. 資料預處理
資料預處理部分包含了 5 個主題,分別是資料平衡、異常點處理、缺失值處理、特徵選擇、特徵提取。資料預處理是機器學習演算法的重要組成部分。
例如“為什麼需要對資料進行變換?”,“歸一化和標準化之間的關係?”
這部分作者總結得很詳細,後面還有展開!關於連續特徵的常用方法,作者引入一張圖進行總結歸納:
4. 機器學習
機器學習部分包含了 9 個主題,分別是:聚類、線性迴歸、邏輯迴歸、決策樹、貝葉斯、隨機森林、整合學習、FM/FFM、SVM。這部分內容詳實,核心面試題也總結得很好。
例如 SVM 面試題非常豐富,涵蓋得比較全面。眾所周知,支援向量機(Support Vector Machine, SVM)是一類按監督學習方式對資料進行二元分類的廣義線性分類器,其決策邊界是對學習樣本求解的最大邊距超平面。
關於KKT限制條件,KKT條件有哪些、引入拉格朗日的優化方法後的損失函式解釋、核函式的作用是啥、核函式的種類和應用場景作者都有詳細解釋。
5. 深度學習
深度學習部分包含了 8 個主題,分別是:dropout、batch_normalization、bp過程、embedding、softmax、梯度消失/爆炸、殘差網路、Attention。
例如“殘差網路為什麼能解決梯度消失的問題?”
6. 自然語言處理
自然語言處理部分包含了 8 個主題,分別是:GloVe、WordsVec、CRF、LDA、LSTM、GRU、Bert、文字相似度計算。
例如“word2vec和glove區別?”
7. 推薦
推薦部分包含 8 個主題,分別是:DIN、DeepFM、YoutubeNet、Wide&Deep、MLR、Neural Network全家桶、XDeepFM、Recall。
8. 風控
風控部分包含了 2 個主題,分別是:孤立森林和評分卡。
9. 評價指標
評價指標包含了 5 個主題,分別是:二分類、多分類、迴歸指標、聚類指標、排序指標。
總的來說,這是一份不錯的演算法理論基礎面試資源,作者對常見的大廠面試題做了較好的歸納和總結。幫助大家對這些知識點進行梳理和理解,以便能夠更好地應對機器學習筆試包括面試。
目前該專案應該還在補充完善。
最後,再次放上該資源的 GitHub 開源地址:
https://github.com/sladesha/Reflection_Summary
本文首發於公眾號:AI有道(ID: redstonewill),歡迎關注!