跳槽季·機器學習面試不完全指南

AI前線發表於2018-02-22

本文由「AI前線」原創，原文連結：跳槽季·機器學習面試不完全指南
作者｜Vincent
編輯｜Emily

AI 前線導讀：”春節就這麼一眨眼過去了，眼看著就到了“金三銀四”的跳槽黃金季節了，想必在去年飽經磨礪的你已經有了新的方向和目標，此時正在摩拳擦掌、蓄勢待發，世界人工智慧未來的發展重任眼看著就要落在了你們的肩上！但是！當你們憑藉強大的簡歷通過了企業的篩選，來到面試環節，面對面試官那深邃而憂鬱的目光，你能夠招架幾個回合？所以，我們整理了一些機器學習面試前你需要準備的要點，供你參考，乾貨滿滿喲~”

概述

本文是機器學習面試不完全指南，因為面試和經驗這些東西也往往都是一家之言，可參考，但並不一定就完全適合你。所以，我們蒐集了一些比較靠譜的經驗，整合起來放送給你，希望能夠對你的職業生涯有所幫助。

一些善意的提醒

相信能夠進入面試的朋友，簡歷一定是優中選優的，所以這部分我們不多作贅述。但是，當面試官讓你當面對簡歷中的專案經驗進行描述的時候，請一定記住一條原則：

用可量化的方式去介紹你之前的專案。

舉個簡單的例子：

1.曾參與訓練了 XX 機器學習系統，取得了不錯的成果。

2.分別使用 Keras，Tensorflow 和 Node.js 設計並部署了一個深度學習模型，進行目標識別。與傳統神經網路（例如 ResNet）相比，該模型具有 1/30 的模型大小，1/3 的訓練時間，1/5 的推理時間，以及 2 倍的收斂速度。

如何？是不是明顯感覺到第二個更好？因為它量化了你的貢獻，並突出了你使用的特定技術（證明你具有相關專業知識）。僅僅需要簡單記錄你在實驗過程中所做的事情。但不要誇大，多花一些時間瀏覽你的簡歷以及過去的專案，以確保你在面試現場可以解釋得很好。

根據面試的階段，你可能會被問到不同的事情，你會被問到幾乎所有科技工作中可能要求的東西，比如幾個簡單的程式設計問題。

很多時候，看似簡單的問題反映了面試官真正關心的東西。你有解決這個問題的好方法嗎？你收集要求還是隻是做出假設？你測試了你的程式碼嗎？你是如何選擇你的測試用例的？你做了什麼折衷？你是否意識到需要做一個權衡？

當被問到機器學習的內容時，面試官首先希望知道你熟悉這個術語，並且知道常用的技術框架。沒有必要知道每種演算法的所有細節，但是在回答中需要證明你知道各種框架的基本屬性。你還可能會被問到你將如何處理一個特定的問題。

另外，不要陷入假設每個問題都是機器學習問題的陷阱。有些面試官經常看到應聘者在回答問題時答非所問，不能因為你懂機器學習，就把所有問題都歸結為機器學習的問題。

知識點總結

為了方便各位讀者閱讀和收藏，我們為大家總結了一些比較實用的知識點，同時在文章的底部還會附上本文參考的幾篇文章的連結，各位讀者可以自行取閱。

先看看下面這張圖：

這是一位機器學習專家給出的機器學習面試前，一個應聘者需要了解的技術要點。右側的技術要點從上到下分別為：

線性代數、微積分、概率和統計
資訊理論
資料分析能力
機器學習 or 深度學習建模能力
A/B 測試技能
資料密集型應用系統的設計
用於計算密集型應用程式的優化知識
可擴充套件性和容錯性知識

左邊的彩色字型分別對應了：機器學習研究員、大資料科學家、機器學習工程師、機器學習架構師。右邊相同顏色的方框裡面包含的，就是這一職位在面試前需要重點準備的科目，如果年後你就要開始面試了，那麼可以趁著這段假期，對照著這張圖進行查漏補缺。

以下是機器學習面試常見的基礎概念。

線性迴歸

如何學習引數：最小化損失函式
如何最小化損失函式：梯度下降
正則化：

L1（Lasso 迴歸）：可以將某個係數縮小到零，從而執行特徵選擇；
L2（Ridge 迴歸）：以同樣的比例收縮所有係數 ; 幾乎總是勝過 L1；
合併（彈性網）。

假定特徵和標籤之間存線上性關係
可以新增多項式和互動特徵以增加非線性

邏輯迴歸

用於二分類問題的廣義線性模型（GLM）
將 sigmoid 函式應用於線性模型的輸出，將目標壓縮到範圍 [0,1]
通過閾值做出預測：如果輸出> 0.5，預測 1；否則預測 0
softmax 函式：處理多分類問題

KNN

給定一個資料點，使用一定的距離度量（例如歐幾里德距離）計算 K 個最近的資料點（近鄰）。對於分類，可以取大多數近鄰的標籤；對於迴歸，我們採用標籤值的均值。

對於 KNN 來說，我們不需要訓練模型，我們只是在推理時間內進行計算。這可能在計算上很昂貴，因為每個測試樣本都需要與每個訓練樣本進行比較以瞭解它們有多接近。

有近似的方法可以有更快的推斷時間，通過將訓練資料集劃分成區域。

注意，當 K 等於 1 或其他小數字時，模型容易出現過擬合（高方差），而當 K 等於資料點數或更大的數字時，模型容易出現欠擬合（高偏差）。

SVM

可以執行線性，非線性或異常值檢測（無監督）
大間距分類器：不僅有一個決策邊界，而且希望邊界距離最近的訓練點儘可能遠
最接近的訓練樣例被稱為支援向量，因為它們是繪製決策邊界所基於的點
SVM 對特徵縮放比較敏感

決策樹

非引數，有監督的學習演算法
給定訓練資料，決策樹演算法將特徵空間劃分為區域。為了推斷，我們首先觀測測試資料點落入哪個區域，並取平均標籤值（迴歸）或多數標籤值（分類）。
構造：自上而下，選擇一個變數來分割資料，使得每個區域內的目標變數儘可能均勻。兩個常見的指標：基尼不純或資訊增益，在實驗中兩者結果差異不大。
優點：簡單地理解和解釋，模仿人類決策過程
壞處：

如果我們不限制樹的深度，可以容易地過度擬合可能不夠魯棒：訓練資料的小改動
可能導致完全不同的樹
不穩定性：由於其正交決策邊界，對訓練集旋轉敏感

Bagging

為了解決過擬合問題，我們可以使用稱為 bagging（bootstrap aggregating）的整合方法，它減少了元學習演算法的方差。bagging 可以應用於決策樹或其他演算法。

這是一個很好的例子：

bagging 是有放回取樣。在子取樣無放回時，則稱為 pasting。
bagging 因其對效能的提高而廣受歡迎，也因為單獨的機器學習模型可以並行訓練，並且可以很好地擴充套件。
當機器學習模型儘可能彼此獨立時，整合方法效果最好
投票: 軟投票（對所有演算法的預測概率取平均值）通常比硬投票更有效。
袋外（out-of-bag）例項（37％）可以作為 bagging 的驗證集。

隨機森林

隨機森林通過增加一些隨機性來進一步改善 bagging。在隨機森林中，只隨機選擇一部分特徵來構建樹（而不是子取樣例項）。好處是隨機森林減少了樹之間的相關性。

假設我們有一個資料集。有一個資訊增益很高的特徵，以及一些預測性較弱的特徵。在 bagging 樹中，大多數樹將在頂部拆分時使用這個預測性很強的特徵，因此使得大部分樹看起來相似，並且高度相關。與互不相關的結果相比，對高度相關的結果取平均不會大量降低方差。在隨機森林中，每一次劃分節點我們只考慮特徵的一個子集，並因此通過引入更多不相關的樹來進一步減少方差。

在實踐中，調整隨機森林需要擁有大量的樹（越多越好，但需要考慮計算約束）。此外，用 min_samples_leaf（葉節點的樣本的最小數量）來控制樹大小和過擬合。

特徵的重要性：

在決策樹中，更重要的特徵可能更接近樹的頂部。通過計算它在森林中所有樹上出現的平均深度，我們可以得到一個特徵對於隨機森林的重要性。

Boosting 樹

原理

Boosting 樹以迭代方式建立在弱學習器身上。在每次迭代中，都會新增一個新的學習器，而所有現有的學習器都保持不變。所有的學習器根據他們的表現（例如，準確性）進行加權，並且在加入弱學習器之後，對資料進行重新加權：錯誤分類的樣例獲得更多的權重，而正確分類的樣例減少權重。因此，未來的弱學習器會更多地關注之前的弱學習器錯誤分類的樣例。

與隨機森林（RF）的區別