機器學習&資料探勘筆記_16（常見面試之機器學習演算法思想簡單梳理）

tornadomeet發表於2013-10-29

作者：tornadomeet 出處：http://www.cnblogs.com/tornadomeet

　前言：

　　找工作時（IT行業），除了常見的軟體開發以外，機器學習崗位也可以當作是一個選擇，不少計算機方向的研究生都會接觸這個，如果你的研究方向是機器學習/資料探勘之類，且又對其非常感興趣的話，可以考慮考慮該崗位，畢竟在機器智慧沒達到人類水平之前，機器學習可以作為一種重要手段，而隨著科技的不斷髮展，相信這方面的人才需求也會越來越大。

　　縱觀IT行業的招聘崗位，機器學習之類的崗位還是挺少的，國內大點的公司裡百度，阿里，騰訊，網易，搜狐，華為（華為的崗位基本都是隨機分配，機器學習等崗位基本面向的是博士）等會有相關職位，另外一些國內的中小型企業和外企也會招一小部分。當然了，其中大部分還是百度北京要人最多，上百人。阿里的演算法崗位很大一部分也是搞機器學習相關的。另外本人有幸簽約了網易杭州研究院的深度學習演算法崗位，打算從事機器學習領域至少5年。非常感謝小易收留了我！

　　下面是本人在找機器學習崗位工作時，總結的常見機器學習演算法（主要是一些常規分類器）大概流程和主要思想，希望對大家找機器學習崗位時有點幫助。實際上在面試過程中，懂這些演算法的基本思想和大概流程是遠遠不夠的，那些面試官往往問的都是一些公司內部業務中的課題，往往要求你不僅要懂得這些演算法的理論過程，而且要非常熟悉怎樣使用它，什麼場合用它，演算法的優缺點，以及調參經驗等等。說白了，就是既要會點理論，也要會點應用，既要有點深度，也要有點廣度，否則運氣不好的話很容易就被刷掉，因為每個面試官愛好不同。

　　樸素貝葉斯：

　　有以下幾個地方需要注意：

　　1. 如果給出的特徵向量長度可能不同，這是需要歸一化為通長度的向量（這裡以文字分類為例），比如說是句子單詞的話，則長度為整個詞彙量的長度，對應位置是該單詞出現的次數。

　　2. 計算公式如下：

　　其中一項條件概率可以通過樸素貝葉斯條件獨立展開。要注意一點就是的計算方法，而由樸素貝葉斯的前提假設可知， = ，因此一般有兩種，一種是在類別為ci的那些樣本集中，找到wj出現次數的總和，然後除以該樣本的總和；第二種方法是類別為ci的那些樣本集中，找到wj出現次數的總和，然後除以該樣本中所有特徵出現次數的總和。

　　3. 如果中的某一項為0，則其聯合概率的乘積也可能為0，即2中公式的分子為0，為了避免這種現象出現，一般情況下會將這一項初始化為1，當然為了保證概率相等，分母應對應初始化為2（這裡因為是2類，所以加2，如果是k類就需要加k，術語上叫做laplace光滑, 分母加k的原因是使之滿足全概率公式）。

　　樸素貝葉斯的優點：

　　對小規模的資料表現很好，適合多分類任務，適合增量式訓練。

　　缺點：

　　對輸入資料的表達形式很敏感。

　　決策樹：

　　決策樹中很重要的一點就是選擇一個屬性進行分枝，因此要注意一下資訊增益的計算公式，並深入理解它。

　　資訊熵的計算公式如下:

　　其中的n代表有n個分類類別（比如假設是2類問題，那麼n=2）。分別計算這2類樣本在總樣本中出現的概率p1和p2，這樣就可以計算出未選中屬性分枝前的資訊熵。

　　現在選中一個屬性xi用來進行分枝，此時分枝規則是：如果xi=vx的話，將樣本分到樹的一個分支；如果不相等則進入另一個分支。很顯然，分支中的樣本很有可能包括2個類別，分別計算這2個分支的熵H1和H2,計算出分枝後的總資訊熵H’=p1*H1+p2*H2.，則此時的資訊增益ΔH=H-H’。以資訊增益為原則，把所有的屬性都測試一邊，選擇一個使增益最大的屬性作為本次分枝屬性。

　　決策樹的優點：

　　計算量簡單，可解釋性強，比較適合處理有缺失屬性值的樣本，能夠處理不相關的特徵；

　　缺點：

　　容易過擬合（後續出現了隨機森林，減小了過擬合現象）；

　　Logistic迴歸：

　　Logistic是用來分類的，是一種線性分類器，需要注意的地方有：

　　1. logistic函式表示式為：

　　其導數形式為：

　　2. logsitc迴歸方法主要是用最大似然估計來學習的，所以單個樣本的後驗概率為：

　　到整個樣本的後驗概率：

　　其中：

　　通過對數進一步化簡為：

　　3. 其實它的loss function為-l(θ)，因此我們需使loss function最小，可採用梯度下降法得到。梯度下降法公式為:

　　Logistic迴歸優點：

　　1、實現簡單；

　　2、分類時計算量非常小，速度很快，儲存資源低；

　　缺點：

　　1、容易欠擬合，一般準確度不太高

　　2、只能處理兩分類問題（在此基礎上衍生出來的softmax可以用於多分類），且必須線性可分；

　　線性迴歸：

　　線性迴歸才是真正用於迴歸的，而不像logistic迴歸是用於分類，其基本思想是用梯度下降法對最小二乘法形式的誤差函式進行優化，當然也可以用normal equation直接求得引數的解，結果為：

　　而在LWLR（區域性加權線性迴歸）中，引數的計算表示式為:

　　因為此時優化的是：

　　由此可見LWLR與LR不同，LWLR是一個非引數模型，因為每次進行迴歸計算都要遍歷訓練樣本至少一次。

　　線性迴歸優點：

　　實現簡單，計算簡單；

　　缺點：

　　不能擬合非線性資料；

　　KNN演算法：

　　KNN即最近鄰演算法，其主要過程為：

　　1. 計算訓練樣本和測試樣本中每個樣本點的距離（常見的距離度量有歐式距離，馬氏距離等）；

　　2. 對上面所有的距離值進行排序；

　　3. 選前k個最小距離的樣本；

　　4. 根據這k個樣本的標籤進行投票，得到最後的分類類別；

　　如何選擇一個最佳的K值，這取決於資料。一般情況下，在分類時較大的K值能夠減小噪聲的影響。但會使類別之間的界限變得模糊。一個較好的K值可通過各種啟發式技術來獲取，比如，交叉驗證。另外噪聲和非相關性特徵向量的存在會使K近鄰演算法的準確性減小。

　　近鄰演算法具有較強的一致性結果。隨著資料趨於無限，演算法保證錯誤率不會超過貝葉斯演算法錯誤率的兩倍。對於一些好的K值，K近鄰保證錯誤率不會超過貝葉斯理論誤差率。

　　注：馬氏距離一定要先給出樣本集的統計性質，比如均值向量，協方差矩陣等。關於馬氏距離的介紹如下：

　　KNN演算法的優點：

　　1. 思想簡單，理論成熟，既可以用來做分類也可以用來做迴歸；

　　2. 可用於非線性分類；

　　3. 訓練時間複雜度為O(n)；

　　4. 準確度高，對資料沒有假設，對outlier不敏感；

　　缺點：

　　1. 計算量大；

　　2. 樣本不平衡問題（即有些類別的樣本數量很多，而其它樣本的數量很少）；

　　3. 需要大量的記憶體；

　　SVM：

　　要學會如何使用libsvm以及一些引數的調節經驗，另外需要理清楚svm演算法的一些思路：

　　1. svm中的最優分類面是對所有樣本的幾何裕量最大（為什麼要選擇最大間隔分類器，請從數學角度上說明？網易深度學習崗位面試過程中有被問到。答案就是幾何間隔與樣本的誤分次數間存在關係：，其中的分母就是樣本到分類間隔距離，分子中的R是所有樣本中的最長向量值），即：

　　經過一系列推導可得為優化下面原始目標：

　　2. 下面來看看拉格朗日理論：

　　可以將1中的優化目標轉換為拉格朗日的形式（通過各種對偶優化，KKD條件），最後目標函式為：

　　我們只需要最小化上述目標函式，其中的α為原始優化問題中的不等式約束拉格朗日系數。

　　3. 對2中最後的式子分別w和b求導可得：

　　由上面第1式子可以知道，如果我們優化出了α，則直接可以求出w了，即模型的引數搞定。而上面第2個式子可以作為後續優化的一個約束條件。

　　4. 對2中最後一個目標函式用對偶優化理論可以轉換為優化下面的目標函式：

　　而這個函式可以用常用的優化方法求得α，進而求得w和b。

　　5. 按照道理，svm簡單理論應該到此結束。不過還是要補充一點，即在預測時有：

　　那個尖括號我們可以用核函式代替，這也是svm經常和核函式扯在一起的原因。

　　6. 最後是關於鬆弛變數的引入，因此原始的目標優化公式為：

　　此時對應的對偶優化公式為：

　　與前面的相比只是α多了個上界。

　　SVM演算法優點：

　　可用於線性/非線性分類，也可以用於迴歸；

　　低泛化誤差；

　　容易解釋；

　　計算複雜度較低；

　　缺點：

　　對引數和核函式的選擇比較敏感；

　　原始的SVM只比較擅長處理二分類問題；

　　Boosting：

　　主要以Adaboost為例，首先來看看Adaboost的流程圖，如下：

　　從圖中可以看到，在訓練過程中我們需要訓練出多個弱分類器（圖中為3個），每個弱分類器是由不同權重的樣本（圖中為5個訓練樣本）訓練得到（其中第一個弱分類器對應輸入樣本的權值是一樣的），而每個弱分類器對最終分類結果的作用也不同，是通過加權平均輸出的，權值見上圖中三角形裡面的數值。那麼這些弱分類器和其對應的權值是怎樣訓練出來的呢？

　　下面通過一個例子來簡單說明。

　　書中（machine learning in action）假設的是5個訓練樣本，每個訓練樣本的維度為2，在訓練第一個分類器時5個樣本的權重各為0.2. 注意這裡樣本的權值和最終訓練的弱分類器組對應的權值α是不同的，樣本的權重只在訓練過程中用到，而α在訓練過程和測試過程都有用到。

　　現在假設弱分類器是帶一個節點的簡單決策樹，該決策樹會選擇2個屬性（假設只有2個屬性）的一個，然後計算出這個屬性中的最佳值用來分類。

　　Adaboost的簡單版本訓練過程如下：

　　1. 訓練第一個分類器，樣本的權值D為相同的均值。通過一個弱分類器，得到這5個樣本（請對應書中的例子來看，依舊是machine learning in action）的分類預測標籤。與給出的樣本真實標籤對比，就可能出現誤差(即錯誤)。如果某個樣本預測錯誤，則它對應的錯誤值為該樣本的權重，如果分類正確，則錯誤值為0. 最後累加5個樣本的錯誤率之和，記為ε。

　　2. 通過ε來計算該弱分類器的權重α，公式如下：

　　3. 通過α來計算訓練下一個弱分類器樣本的權重D，如果對應樣本分類正確，則減小該樣本的權重，公式為：

　　如果樣本分類錯誤，則增加該樣本的權重，公式為：

　　4. 迴圈步驟1,2,3來繼續訓練多個分類器，只是其D值不同而已。

　　測試過程如下：

　　輸入一個樣本到訓練好的每個弱分類中，則每個弱分類都對應一個輸出標籤，然後該標籤乘以對應的α，最後求和得到值的符號即為預測標籤值。

　　Boosting演算法的優點：

　　低泛化誤差；

　　容易實現，分類準確率較高，沒有太多引數可以調；

　　缺點：

　　對outlier比較敏感；

　　聚類：

　　根據聚類思想劃分：

　　1. 基於劃分的聚類:

　　K-means, k-medoids(每一個類別中找一個樣本點來代表),CLARANS.

　　k-means是使下面的表示式值最小：

　　 k-means演算法的優點：

　　（1）k-means演算法是解決聚類問題的一種經典演算法，演算法簡單、快速。

　　（2）對處理大資料集，該演算法是相對可伸縮的和高效率的，因為它的複雜度大約是O(nkt)，其中n是所有物件的數目，k是簇的數目,t是迭代的次數。通常k<<n。這個演算法通常區域性收斂。

　　（3）演算法嘗試找出使平方誤差函式值最小的k個劃分。當簇是密集的、球狀或團狀的，且簇與簇之間區別明顯時，聚類效果較好。

　　 缺點：

　　（1）k-平均方法只有在簇的平均值被定義的情況下才能使用，且對有些分類屬性的資料不適合。

　　（2）要求使用者必須事先給出要生成的簇的數目k。

　　（3）對初值敏感，對於不同的初始值，可能會導致不同的聚類結果。

　　（4）不適合於發現非凸面形狀的簇，或者大小差別很大的簇。

　　（5）對於"噪聲"和孤立點資料敏感，少量的該類資料能夠對平均值產生極大影響。

　　2. 基於層次的聚類：

　　自底向上的凝聚方法，比如AGNES。

　　自上向下的分裂方法，比如DIANA。

　　3. 基於密度的聚類：

　　DBSACN,OPTICS,BIRCH(CF-Tree),CURE.

　　4. 基於網格的方法：

　　STING, WaveCluster.

　　5. 基於模型的聚類：

　　EM,SOM,COBWEB.

　　以上這些演算法的簡介可參考聚類（百度百科）。

　 推薦系統：

　　推薦系統的實現主要分為兩個方面：基於內容的實現和協同濾波的實現。

　　基於內容的實現：

　　不同人對不同電影的評分這個例子，可以看做是一個普通的迴歸問題，因此每部電影都需要提前提取出一個特徵向量(即x值)，然後針對每個使用者建模，即每個使用者打的分值作為y值，利用這些已有的分值y和電影特徵值x就可以訓練迴歸模型了(最常見的就是線性迴歸)。這樣就可以預測那些使用者沒有評分的電影的分數。（值得注意的是需對每個使用者都建立他自己的迴歸模型）

　　從另一個角度來看，也可以是先給定每個使用者對某種電影的喜好程度（即權值），然後學出每部電影的特徵，最後採用迴歸來預測那些沒有被評分的電影。

　　當然還可以是同時優化得到每個使用者對不同型別電影的熱愛程度以及每部電影的特徵。具體可以參考Ng在coursera上的ml教程：https://www.coursera.org/course/ml

　　基於協同濾波的實現：

　　協同濾波（CF）可以看做是一個分類問題，也可以看做是矩陣分解問題。協同濾波主要是基於每個人自己的喜好都類似這一特徵，它不依賴於個人的基本資訊。比如剛剛那個電影評分的例子中，預測那些沒有被評分的電影的分數只依賴於已經打分的那些分數，並不需要去學習那些電影的特徵。

　　SVD將矩陣分解為三個矩陣的乘積，公式如下所示：

　　中間的矩陣sigma為對角矩陣，對角元素的值為Data矩陣的奇異值(注意奇異值和特徵值是不同的)，且已經從大到小排列好了。即使去掉特徵值小的那些特徵，依然可以很好的重構出原始矩陣。如下圖所示：

　　其中更深的顏色代表去掉小特徵值重構時的三個矩陣。

　　果m代表商品的個數，n代表使用者的個數，則U矩陣的每一行代表商品的屬性，現在通過降維U矩陣（取深色部分）後，每一個商品的屬性可以用更低的維度表示（假設為k維）。這樣當新來一個使用者的商品推薦向量X，則可以根據公式X'*U1*inv(S1)得到一個k維的向量，然後在V’中尋找最相似的那一個使用者（相似度測量可用餘弦公式等），根據這個使用者的評分來推薦（主要是推薦新使用者未打分的那些商品）。具體例子可以參考網頁：SVD在推薦系統中的應用。

　　另外關於SVD分解後每個矩陣的實際含義可以參考google吳軍的《數學之美》一書（不過個人感覺吳軍解釋UV兩個矩陣時好像弄反了，不知道大家怎樣認為）。或者參考machine learning in action其中的svd章節。

　　pLSA:

　　pLSA由LSA發展過來，而早期LSA的實現主要是通過SVD分解。pLSA的模型圖如下：

　　公式中的意義如下：

　　具體可以參考2010龍星計劃：機器學習中對應的主題模型那一講

　　LDA：

　　主題模型，概率圖如下：

　　和pLSA不同的是LDA中假設了很多先驗分佈，且一般引數的先驗分佈都假設為Dirichlet分佈，其原因是共軛分佈時先驗概率和後驗概率的形式相同。

　　GDBT：

　　GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，好像在阿里內部用得比較多（所以阿里演算法崗位面試時可能會問到），它是一種迭代的決策樹演算法，該演算法由多棵決策樹組成，所有樹的輸出結果累加起來就是最終答案。它在被提出之初就和SVM一起被認為是泛化能力（generalization)較強的演算法。近些年更因為被用於搜尋排序的機器學習模型而引起大家關注。

　　GBDT是迴歸樹，不是分類樹。其核心就在於，每一棵樹是從之前所有樹的殘差中來學習的。為了防止過擬合，和Adaboosting一樣，也加入了boosting這一項。

　　關於GDBT的介紹可以可以參考：GBDT（MART）迭代決策樹入門教程 | 簡介。

　　Regularization:

　　作用是（網易電話面試時有問到）：

　　1. 數值上更容易求解；

　　2. 特徵數目太大時更穩定；

　　3. 控制模型的複雜度，光滑性。複雜性越小且越光滑的目標函式泛化能力越強。而加入規則項能使目標函式複雜度減小，且更光滑。

　　4. 減小引數空間；引數空間越小，複雜度越低。

　　5. 係數越小，模型越簡單，而模型越簡單則泛化能力越強（Ng巨集觀上給出的解釋）。

　　6. 可以看出是權值的高斯先驗。

　　異常檢測：

　　可以估計樣本的密度函式，對於新樣本直接計算其密度，如果密度值小於某一閾值，則表示該樣本異常。而密度函式一般採用多維的高斯分佈。如果樣本有n維，則每一維的特徵都可以看作是符合高斯分佈的，即使這些特徵視覺化出來不太符合高斯分佈，也可以對該特徵進行數學轉換讓其看起來像高斯分佈，比如說x=log(x+c), x=x^(1/c)等。異常檢測的演算法流程如下：

　　其中的ε也是通過交叉驗證得到的，也就是說在進行異常檢測時，前面的p(x)的學習是用的無監督，後面的引數ε學習是用的有監督。那麼為什麼不全部使用普通有監督的方法來學習呢（即把它看做是一個普通的二分類問題）？主要是因為在異常檢測中，異常的樣本數量非常少而正常樣本數量非常多，因此不足以學習到好的異常行為模型的引數，因為後面新來的異常樣本可能完全是與訓練樣本中的模式不同。

　　另外，上面是將特徵的每一維看成是相互獨立的高斯分佈，其實這樣的近似並不是最好的，但是它的計算量較小，因此也常被使用。更好的方法應該是將特徵擬合成多維高斯分佈，這時有特徵之間的相關性，但隨之計算量會變複雜，且樣本的協方差矩陣還可能出現不可逆的情況（主要在樣本數位元徵數小，或者樣本特徵維數之間有線性關係時）。

　　上面的內容可以參考Ng的https://www.coursera.org/course/ml

　　EM演算法：

　　有時候因為樣本的產生和隱含變數有關（隱含變數是不能觀察的），而求模型的引數時一般採用最大似然估計，由於含有了隱含變數，所以對似然函式引數求導是求不出來的，這時可以採用EM演算法來求模型的引數的（對應模型引數個數可能有多個），EM演算法一般分為2步：

　　E步：選取一組引數，求出在該引數下隱含變數的條件概率值；

　　M步：結合E步求出的隱含變數條件概率，求出似然函式下界函式（本質上是某個期望函式）的最大值。

　　重複上面2步直至收斂。

　　公式如下所示：