[心得]機器學習精華筆記

tangchen2016發表於2016-11-05

前言

一直知道機器學習很火,終於動手看完Peter Flach的機器學習。第一次看,好多東西只有模糊概念,記一份筆記在此。

乾貨

機器學習是對依據經驗提升其知識或效能的演算法與系統的系統性研究。
任務是藉助模型來完成的,而學習問題則是通過用於生成模型的學習演算法來解決。
機器學習所關注的是使用恰當的特徵來構建恰當的模型。

模型賦予了機器學習領域以多樣性,而任務和特徵則賦予其一致性。

希望先忽略先驗分佈或假設其為均勻分佈時,請使用似然;否則,請使用後驗概率。
一切都應該儘可能簡單。
在覆蓋圖中,具有相同準確率的分類器,可用斜率為1的線段連線。

在規範化的覆蓋圖中,斜率為1的線段連線了具有相同平均查全率的分類器。
ROC曲線下方的面積表示排序準確率。

分組模型的ROC曲線中的線段數與該模型中例項空間中的區隔數相同;資料集中的每個例項都與評分模型的ROC曲線中的一條線段對應。

減少對模型的求精,有時可以獲得更優的排序效能。
可藉助冰姐分值對例項空間的區隔進行整合,以改善ROC曲線中凹狀的部分。
為避免過擬合,需要從資料中估計出的引數數目應顯著少於資料點的個數。
在描述性學習中,任務和學習問題是同一的。

LGG是我們能夠從資料中學習到的最為保守的推廣。
任意介於嘴不具一般性和最具一般性的某一概念之間的概念都是一種可能的假設。通過架設空間的任意一條向上路徑都與一條覆蓋曲線相對應。

決策樹的描述能力優於合取概念。
一種避免過擬合切有利於學習的方式是有意選擇具有一定侷限性的假設語言。
由決策樹葉結點中的經驗概率獲得的排序可一條在訓練資料上生成凸ROC曲線。

熵和Gini指標對類分佈的波動較為敏感。
規則列表和決策樹類似,因為與每條規則關聯的經驗概率都會在訓練資料上生成凸的ROC曲線和覆蓋曲線。

(XeTX)e-1可以視為一種將特徵去相關,中心化並歸一化的變換。

通過假設特徵之間不相關,可將多元迴歸問題有效分解為多個一元迴歸問題。
構造決策面為wx=t的線性分類器的一般做法是將w取為Me-1(nue+ - nue-)

若從對偶形式的,基於例項的角度來看待線性分類,我們所學習的並非特徵的權值w,而是例項的權值a。

具有最小複雜度的軟間隔分類器用類均值來概括各類別,這種方式與基本線性分類器非常類似。

可從基於距離對角度來理解基本線性分類器:首先在每個類內構造能夠將平方歐氏距離最小化的範例,然後運用最近鄰範例決策規則。

概率並非只能解釋為相對頻率的估計量,它還可以承載更具一般性的,置信層面的含義。

對不相關、單位方差的高斯特徵來說,基本線性分類器是貝葉斯最優的。

高斯似然達負對數可解釋為距離的平方。

對機器學習問題的概率處理方案應在理論基礎的堅實性和為獲得可行解決方案所需的實用性之間找到平衡點。

使用未標定到概率估計量(如由樸素被噎死模型產生的估計量)會產生一種易被忽悠的後果,即ML和MAP決策規則都會變得不充分。

樹模型會忽略數值型特徵的尺度,並將其視為有序特徵。

在對數機率空間中藉助特徵標定將資料擬合到某個線性決策面,可理解為訓練樸素貝葉斯模型。

偏置較小的模型往往具有較大的方差。

bagging主要用於減小模型的方差,而boosting則主要用於見效模型的偏置。
機器學習實驗的目的是對模型提出問題,而我們嘗試依據該模型在資料上獲得的度量來回答這些問題。

準確率和查全率的組合-F度量,對真負例多個數不敏感。
置信區間是關於估計量而非關於評價指標真值的陳述。

強化學習是一種用於學習在給定情形下如何對行動作出決策的原理性方法。經典圖書是Sutton和Barto1998的著作。
Reinforcement Learning: an introduction

線上學習,也稱增量學習,每當心資料點到來時,均需對模型進行更新,線上學習的一個應用領域是序列預測,參考Cesa-Bianchi和Lugosi 2006
Prediction, learning and games, cambridge university 361

學習和自學習能力是人工智慧的必備條件。

深度學習研究核心是利用自主構造的層次化特徵,參考Bengio2009
Learning deep architecture for AI

相關文章