《統計學習方法》第一章總結

哈特謝普蘇特發表於2018-01-14

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行預測與分析的一門學科。

統計學習的物件是資料。目的是對資料進行預測和分析。

統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。同類資料是指具有某種共性的資料。eg:瀏覽器中的網頁,英語文章等

統計學習分為:監督學習 非監督學習 半監督學習 強化學習

監督學習與非監督學習的區別在於是否有用於學習的訓練資料。即 監督學習是要先學習訓練集,然後再測試,而非監督學習沒有訓練資料。

監督學習:從給定的,有限的,用於學習的訓練資料(trainingdata)集合出發,假設資料獨立同分布;並且假設要學習的模型屬於某個函式的集合,稱為假設空間(hypothesisspace),應用於某個評價準則(evaluationcriterion),從假設空間中選擇一個最優的模型使得它対已知訓練資料以及未知測試資料在給定的評價標準下有最優的預測;最優模型的選取由演算法實現。因此監督學習分為兩個過程,首先要學習,然後得出一個模型,第二個過程是預測,用得出的模型進行預測。 

統計學習的方法——監督學習 

訓練資料由輸入和輸出對組成:

輸入x和輸出y,可以是連續的,也可以是離散的。 
輸入變數
  輸出變數均連續          ——迴歸問題

輸出變數為有限個離散變數的預測問題——–分類問題

輸入變數輸出變數均為變數序列          ——標註問題



監督學習的方法又可以分為生成方法和判別方法,所學到的模型分佈稱為生成模型和判別模型。 生成模型是先學習聯合概率分佈然後再學習條件概率分佈,注重輸入x和輸出y之間的關係,而判別模型是直接學習決策函式或者是條件概率分佈,注重的是輸入x輸出的是怎樣的y。


統計學習方法的三要素:模型 策略 和 演算法 。

模型:所要學習的條件概率分佈或決策函式,其假設空間包含所有可能的條件概率分佈或決策函式。

策略:按照什麼樣的準則學習或選擇最優的模型,如損失函式和風險函式。

演算法:求解最優模型的具體計算方法。




非概率模型和概率模型是不同的描述,書中經常會出現這兩中說法

統計學習三要素——策略

損失函式或代價函式用以度量預測錯誤的程度。損失函式式f(X)和y的非負實值函式,記作L(Y,f(X))。

風險函式或期望損失的定義是損失函式的期望。

經驗風險最小化:在假設空間、損失函式以及訓練資料集確定的情況下,

經驗風險函式就可以確定。經驗風險最小的模型就是最優的模型。(F是假設空間。)

 


結構風險最小化是為了防止過擬合而提出來的策略。結構風險在經驗風險上加上表示模型複雜度的正則化項或罰項。

因此我們十分注重對模型的選擇,模型選擇分為兩種方法:正則化和交叉驗證

正則化:結構風險最小化策略的實現,是在經驗風險上加一個正則化項,正則化項一般都是模型複雜度的單調遞增函式;模型越複雜,正則化值就越大。 

交叉驗證:在樣本數目不夠的情況下,可以將給定的資料切分,將切分的資料組合為訓練集和測試集,在此基礎上反覆訓練,測試以及模型選擇。

這本書主要講了感知機、k鄰近法、決策樹、樸素貝葉斯法、邏輯斯蒂迴歸與最大熵模型、支援向量機、提升方法、EM演算法、隱馬爾可夫模型、條件隨機場。


相關文章