統計學習一:1.概論:基本概念

之語發表於2018-08-09

全文引用自《統計學習方法》(李航)

1.特點

統計學習(statistical learning) 是一門基於計算機平臺的,利用資料構建概率統計模型並使用模型對資料進行分析和預測的學科,因此又稱為統計機器學習

統計學習的主要特點:

  • 以計算機及網路為平臺
  • 以資料為研究物件
  • 以對資料進行預測和分析為研究目的
  • 是概率論、統計學、資訊理論、計算理論、最優化理論以及電腦科學等多個領域的交叉學科
資料(data)

資料是統計學習的物件。統計學習方法從資料中提取特徵,抽象出模型,以從資料中發現知識,發現規律,並將其應用到對資料的預測和分析中。
資料的形態是多樣的,可以是計算機及網路中任何型別的資訊,如數字、文字、影像、視訊、音訊及它們的組合等等。

方法

統計學習方法可分為:

  • 監督學習(supervised learning)
  • 非監督學習(unsupervised learning)
  • 半監督學習(semi-supervised learning)
  • 強化學習(reinforcement learning)

統計學習方法具體的實現步驟為:

  1. 得到一個有限的訓練資料集
  2. 確定包含所有可能的模型的假設空間,即所有可能滿足條件的學習模型的集合
  3. 確定模型選擇的標準,即學習的策略
  4. 實現求解最優模型的演算法,即學習的演算法
  5. 通過學習方法選擇最優模型
  6. 利用學習的最優模型對新資料進行預測和分析

因此可以看出,統計學習方法中,最重要的三個因素就是模型、策略、演算法。

2.監督學習

監督學習的任務是學習一個模型,使之能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。

基本概念
輸入空間、特徵空間、輸出空間

在監督學習中,將輸入和輸出中所有可能的取值分別稱為輸入空間(input space)和輸出空間(output space)。輸入空間即可看為對於要分析的資料的所有的可能輸入,輸出空間即可堪為對於要分析的資料的所有可能分析結果。通常輸出空間遠小於輸入空間。
特徵空間(feature space)通常由特徵向量(feature vector)來表示,每一個特徵向量代表了每個具體的輸入。可以理解為,對於模型來說,輸入空間的資料並不一定適合模型處理,需要從每個具體輸入中提取模型所需要的特徵值,再將特徵值組成的特徵向量作為模型的輸入。因此,輸入空間中所有的輸入對映成特徵向量後,便成為特徵空間。有時,輸入可以直接應用在模型中,此時輸入空間便可看作特徵空間。
在監督學習中,通常將輸入變數寫作X,輸出變數寫作Y。將輸入變數的值寫作x,輸出變數的值寫作y。變數可以是標量或是向量。通常向量為列向量,輸入例項x的特徵向量記為:
[x=(x^{1},x^{2},…,x^{i},…,x^{n})^T]
(x^{(i)})表示(x)的第(i)個特徵,通常用(x_i)表示多個輸入變數中的某一個,與(x^{(i)})不同,即:
[x_i=(x_i^{1},x_i^{2},…,x_i^{i},…,x_i^{n})^T]
監督學習從訓練資料集合中學習模型,對測試資料進行預測,以測試模型的準確性。訓練資料以輸入(或特徵向量)與輸出對組成,通常表示為:
[T={(x_1,y_1),(x_2,y_2),…,(x_n,y_n)}]
輸入變數X和輸出變數Y的型別可以是離散的,也可以是連續的,並沒有特殊要求。根據輸入和輸出變數的型別,預測任務可以分為:

  • 迴歸問題:輸入變數與輸出變數均為連續變數
  • 分類問題:輸出變數為有限個離散變數的,即分類結果離散可分
  • 標註問題:輸入變數與輸出變數均為變數序列,即輸入與輸出均為一個序列,非單個值
聯合概率分佈

統計學習假設給定的資料存在一定的統計規律,尋找到這種規律就是統計學習的學習目標。而在監督學習中,這種假設就具體為:假設輸入與輸出的隨機變數X和Y遵循聯合概率分佈(P(X,Y))(P(X,Y))表示分佈函式,或是分佈密度函式。
監督學習假設這一分佈函式的存在,但並不知道是如何具體定義的。而訓練資料與測試資料可以看作是遵循(P(X,Y))的獨立同分布產生的資料。

假設空間

監督學習的目的在於找到輸入空間與輸出空間的某種對映關係,並用模型來進行表示。輸入與輸出關係的對映並非只有一種,而所有的對映集合起來,便稱為假設空間。即,監督學習在假設資料與輸出遵循的聯合概率分佈時,所有的假設可能便稱為假設空間,假設空間中的元素一般有無窮多個。
監督學習可以是概率模型或者非概率模型,由條件概率分佈(P(Y|X))或決策函式(Y=f(X))表示。

3.統計學習的三要素

統計學習方法是由模型、策略、演算法構成的,即統計學習方法的三要素。下面討論監督學習中的三要素,這在其他的統計學習方法中也有。
可以說,構建一種統計學習方法的過程,就是確定這三個具體的要素的過程。

模型

在監督學習中,模型就是假設空間中所要學習的條件概率分佈或決策函式。如,假設決策函式時輸入變數的線性函式,那麼模型的假設空間就是所有的這些線性函式構成的函式集合。
假設空間用F表示,假設空間可以定義為決策函式的集合:
[F={f|Y=f_ heta(X), hetain{R^n}}]
F通常是由引數向量( heta)決定的函式族,引數向量( heta)取值於n維歐氏空間(R^n),稱為引數空間。
假設空間也可以定義為條件概率的集合:
[F={P|P_ heta(Y|X), hetain{R^n}}]
通過以上可以看出,模型的定義就是對假設空間的定義。通過確定假設空間的形式時,即為確定採用何種模型,如採用決策函式表示的非概率模型,以及用條件概率表示的概率模型。

策略

策略就是在統計學習中,選擇什麼準則來判斷或選擇最優模型。統計學習的目標就是如何從假設空間中選取最優模型,而策略就是給選取制定標準。

損失函式與風險函式

在對模型進行選擇時,對於一個給定的模型(f),對於輸入X,其輸出(f(X))與真實值Y之間可能相同也可能不相同。因此,利用損失函式(loss function)或代價函式(cost function)來度量預測錯誤的程度。常用的損失函式有:

  • 0-1損失函式:
    [L(Y,f(X))=
    egin{cases}
    1, Y
    eq{f(X)}\
    0, Y=f(X)\
    end{cases}
    ]
  • 平方損失
    [L(Y,f(X))=(Y-f(X))^2]
  • 絕對損失函式
    [
    L(Y, f(X))=|Y-f(X)|
    ]
  • 對數損失函式或對數似然損失函式
    [
    L(Y, f(X))=-log{P(Y|X)}
    ]

損失函式越小,則說明模型的預測結果與實際值相差越小,即模型就越好。損失函式的期望是:
[
R_{exp}(f)=E_P[L(Y,f(X))]=int_{x imes y}{L(y,f(x))P(x,y)dxdy}
]

這是理論上模型(f(X))關於聯合分佈(P(X,Y))的平均意義下的損失,稱為風險函式或期望損失。
由於學習的目標是選擇期望損失風險最小的模型,因此需要用到聯合分佈進行計算,但統計學習模型中聯合分佈的模型通常是未知的,因此監督學習就成為一個自相矛盾的病態問題。
給定一個訓練資料集
[T={(x_1,y_1),(x_2,y_2),…,(x_n,y_n)}]
模型(f(X))關於訓練資料集的平均損失稱為經驗風險(empirical risk)或經驗損失(empirical loss),記作:
[
R_{emp}(f)=frac{1}{N}sum_{i=1}^N{L(y_i,f(x_i))}
]

期望風險(R_{exp}(f))是模型關於聯合分佈的期望損失,經驗風險(R_{emp}(f))是模型關於訓練樣本的平均損失。而根據大數定律,當樣本容量N趨於無窮是,經驗風險趨於期望風險,因此,就可以使用經驗風險來估計期望風險。

經驗風險最小化與結構風險最小化

雖然根據大數定律,可以使用經驗風險估計期望風險,但現實中的訓練樣本數目通常有限,有時甚至很小。因此,在監督學習中,就需要用到兩個基本策略:經驗風險最小化結構風險最小化
經驗風險最小化(empirical risk minimization, ERM) 認為,經驗風險最小的模型就是最優模型,因此,求解最優模型,就是求解最優話問題:
[
min_{fin{F}}{frac{1}{N}}{sum_{i=1}^N{L(y_i,f(x_i))}}
]

其中F是假設空間。
當樣本容量足夠大時,經驗風險最小化能夠保證很好的學習效果,如採用極大似然估計就是經驗風險最小化的例子。當模型是條件概率分佈,且損失函式時對數損失函式時,經驗風險最小化就等價於極大似然估計。
但當樣本容量很小時,經驗風險最小化就容易產生過擬合現象。
結構風險最小化(structural risk minimization, SRM) 是為了防止過擬合而提出的策略,其等價於正則化。結構風險的定義為:
[
R_{emp}(f)=frac{1}{N}sum_{i=1}^N{L(y_i,f(x_i))} + lambda J(f)
]

其中(J(f))為模型的複雜度,是定義在假設空間F上的泛函。模型(f)越複雜,複雜度(J(f))越高,即複雜度代表了對複雜模型的懲罰。(lambda geq0)是係數,用以權衡經驗風險與模型複雜度。
結構風險小意味著模型的經驗風險與複雜度都小,這往往意味著對訓練資料和測試資料都有較好的預測。
結構風險最小化認為結構風險最小的模型就是最優的模型。
[
min_{fin{F}}{frac{1}{N}}{sum_{i=1}^N{L(y_i,f(x_i))} + lambda J(f)}
]

貝葉斯估計中的最大後驗概率估計就是結構風險最小化的例子。當模型是條件概率分佈、損失函式時對數損失函式、模型複雜度由模型的先驗概率表示時,結構風險最小化就是最大後驗概率估計。
因此,監督學習問題就變為經驗風險或結構風險函式的最優化問題,此時,經驗或結構風險函式就是最優化的目標函式。

演算法

當統計學習問題歸結為最優化問題時,統計學習的演算法就是求解最優化問題的演算法。通常最優化的目標函式並沒有顯式的解析解,因此需要用數值計算的方法求解。如何尋找到能夠保證全域性最優解,並且求解過程高效的演算法,就是一個關鍵問題。

綜上,統計學習方法之間的不同,主要就是來自於其模型、策略和演算法的不同。確定了這三點,具體的統計學習方法也就確定了,因此這三者稱為統計學習的三要素。
按照個人的理解,統計學習的三要素,可以對應於選擇最優模型的整個過程:

  • 模型的選擇,即是根據具體的需求場景來確定假設空間,可以幫我們確定需要選擇的模型的範圍或是形態,例如在分類問題中,是選擇何種模型,感知機還是SVM還是神經網路等等,以及模型引數的選擇,資料輸入維度的確定等等。而即使確定了假設空間,這一空間內的模型數量,依舊是無限大的,畢竟一個引數的取值,通常就可以是無限多的。
  • 策略的選擇,即損失函式,則量化了評價假設空間中所有模型的一個標準,為確定一個模型為何比另一個模型更優提供了評價的條件。
  • 演算法的選擇,因為理論上假設空間中的模型的數量是無限的,因此不可能遍歷所有的模型,求出其損失函式,進而找到最優的模型。因此最後的演算法的選擇,就是利用策略定下的評價標準,選擇採用何種方式能夠更高效地選擇出最優的模型,例如梯度下降法或是遺傳演算法等等。

通過上述的過程,就可以在無限多的模型中,利用輸入的訓練資料,選擇出適合某種場景的模型,並進行應用。

相關文章