林軒田機器學習基石課程學習筆記5 — Training versus Testing

上節課，我們主要介紹了機器學習的可行性。首先，由NFL定理可知，機器學習貌似是不可行的。但是，隨後引入了統計學知識，如果樣本資料足夠大，且hypothesis個數有限，那麼機器學習一般就是可行的。本節課將討論機器學習的核心問題，嚴格證明為什麼機器可以學習。從上節課最後的問題出發，即當hypothesis的個數是無限多的時候，機器學習的可行性是否仍然成立？

一、Recap and Preview

我們先來看一下基於統計學的機器學習流程圖：

該流程圖中，訓練樣本D和最終測試h的樣本都是來自同一個資料分佈，這是機器能夠學習的前提。另外，訓練樣本D應該足夠大，且hypothesis set的個數是有限的，這樣根據霍夫丁不等式，才不會出現Bad Data，保證 $E_{in}\approx E_{out}$ ，即有很好的泛化能力。同時，通過訓練，得到使 $E_{in}$ 最小的h，作為模型最終的矩g，g接近於目標函式。

這裡，我們總結一下前四節課的主要內容：第一節課，我們介紹了機器學習的定義，目標是找出最好的矩g，使 $g\approx f$ ，保證 $E_{out}(g)\approx 0$ ；第二節課，我們介紹瞭如何讓 $E_{in}\approx 0$ ，可以使用PLA、pocket等演演算法來實現；第三節課，我們介紹了機器學習的分類，我們的訓練樣本是批量資料（batch），處理監督式（supervised）二元分類（binary classification）問題；第四節課，我們介紹了機器學習的可行性，通過統計學知識，把 $E_{in}(g)$ 與 $E_{out}(g)$ 聯絡起來，證明了在一些條件假設下， $E_{in}(g)\approx E_{out}(g)$ 成立。

這四節課總結下來，我們把機器學習的主要目標分成兩個核心的問題：

$E_{in}(g)\approx E_{out}(g)$
$E_{in}(g)$ 足夠小

上節課介紹的機器學習可行的一個條件是hypothesis set的個數M是有限的，那M跟上面這兩個核心問題有什麼聯絡呢？

我們先來看一下，當M很小的時候，由上節課介紹的霍夫丁不等式，得到 $E_{in}(g)\approx E_{out}(g)$ ，即能保證第一個核心問題成立。但M很小時，演演算法A可以選擇的hypothesis有限，不一定能找到使 $E_{in}(g)$ 足夠小的hypothesis，即不能保證第二個核心問題成立。當M很大的時候，同樣由霍夫丁不等式， $E_{in}(g)$ 與 $E_{out}(g)$ 的差距可能比較大，第一個核心問題可能不成立。而M很大，使的演演算法A的可以選擇的hypothesis就很多，很有可能找到一個hypothesis，使 $E_{in}(g)$ 足夠小，第二個核心問題可能成立。

從上面的分析來看，M的選擇直接影響機器學習兩個核心問題是否滿足，M不能太大也不能太小。那麼如果M無限大的時候，是否機器就不可以學習了呢？例如PLA演算法中直線是無數條的，但是PLA能夠很好地進行機器學習，這又是為什麼呢？如果我們能將無限大的M限定在一個有限的 $m_H$ 內，問題似乎就解決了。

二、Effective Number of Line

也就是說union bound被估計過高了（over-estimating）。所以，我們的目的是找出不同BAD events之間的重疊部分，也就是將無數個hypothesis分成有限個類別。

如何將無數個hypothesis分成有限類呢？我們先來看這樣一個例子，假如平面上用直線將點分開，也就跟PLA一樣。如果平面上只有一個點x1，那麼直線的種類有兩種：一種將x1劃為+1，一種將x1劃為-1：

如果平面上有兩個點x1、x2，那麼直線的種類共4種：x1、x2都為+1，x1、x2都為-1，x1為+1且x2為-1，x1為-1且x2為+1：

如果平面上有三個點x1、x2、x3，那麼直線的種類共8種：

但是，在三個點的情況下，也會出現不能用一條直線劃分的情況：

也就是說，對於平面上三個點，不能保證所有的8個類別都能被一條直線劃分。那如果是四個點x1、x2、x3、x4，我們發現，平面上找不到一條直線能將四個點組成的16個類別完全分開，最多隻能分開其中的14類，即直線最多隻有14種：

三、Effective Number of Hypotheses

接下來先介紹一個新名詞：二分類（dichotomy）。dichotomy就是將空間中的點（例如二維平面）用一條直線分成正類（藍色o）和負類（紅色x）。令H是將平面上的點用直線分開的所有hypothesis h的集合，dichotomy H與hypotheses H的關係是：hypotheses H是平面上所有直線的集合，個數可能是無限個，而dichotomy H是平面上能將點完全用直線分開的直線種類，它的上界是 $2^N$ 。接下來，我們要做的就是嘗試用dichotomy代替M。

再介紹一個新的名詞：成長函式（growth function），記為 $m_H(H)$ 。成長函式的定義是：對於由N個點組成的不同集合中，某集合對應的dichotomy最大，那麼這個dichotomy值就是 $m_H(H)$ ，它的上界是 $2^N$ ：

成長函式其實就是我們之前講的effective lines的數量最大值。根據成長函式的定義，二維平面上， $m_H(H)$ 隨N的變化關係是：

接下來，我們討論如何計算成長函式。先看一個簡單情況，一維的Positive Rays：

若有N個點，則整個區域可分為N+1段，很容易得到其成長函式 $m_H(N)=N+1$ 。注意當N很大時， $(N+1)<<2^N$ ，這是我們希望看到的。

另一種情況是一維的Positive Intervals：

它的成長函式可以由下面推導得出：

這種情況下， $m_H(N)=\frac12N^2+\frac12N+1<<2^N$ ，在N很大的時候，仍然是滿足的。

再來看這個例子，假設在二維空間裡，如果hypothesis是凸多邊形或類圓構成的封閉曲線，如下圖所示，左邊是convex的，右邊不是convex的。那麼，它的成長函式是多少呢？

當資料集D按照如下的凸分佈時，我們很容易計算得到它的成長函式 $m_H=2^N$ 。這種情況下，N個點所有可能的分類情況都能夠被hypotheses set覆蓋，我們把這種情形稱為shattered。也就是說，如果能夠找到一個資料分佈集，hypotheses set對N個輸入所有的分類情況都做得到，那麼它的成長函式就是 $2^N$ 。

四、Break Point

上一小節，我們介紹了四種不同的成長函式，分別是：

其中，positive rays和positive intervals的成長函式都是polynomial的，如果用 $m_H$ 代替M的話，這兩種情況是比較好的。而convex sets的成長函式是exponential的，即等於M，並不能保證機器學習的可行性。那麼，對於2D perceptrons，它的成長函式究竟是polynomial的還是exponential的呢？

對於2D perceptrons，我們之前分析了3個點，可以做出8種所有的dichotomy，而4個點，就無法做出所有16個點的dichotomy了。所以，我們就把4稱為2D perceptrons的break point（5、6、7等都是break point）。令有k個點，如果k大於等於break point時，它的成長函式一定小於2的k次方。

根據break point的定義，我們知道滿足 $m_H(k)\neq 2^k$ 的k的最小值就是break point。對於我們之前介紹的四種成長函式，他們的break point分別是：

通過觀察，我們猜測成長函式可能與break point存在某種關係：對於convex sets，沒有break point，它的成長函式是2的N次方；對於positive rays，break point k=2，它的成長函式是O(N)；對於positive intervals，break point k=3，它的成長函式是 $O(N^2)$ 。則根據這種推論，我們猜測2D perceptrons，它的成長函式 $m_H(N)=O(N^{k-1})$ 。如果成立，那麼就可以用 $m_H$ 代替M，就滿足了機器能夠學習的條件。關於上述猜測的證明，我們下節課再詳細介紹。

五、總結

本節課，我們更深入地探討了機器學習的可行性。我們把機器學習拆分為兩個核心問題： $E_{in}(g)\approx E_{out}(g)$ 和 $E_{in}(g)\approx 0$ 。對於第一個問題，我們探討了M個hypothesis到底可以劃分為多少種，也就是成長函式 $m_H$ 。並引入了break point的概念，給出了break point的計算方法。下節課，我們將詳細論證對於2D perceptrons，它的成長函式與break point是否存在多項式的關係，如果是這樣，那麼機器學習就是可行的。

註明：

文章中所有的圖片均來自臺灣大學林軒田《機器學習基石》課程。

更多AI資源請關注公眾號：AI有道（ID：redstonewill）