機器為什麼能夠學習？

分析101發表於2020-08-15

本系列是臺灣大學資訊工程系林軒田（Hsuan-Tien Lin）教授開設的《機器學習基石》課程的梳理。重在梳理，而非詳細的筆記，因此可能會略去一些細節。

該課程共16講，分為4個部分：

機器什麼時候能夠學習？（When Can Machines Learn？）
機器為什麼能夠學習？（Why Can Machines Learn？）
機器怎樣學習？（How Can Machines Learn？）
機器怎樣可以學得更好？（How Can Machines Learn Better？）

本文是第2部分，對應原課程中的4-8講。

本部分的主要內容：

用案例引出學習可行性的疑問；
詳細介紹VC維理論，它給出了機器學習的可靠性保證；
介紹誤差的度量，以及對誤差權重不同的情況的處理方法。

1 學習可行性的疑問

先來一個小學奧數題/公務員考試題：

其實這個題沒有標準答案，以下兩種解答都是對的：

對稱為\(+1\)，非對稱為\(-1\)，因此答案是\(+1\)；
最左上角的格子白色為\(+1\)，黑色為\(-1\)，因此答案是\(-1\)；

因此，選擇不同的規則，你會獲得不同的答案。那麼，如果給你一些歷史資料，機器學習出某種規則，是否也會遇到這樣的情況呢？

2 機器學習的可靠性保證

2.1 Hoeffding不等式

來看另一個問題：有一個罐子，裡面裝有許許多多黃色和綠色的小球，該如何估計黃球的比例？

很簡單，抽樣就行了。抽出一部分樣本，計算得到樣本中的黃球比例\(\nu\)，用這個比例作為罐子中的黃球比例\(\mu\)的估計即可。這樣的估計準不準呢？在統計學中，有Hoeffding不等式給出準確率的界限：

\[\mathbb{P}[\vert\nu-\mu\vert>\epsilon]\le 2\exp{(-2\epsilon^2 N)} \]

其中\(N\)為抽樣的樣本個數。這個式子的意思是，\(\nu\)和\(\mu\)相差較遠的概率會有一個上限，在大樣本下，這個上限會比較小，因此\(\nu=\mu\)可以叫做概率近似正確（PAC，probably approximately correct）。

2.2 機器學習中的Hoeffding不等式

現在將這個過程類比到機器學習中。罐子中的小球對應於\(\mathcal{X}\)中的單個資料\(\mathbf{x}\)，給定假設集中的一個假設\(h\)，罐子中黃球的比例就對應於\(\mathcal{X}\)中使得\(h(\mathbf{x})=f(\mathbf{x})\)的\(\mathbf{x}\)的比例。現在抽取出一部分樣本，這個樣本對應於現有的資料集\(\mathcal{D}\)，我們可以很容易地知道對\(\mathcal{D}\)中每一個資料\((\mathbf{x}_n,y_n)\)是否有\(h(\mathbf{x}_n)=y_n\)，若相等，對應的小球為黃色，反之為綠色。我們的目的，是要知道在整個\(\mathcal{X}\)中滿足\(h(\mathbf{x})=f(\mathbf{x})\)的\(\mathbf{x}\)的比例有多少。

若\(N\)足夠大，且\(\mathbf{x}_n\)為i.i.d.，對於某個固定的\(h\)來說，就可以用已知的\(E_{\text{in}}(h)=\dfrac{1}{N}\sum\limits_{n=1}^{N} \mathbf{1}_{[h(\mathbf{x}_n)\ne y_n]}\)去推斷\(E_{\text{out}}(h)=\mathop{\mathcal{E}}\limits_{\mathbf{x}\sim P}\mathbf{1}_{[h(\mathbf{x})\ne f(\mathbf{x})]}\)，從而判斷該\(h\)的表現如何，如下圖：

根據Hoeffding不等式，就是

\[\mathbb{P}[\vert E_{\text{in}}(h)-E_{\text{out}}(h)\vert>\epsilon]\le 2\exp{(-2\epsilon^2 N)} \]

如果\(E_{\text{in}}(h)\)和\(E_{\text{out}}(h)\)足夠接近，並且\(E_{\text{in}}(h)\)足夠小，這就能保證\(E_{\text{out}}(h)\)足夠小，也就能判斷出對於抽樣過程\(P\)，有\(h\approx f\)。

但是，這只能用來判斷某個\(h\)是否足夠好。如果現在是用演算法\(\mathcal{A}\)從假設集\(\mathcal{H}\)中選出一個\(h\)，再套用上面的不等式，就會有問題。試想一下，假設有150個人，每人丟5次硬幣，就有超過99%的概率會出現有某個丟5次硬幣都是正面的人，這能說明他的丟硬幣技術比其他人高嗎？如果選擇他作為我們的“\(g\)”，能保證他以後再去丟硬幣，得到正面的概率也比其他人更大嗎？

同理，如果是從\(\mathcal{H}\)中選出一個在樣本\(\mathcal{D}\)內誤差最小的\(g\)，能保證它在\(\mathcal{D}\)外也是更好的嗎？想要得到這樣的保證，還需對不等式做一些修正。

對每個\(h\)，都可能會有一些\(\mathcal{D}\)，使得\(h\)在它上面的\(E_{\text{in}}(h)\)和真正的\(E_{\text{out}}(h)\)相差很大，把這種\(\mathcal{D}\)稱作“壞的”，Hoeffding不等式本質上是保證抽到壞的\(\mathcal{D}\)的概率有一個上限。記\(\vert\mathcal{H}\vert=M\)，即共有\(M\)個\(h\)，我們想要保證的是不管最後\(\mathcal{A}\)選出了哪個，\(\mathcal{D}\)是“壞的”的概率都有較小的上限，因此，要計算的應該是對至少一個\(h\)來說\(\mathcal{D}\)是“壞的”的概率：

\[\begin{aligned} &\mathbb{P}_{\mathcal{D}}[(\textbf{BAD } \mathcal{D} \text{ for } h_1) \textbf{ or } (\textbf{BAD } \mathcal{D} \text{ for } h_2) \textbf{ or } \ldots \textbf{ or } (\textbf{BAD } \mathcal{D} \text{ for } h_M) ]\\ \le& \mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_1] + \mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_2] +\ldots+\mathbb{P}_{\mathcal{D}}[\textbf{BAD } \mathcal{D} \text{ for } h_M]\\ \le& 2\exp{(-2\epsilon^2 N)}+2\exp{(-2\epsilon^2 N)}+\ldots+2\exp{(-2\epsilon^2 N)}\\ =& 2M\exp{(-2\epsilon^2 N)} \end{aligned} \]

這才是\(\mathcal{A}\)選出來的\(h\)的\(E_{\text{in}}(h)\)和\(E_{\text{out}}(h)\)距離的上限。但在上面的過程中，因為對事件的並集直接用了加的運算，這個上限被放得太大了，由於不同的\(h\)對應的“壞的”\(\mathcal{D}\)很可能有很大重疊，因此真實的上限應該要小得多。如圖：

另外，\(M\)如果是有限的，根據上式，我們還是可以通過增大\(N\)來保證\(E_{\text{in}}(h)\)和\(E_{\text{out}}(h)\)足夠接近，但如果\(M\)是無限的呢？如在PLA中，係數的取值就可以是無限多個，因此PLA的\(M\)是無窮大的。

2.3 VC維

\(M\)為無窮大時，還是有辦法的。儘管PLA的\(M\)是無窮大，但其實，我們可以對它的\(\mathcal{H}\)中的元素進行分類，只要樣本個數是有限的，它的類別就是有限的。比如在只有一個樣本的情況中，二維PLA的\(\mathcal{H}\)中的元素（就是二維平面上的所有直線）可以簡單分為兩類，一類是把該樣本點分為正的，一類是把該樣本點分為負的：

而在兩個樣本的情況中，\(\mathcal{H}\)中的元素可以分為4類：

三個樣本時可分為8類：

但若3個點共線，那麼只有6類：

而當有4個樣本時，\(\mathcal{H}\)中的元素最多隻能分成14類：

這說明，在PLA中，有\(N\)個樣本時，有效的\(M\)會小於等於\(2^N\)。

接下來，引入幾個概念：

二分（Dichotomies）：對\(N\)個樣本，每個樣本都有正負兩種可能，將所有樣本組成的每一種可能稱為一個dichotomy，dichotomies的集合可記為\(\mathcal{H}(\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N)\)，顯然，集合中元素個數的上限是\(2^N\)；
成長函式（Growth Function）：定義成長函式\(m_{\mathcal{H}}(N)=\max\limits_{\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N \in \mathcal{X}} \vert \mathcal{H}(\mathbf{x}_1, \mathbf{x}_2, \ldots,\mathbf{x}_N) \vert\)，它的上限是\(2^N\)，對於大多數模型（如二維感知機）的\(\mathcal{H}\)來說，\(m_{\mathcal{H}}(N)\)比\(2^N\)小，僅為多項式大小；
打散（Shatter）：如果\(\mathcal{H}\)可以完全實現\(N\)個樣本的\(2^N\)種dichotomies，則稱\(N\)個點可被\(\mathcal{H}\)打散；
突破點（Break Point）：若\(k\)個點無論如何也無法被\(\mathcal{H}\)打散，則稱\(k\)為\(\mathcal{H}\)的break point，根據定義，所有比\(k\)大的整數也都會成為break points，對於二維感知機來說，從4開始就是它的break point。

接下來就是要找到，break point和\(m_{\mathcal{H}}(N)\)的關係。

我們繼續引入界限函式（Bounding Function）的概念：\(B(N,k)\)，它是當最小的break point為\(k\)時的最大可能\(m_{\mathcal{H}}(N)\)。那麼，該如何計算它或者它的上限？

首先，當\(k=2\)時，表示任意兩個點都不能被打散，因此當\(N=2\)時有\(B(2,2)=3\)，即最多能列舉出3種dichotomies（4種就是這兩個點被打散了），當\(N=3\)時有\(B(3,2)=4\)（窮舉法可知）。而當\(k=1\)時，由於任何一個點都不能被打散，因此只能有一種dichotomy，即\(B(N,1)=1\)。另外，如果\(k>N\)，由於小於\(k\)個樣本點都能被打散，因此會有\(B(N,k)=2^N\)。而如果\(N=k\)，那麼只需在\(2^N\)個被打散的點中拿掉一種dichotomy，就能滿足這\(N\)個點不被打散的概念了，因此有\(B(N,k)=2^N-1\)。

到目前為止，在下面這張函式表中還有一部分沒有計算：

不妨先來看\(B(4,3)\)該如何計算。如果用窮舉法，可以得出\(B(4,3)=11\)：

觀察這11種dichotomies發現，它們可以分成兩組，其中一組的前3個點是有重複的，它們成為不同的dichotomies僅僅是因為\(\mathbf{x}_4\)不同，而另一組的前3個點沒有重複。

如果把前3個點有重複的8種dichotomies記為\(2\alpha\)（只看前3個點就是\(\alpha\)種），後3種記為\(\beta\)，那麼就有\(2\alpha+\beta=11\)。而其實，\(B(4,3)\)無非就是比\(B(3,\cdot)\)多了一個點，假設現在把最後一個點去掉，那麼前3個點只可能有\(\alpha+\beta\)種dichotomies（因為第一組\(2\alpha\)種是前面3個點各重複兩次，因此需要剔除一半），由於\(B(4,3)\)中任意3個點都不能被打散，因此前3個點也必須不能被打散，所以有\(\alpha+\beta\le B(3,3)\)。

另一方面，由於\(2\alpha\)組中的4個點中，任意3個點都不能被打散，而第4個點是在每一組前3個點固定的情況下取正/負，因此前3個點中的任意2個點都不能被打散（否則在加入第4個點後就會有3個點被打散）。因此，必須要保證\(\alpha\le B(3,2)\)。

由此可知，\(B(4,3)=2\alpha+\beta \le B(3,3)+B(3,2)\)，以此類推，有\(B(N,k)\le B(N-1,k)+B(N-1,k-1)\)，最終結果如圖：

用數學歸納法即可證明：\(B(N,k)\le \sum\limits_{i=0}^{k-1}\binom{N}{i}\)，具體過程在此略過。事實上，可以證明得\(B(N,k)=\sum\limits_{i=0}^{k-1}\binom{N}{i}\)，具體的數學過程較複雜，課程中也略過了。該式說明，\(B(N,k)\)中成長最快的一項最多就是\(N^{k-1}\)的成長速度。

由\(B(N,k)\)的定義，只要break point \(k\)存在，那麼\(m_{\mathcal{H}}(N)\)的上限就是\(B(N,k)\)，也因此，\(m_{\mathcal{H}}(N)\)中成長最快的一項最多就是\(N^{k-1}\)的成長速度。

在有了\(m_{\mathcal{H}}(N)\)後，想用它取代\(M\)，還需要做一些處理，具體在此略過。最後可以得到的是Vapnik-Chervonenkis（VC） bound：

\[\mathbb{P}[\exists h \in \mathcal{H} \text{ s.t. }\vert E_{\text{in}}(h)-E_{\text{out}}(h)\vert>\epsilon]\le 4 m_{\mathcal{H}}(2N)\exp{(-\dfrac{1}{8}\epsilon^2 N)} \]

定義VC維（VC dimension）\(d_{\text{vc}}(\mathcal{H})\)為滿足\(m_{\mathcal{H}}(N)=2^N\)的最大的\(N\)，也即\(\mathcal{H}\)能打散的最大的點的個數，或最小的break point減1。當\(N\ge2\)且\(d_{\text{vc}}\ge 2\)時，有\(m_{\mathcal{H}}(N)\le N^{d_{\text{vc}}}\)。

對於\(d\)維感知機模型來說，有\(d_{\text{vc}}=d+1\)（證明略）。只要\(d_{\text{vc}}\)是有限的，就可以完成泛化。\(d_{\text{vc}}(\mathcal{H})\)就相當於是\(\mathcal{H}\)的powerfulness。

2.4 VC Bound與模型複雜度懲罰

對於\(g=\mathcal{A}(\mathcal{D})\in \mathcal{H}\)，如果\(\mathcal{D}\)在統計上足夠大，有

\[\mathbb{P}[\vert E_{\text{in}}(g)-E_{\text{out}}(g)\vert>\epsilon]\le 4 (2N)^{d_{\text{vc}}} \exp{(-\dfrac{1}{8}\epsilon^2 N)} \]

不等式左側表示“壞的”的機率。若將不等式右邊記為\(\delta\)，可將\(\epsilon\)反表示為\(\epsilon=\sqrt{\dfrac{8}{N}\ln{\dfrac{4(2N)^{d_{\text{vc}}}}{\delta}}}=\Omega(N,\mathcal{H},\delta)\)，\(\Omega(N,\mathcal{H},\delta)\)就代表了對模型複雜度的懲罰。

可以看出，至少有\(1-\delta\)的概率，能滿足

\[E_{\text{out}}(g)\le E_{\text{in}}(g)+\Omega(N,\mathcal{H},\delta) \]

\(d_{\text{vc}}\)和error的關係如下圖：

要找到最優的\(d_{\text{vc}}\)，才能使error最小。

VC Bound只是一個非常寬鬆的理論界限。比如設定\(\epsilon=0.1\)，\(\delta=0.1\)，\(d_{\text{vc}}=3\)，那麼根據前式，可得到\(N\approx 10,000 d_{\text{vc}}\)，但在實踐中，往往只需要\(N\approx 10 d_{\text{vc}}\)的資料量就夠了。

2.5 有噪聲時的VC Bound

如果標籤被打錯了，或是同一個人被打了不同標籤，又或是\(\mathbf{x}\)的資訊不準確，都會引入噪聲。在有噪聲時，VC Bound依舊有效嗎？

回到之前小球的例子，之前的小球，每個小球的顏色都是確定的，這種情況叫做是“deterministic”的，在有噪聲的情況中，可以認為每個小球的顏色服從某種概率，即\(y\sim P(y|\mathbf{x})\)，這叫做是“probabilistic”的。可以證明如果\((\mathbf{x},y)\mathop{\sim}^{i.i.d.}P(\mathbf{x},y)\)，那麼VC理論依舊是有效的。

有噪聲時，學習的目標是在常見的樣本\(P(\mathbf{x})\)上，學習\(P(y|\mathbf{x})\)。新的學習流程如下：

VC理論依舊有效，pocket演算法就是個很好的例子。

3 誤差度量

在這裡介紹一種逐點的誤差度量（pointwise error measure），可以表達成\(\text{err}(g(\mathbf{x}), f(\mathbf{x}))\)，\(g(\mathbf{x})\)可記為\(\tilde{y}\)，\(f(\mathbf{x})\)可記為y。

有兩種比較重要的pointwise error measure：

\(\text{err}(\tilde{y}, y)=\mathbb{1}_{[\tilde{y} \ne y]}\)，這一般用在分類問題中；
\(\text{err}(\tilde{y}, y)=(\tilde{y} - y)^2\)，這一般用在迴歸問題中。

在有了誤差度量後，學習流程如下：

在分類問題中，錯誤可分為兩類，如下圖所示：

根據這兩類錯誤的重要性不同，可以對它們賦予不同的權重。因此，不同的應用可以有不同的\(\text{err}\)。在演算法中考慮誤差度量時（記用在演算法中的錯誤度量為\(\widehat{\text{err}}\)），最好的情況當然是直接令\(\widehat{\text{err}}=\text{err}\)，但這可能會導致很難計算，比如會帶來NP-hard問題等，一般來說，最好要設計一個對於\(\mathcal{A}\)來說能比較容易進行最優化的\(\widehat{\text{err}}\)，最好要有閉式解（closed-form solution）或有凸的目標函式。

在\(\mathcal{A}\)中加入誤差度量的設計後，學習流程如下：

對於兩類錯誤權重不同的情況，可以用“virtual copying”的策略去學習。以pocket演算法為例，假設false reject錯誤的權重為1，false accept錯誤的權重為1000，在計算時不必真的對每個樣本點賦予權重，可以“虛擬地”將\(y=-1\)的點複製1000份。在實踐中，也不必真的複製，可以在隨機選擇樣本點時，讓演算法隨機選出\(y=-1\)的點的概率增大1000倍即可。

機器什麼時候能夠學習？
2020-08-11
微信機器人能夠做些什麼事？
2018-11-25
機器人
(轉）為什麼選擇機器學習策略
2018-04-28
機器學習
人工智慧和機器學習能為抗擊新冠肺炎做些什麼？
2020-07-03
人工智慧機器學習
機器學習 # 為什麼機器學習要求資料是獨立同分布的？
2020-11-26
機器學習
機器學習--要學點什麼
2023-01-01
機器學習
為什麼SSB與PRACH occasion能夠關聯？
2022-04-19
機器學習不能做什麼？
2018-03-21
機器學習
什麼是機器學習治理?
2021-03-09
機器學習
為什麼機器學習會選擇Python語言?
2019-12-11
機器學習Python
為什麼機器學習模型會越來越糟？ - Santiago
2021-05-27
機器學習模型Go
機器學習為什麼難以產品化？ - kdnuggests
2020-12-31
機器學習
機器學習可解釋性系列 - 是什麼&為什麼&怎麼做
2020-09-30
機器學習
為什麼要學習Python？因為能「為所欲為」啊……
2018-05-14
Python
什麼是 AI、機器學習與深度學習？
2019-01-24
AI機器學習深度學習
什麼是AI、機器學習與深度學習？
2019-01-21
AI機器學習深度學習
漫畫：什麼是機器學習
2018-05-03
機器學習
機器學習到底是什麼？
2018-08-05
機器學習
什麼是機器學習MLOps？ - kdnuggets
2020-12-20
機器學習
Java學到什麼水平能夠出去找工作！
2020-12-06
Java
為什麼自建深度學習機器？因為比AWS便宜10倍啊！
2018-09-27
深度學習
為什麼機器學習在投資領域不好使
2018-05-24
機器學習
為什麼Kubernetes和容器與機器學習密不可分？
2020-09-24
機器學習
漫畫版：什麼是機器學習？
2020-04-06
機器學習
機器學習並不“萬能”
2019-08-19
機器學習
機器學習如何賦能EDA
2020-06-22
機器學習
擴容新生代為什麼能夠提高GC的效率
2022-01-26
GC
為什麼說基於機器學習的AI預測更智慧？
2019-03-08
機器學習AI
為什麼機器學習會選擇Python語言?很簡單!
2020-01-15
機器學習Python
為什麼要學習Python？學習Python可以做什麼？
2019-01-18
Python
早起，能夠給我帶來什麼？
2021-10-30
強化學習與其他機器學習方法有什麼不同？
2019-03-06
強化學習機器學習
《艾爾登法環》為什麼能夠火到這種程度？
2022-03-08
共享WiFi為什麼能夠賺錢?有哪些市場優勢
2023-03-30
WiFi
預編譯SQL為什麼能夠防止SQL隱碼攻擊
2022-12-07
編譯SQL
機器人想要什麼：利用機器學習有效地進行教學
2020-08-19
機器人機器學習
為什麼要學習Linux？學習Linux有什麼好處？
2023-03-06
Linux
為什麼學習Python?什麼途徑學習Python合適?
2021-02-23
Python