softmax迴歸——原理、one-hot編碼、結構和運算、交叉熵損失

開心果殼好硬發表於2021-08-21

1. softmax迴歸是分類問題

  迴歸(Regression)是用於預測某個值為“多少”的問題,如房屋的價格、患者住院的天數等。

  分類(Classification)不是問“多少”,而是問“哪一個”,用於預測某個事物屬於哪個類別,如該電子郵件是否是垃圾郵件、該影像是貓還是狗、該使用者接下來最有可能看哪部電影等。

  分類問題也有些許差別:(1)我們只對樣本的硬性類別感興趣,即屬於哪個類別;(2)我們希望得到軟性類別,即每個類別的概率是多少。這兩者的界限往往很模糊,我們通常使用軟性類別的模型來進行硬性分類。這也是softmax模型的原理。

 

2. 如何表示分類問題——獨熱編碼(one-hot encoding)

  我們需要在分類問題中表示類別(標籤)。最直接的想法是選擇 $y\in \left\{1,2,3 \right\}$ ,其中的整數分別代表每個類別,如果類別之間有一些自然順序,比如 $\left\{\text{嬰兒},\text{兒童},\text{青少年},\text{年青人},\text{中年人},\text{老年人}\right\}$ ,那麼將這個問題轉變為迴歸問題並保留這種格式是有意義的。

  但是,一般的分類問題並不與類別之間的自然順序有關。對此,我們使用一種簡單的表示方法:獨熱編碼(one-hot encoding)。獨熱編碼是一個向量,它的分量和類別數目一樣多,類別對應的分類設定為 $1$ ,其他所有分量設定為 $0$ 。

  例如,一個影像分類問題,輸入影像是一個 $2\times 2$ 的灰度影像,可以用一個標量表示每個畫素值,每個影像對應四個特徵 $x_{1},x_{2},x_{3},x_{4}$ 。輸入影像被分類為“貓”、“狗”、“雞”,那麼標籤 $y$ 就是一個三維向量,其中 $\left(1,0,0\right)$ 對應於“貓”, $\left(0,1,0\right)$ 對應於“狗”,$\left(0,0,1\right)$ 對應於“雞”:

$$y\in\left\{\left(1,0,0\right),\left(0,1,0\right),\left(0,0,1\right)\right\}$$

 

3. 網路結構

  為了獲得所有可能類別的概率,我們需要一個多輸出的模型,每個類別對應一個輸出。為了實現線性模型的分類,我們需要和輸出一樣多的仿射函式,每個輸出對應於自己的仿射函式。

  在我們提出的例子中,由於我們有 $4$ 個特徵和 $3$ 個可能的輸出類別,我們將需要 $12$ 個標量來表示權重( $w$ ), $3$ 個標量來表示偏置( $b$ )。下面根據輸入特徵來計算三個預測:$o_{1},o_{2},o_{3}$  。

$$o_{1} = w_{11}x_{1} + w_{12}x_{2} + w_{13}x_{3} + w_{14}x_{4} + b_{1}$$

$$o_{2} = w_{21}x_{1} + w_{22}x_{2} + w_{23}x_{3} + w_{24}x_{4} + b_{2}$$

$$o_{3} = w_{31}x_{1} + w_{32}x_{2} + w_{33}x_{3} + w_{34}x_{4} + b_{3}$$

  由於計算每個輸出 $o_{1},o_{2},o_{3}$ 取決於輸入的 $x_{1},x_{2},x_{3},x_{4}$ ,所以softmax迴歸的輸出層也是全連線層。

  我們使用線性代數符號簡潔地表達模型,模型的向量形式為:

$$\textbf o = \textbf W \textbf x + \textbf b$$

  其中, $\textbf o \in \mathbb R^{3}$ , $\textbf W \in \mathbb R^{3 \times 4}$ , $\textbf x \in \mathbb R^{4}$ , $\textbf b \in \mathbb R^{3}$ ,權重 $\textbf W$ 為一個 $3 \times 4$ 的矩陣,對於給定資料樣本的特徵 $\textbf x$ ,我們的輸出 $\textbf o$ 是由權重與輸入特徵進行矩陣-向量乘法再加上偏置 $\textbf b$ 得到的。

 

4. softmax運算

  這裡使用的方法是,將模型的輸出視為概率。

  我們希望模型的輸出 $\hat{y_{j}}$ 可以視為屬於類別 $j$ 的概率。然後,選擇最大輸出值的類別 $\mathop{\arg\max}_{j}y_{j}$ 做為我們的預測。例如,如果 $\hat{y_{1}}$ , $\hat{y_{2}}$ , $\hat{y_{3}}$ 分別為 $0.1$ , $0.8$ , $0.1$ ,那麼我們預測的類別就是 $2$ ,在我們的例子中代表“狗”。

  為什麼我們不可以用預測 $\textbf o$ 直接作為輸出呢?一方面,這些值的總和不一定為 $1$ ;另一方面,這些值可以為負數。

  要將輸出視為概率,我們必須保證模型在任何資料上的輸出都是非負值且總和為 $1$ 。此外,還需要一個訓練目標,來使模型能精準的估計概率。如在輸出為 $0.5$ 的所有樣本中,我們希望有一半實際上屬於預測的類別。這個屬性叫做校準(calibration)。

  我們使用softmax函式來將未歸一化的預測變換為非負且總和為 $1$ ,同時模型可導。我們首先對每個未歸一化的預測求冪,這樣可以保證輸出非負。為了保證輸出總和為 $1$ ,我們再對每個求冪後的結果除以它們的總和。公式如下:

$$\hat{\textbf y} = softmax\left( \textbf o \right) \qquad\text{其中}\qquad \hat{y_{j}} = \frac{\exp{o_{j}}}{\sum_{k}\exp{o_{k}}}$$

  如上所示,對所有的 $j$ 都有 $0 \le \hat{y_{j}} \le 1$ ,因此,輸出 $\hat{\textbf y}$ 可以視為一個概率分佈。

  softmax運算不會改變預測 $\textbf o$ 之間的順序,只會確定每個輸出類別的概率。因此,在預測過程中,我們有:

$$\mathop{\arg\max}_{j}\hat{y_{j}} = \mathop{\arg\max}_{j}o_{j}$$

  儘管softmax是一個非線性函式,但softmax迴歸的輸出仍然由輸入特徵的仿射變換決定。因此,softmax迴歸是一個線性模型。

 

5. softmax運算的向量化

  假設我們讀取一個批量的樣本 $\textbf X$ ,每個樣本有 $d$ 個特徵,批量大小為 $n$ ,輸出類別數量為 $q$ 。那麼批量樣本特徵為 $\textbf X \in \mathbb{R^{n \times d}}$ ,權重為 $\textbf W \in \mathbb{R^{d \times q}}$ ,偏置為 $\textbf b \in \mathbb{R^{1 \times q}}$ ,於是,softmax迴歸的向量計算表示式為:

$$\textbf O = \textbf X \textbf W + \textbf b$$

$$\hat{\textbf Y} = softmax \left( \textbf O \right)$$

  $\textbf O \in \mathbb{R^{n \times q}}$ ,$+\textbf b$ 求和使用廣播,$softmax$ 運算按行進行, $\hat{\textbf Y} \in \mathbb{R^{n \times q}}$ 。

 

6. 損失函式——交叉熵損失(cross-entropy loss)

  在softmax迴歸中,我們使用交叉熵損失來衡量預測和真實值之間的區別。

  $softmax$ 函式將為歸一化的輸出 $\textbf o$ 對映為一個向量 $\hat{\textbf y}$ ,我們可以將其視為給定任意輸入 $\textbf x$ 的每個類別的估計條件概率,假設整個資料集 $\left\{\textbf X,\textbf Y \right\}$ 具有 $n$ 個樣本,其中索引為 $i$ 的樣本由特徵向量 $\textbf x^{\left( i \right)}$ 和獨熱標籤向量 $\textbf y^{\left( i \right)}$ 組成。

  對於任意標籤 $\textbf y$ 和模型預測 $\hat{\textbf y}$ ,我們的損失函式(交叉熵損失)為:

$$l\left( \textbf y,\hat{\textbf y}\right) = - \sum_{j=1}^{q}y_{j}\log{\hat{y}_{j}}$$

  獨熱標籤向量 $\textbf y$ 中,只有一個分量為 $1$ 其餘都為 $0$ ,於是損失函式又可以寫做:

$$l\left( \textbf y,\hat{\textbf y}\right) = - \log{\hat{y}_{y}}$$

  根據softmax的定義,將損失函式展開為:

$$l\left( \textbf y,\hat{\textbf y}\right) = - \sum_{j=1}^{q} y_{j} \log{ \frac{ \exp{\left( o_{j}\right)} }{ \sum{_{k=1}^{q}\exp{\left(o_{k}\right)}} } }$$

$$= \sum^{q}_{j=1} \log{ \sum^{q}_{k=1} \exp{\left(o_{k}\right)} } - \sum^{q}_{j=1}y_{j}o_{j}$$

$$= \log{  \sum^{q}_{k=1}\exp{\left(o_{k}\right)}  } - \sum^{q}_{j=1}y_{j}o_{j}$$

  損失函式對任何預測 $o_{j}$ 求導:

$$\frac{\partial l\left( \textbf y,\hat{\textbf y}\right)}{\partial o_{j}} = \frac{\exp{o_{j}}}{\sum^{q}_{k=1}\exp{o_{k}}} - y_{i} = softmax\left(\textbf o \right)_{j} - y_{j}$$

  由上式知,導數是我們模型得到的概率與實際之間的差異。

 

本文為學習筆記,學習內容來自李沐 https://zh-v2.d2l.ai/

 

相關文章