Datawhale X 李宏毅蘋果書 AI夏令營 Task3 批次歸一化、卷積神經網路、自注意力機制原理 筆記

LYLtim發表於2024-09-02

神經網路訓練不起來怎麼辦(5):批次標準化(Batch Normalization)簡介_嗶哩嗶哩_bilibili

Task3:《深度學習詳解》- 3.7 批次歸一化

- **產生不好訓練的誤差表面的原因**:輸入特徵不同維度的值範圍差距大可能導致誤差表面不好訓練,如輸入值小對損失影響小,輸入值大對損失影響大。
- **特徵歸一化**:包括Z值歸一化等方法,可使不同維度有相同數值範圍,製造較好誤差表面,加速損失收斂和訓練。
- **深度學習中的歸一化**:對深度學習中的特徵進行歸一化,如對z做特徵歸一化,要放在啟用函式之前。歸一化時考慮批次資料,批次大小要足夠大,批次歸一化時還會加上β和γ作為網路引數來調整輸出分佈。
- **批次歸一化的實現**:實際實現時只對批次資料做歸一化,批次大小較大時可近似代表資料集分佈。初始訓練時γ為1,β為0,訓練一段時間後再加入γ和β,對訓練有幫助。

卷積神經網路 (Convolutional Neural Networks, CNN)_嗶哩嗶哩_bilibili

Task3.2:《深度學習詳解》- 4.1&2&3&4 卷積神經網路-上

主要介紹了卷積神經網路(CNN)的核心概念和設計原則。透過觀察影像識別中模式檢測的區域性性和重複性,提出了兩個主要的簡化策略:區域性感受野和引數共享。透過這些策略,CNN能夠有效地識別影像中的模式,同時減少計算複雜度和引數數量。

**關鍵段落**
- **區域性感受野**: 文章首先指出,神經網路在識別影像中的物體時,並不需要觀察整張影像,而只需關注影像的區域性區域。這啟發了卷積神經網路設計中的區域性感受野概念,即每個神經元只關注影像的一個區域性區域。
- **感受野的設計**: 感受野可以有不同的大小和形狀,並且可以重疊。步幅(stride)和填充(padding)是設計感受野時需要考慮的兩個重要引數,它們影響神經元如何覆蓋整個影像。
- **引數共享**: 由於相同的模式可能出現在影像的不同區域,文章提出了引數共享的概念,即不同位置的神經元可以共享相同的權重。這種設計大大減少了模型的引數數量,同時保持了對影像特徵的檢測能力。
- **濾波器**: 在卷積神經網路中,每個感受野的一組神經元共享的引數被稱為濾波器。透過使用濾波器,網路可以高效地在不同位置檢測相同的特徵。
- **簡化策略的總結**: 文章最後總結了區域性感受野和引數共享這兩個簡化策略,強調它們在提高CNN效率和減少引數數量方面的重要性。

Task3.3:《深度學習詳解》- 4.5&6&7&8 卷積神經網路-下

主要介紹了卷積神經網路(CNN)的基本概念、結構和應用。文章詳細解釋了卷積層的工作原理,包括濾波器的作用、引數共享、下采樣對模式檢測的影響,以及匯聚(如最大匯聚和平均匯聚)的操作。此外,還探討了CNN在影像識別、下圍棋等任務中的應用,並討論了其在語音和文字處理中的潛在用途。文章強調了CNN在處理影像縮放和旋轉方面的侷限性,並提到了資料增強技術的重要性。

**關鍵段落**
- **卷積神經網路基礎**: 介紹了卷積層的基本概念,包括濾波器的作用和引數共享,以及如何透過多層卷積來檢測更大範圍的模式。
- **下采樣與模式檢測**: 討論了下采樣對影像識別任務中模式檢測的影響,指出適當的下采樣不會損害影像中重要模式的識別。
- **匯聚操作**: 描述了匯聚(pooling)操作,包括最大匯聚和平均匯聚,以及它們在影像識別中的作用。
- **CNN在影像識別中的應用**: 探討了CNN在影像識別任務中的應用,包括如何透過卷積和匯聚操作來提取影像特徵。
- **CNN在圍棋中的應用**: 分析了CNN在下圍棋任務中的應用,解釋瞭如何將棋盤視為影像,並使用CNN來預測最佳落子位置。
- **CNN的侷限性與資料增強**: 討論了CNN在處理影像縮放和旋轉方面的侷限性,並強調了資料增強技術在提高CNN效能中的重要性。

《深度學習詳解》- 6.1&2 自注意力機制允許模型在處理序列資料時考慮整個序列的資訊,而不僅僅是區域性上下文。

**重要亮點**
- **自注意力機制的基本原理**:透過將輸入向量分別乘以不同矩陣得到查詢(q)、鍵(k)和值(v),計算q與k的內積得到關聯性α,再進行softmax操作得到α′,根據α′抽取重要資訊。
- **自注意力機制的矩陣乘法角度**:輸入向量組成的矩陣分別乘以三個不同矩陣得到Q、K和V,透過KT乘Q得到注意力分數矩陣,對其進行歸一化處理,再與V相乘得到自注意力的輸出。
- **多頭自注意力**:多頭自注意力是自注意力的進階版本,使用多個頭來計算不同種類的相關性,不同位置的q、k、v分別乘以矩陣得到不同的頭,每個頭分別進行自注意力計算,最後可能將結果拼接並透過變換得到最終輸出。
- **引數學習**:自注意力層中唯一需要學習的引數是Wq、Wk和Wv,其他操作的引數人為設定,無需透過訓練資料學習。
- **應用與超引數**:多頭自注意力在翻譯、語音識別等任務中應用廣泛,頭的數量是需要調整的超引數。

李宏毅機器學習課程自注意力機制Self-Attention(下)思維導圖:

多頭子注意力的計算過程:

自注意力是更靈活的卷積神經網路,而卷積神經網路是受限制的自注意力:

相關文章