深度學習中，影像和文字的輸入區別

海_纳百川發表於2024-08-08

原文網址 : https://www.cnblogs.com/chentiao/p/18349878

深度學習

影像輸入

1. 資料預處理

尺寸調整（Resizing）: 將影像調整到統一的尺寸，如 224 × 224 或 256 × 256。
歸一化（Normalization）: 對每個畫素值進行歸一化，畫素值通常歸一化到 [0, 1] 或 [-1, 1] 範圍。
資料增強（Data Augmentation）: 包括隨機裁剪、翻轉、旋轉等操作，以增加模型的泛化能力。

2. 輸入形狀

典型輸入形狀: 影像輸入通常為四維張量，形狀為 (N, C, H, W)，其中：

N: 批次大小（Batch Size）
C: 通道數（通常是 3，代表 RGB 三個顏色通道）
H: 影像的高度（Height）
W: 影像的寬度（Width）

3. 常見各層的維度

卷積層（Convolutional Layer）:
- 輸入形狀：(N, C, H, W)
- 輸出形狀：(N, C', H', W')，其中 C' 是卷積核的數量（即輸出通道數），H' 和 W' 由卷積核大小、步幅、填充方式等決定。
池化層（Pooling Layer）:
- 輸入形狀：(N, C', H', W')
- 輸出形狀：(N, C', H'', W'')，池化層通常減少空間維度 H'' < H' 且 W'' < W'。
全連線層（Fully Connected Layer）:
- 展平後形狀：(N, F)，其中 F 是展平後的特徵維度。
- 輸出形狀：(N, K)，其中 K 是輸出類別數（在分類任務中）。

文字輸入

1. 資料預處理

分詞（Tokenization）: 將文字拆分為詞或子詞，並將每個詞對映到一個整數索引。
序列填充（Padding）: 文字長度不一，需要填充或截斷到統一的長度 T。
嵌入表示（Embedding）: 將整數索引轉換為密集向量（詞向量或嵌入向量），通常透過查詢嵌入矩陣完成。

2. 輸入形狀

典型輸入形狀: 文字輸入通常為二維張量，形狀為 (N, T)，其中：

N: 批次大小（Batch Size）
T: 序列長度（Token 的數量）

3. 常見各層的維度

嵌入層（Embedding Layer）:
- 輸入形狀：(N, T)
- 輸出形狀：(N, T, D)，其中 D 是嵌入維度（每個詞的向量維度）。
迴圈層（RNN/LSTM/GRU Layer）:
- 輸入形狀：(N, T, D)
- 輸出形狀：(N, T, H)，其中 H 是隱藏層狀態的維度。
自注意力層（Self-Attention Layer）:
- 輸入形狀：(N, T, D)
- 輸出形狀：(N, T, D)（通常輸入與輸出的形狀保持一致，但可以調整特徵維度）。
全連線層（Fully Connected Layer）:
- 輸入形狀：(N, T, D) 或展平為 (N, T × D)
- 輸出形狀：(N, K)（在分類任務中，K 是輸出類別數）。

對比總結

資料預處理: 影像需要進行尺寸調整和歸一化，而文字需要分詞、填充和嵌入表示。
輸入形狀:
- 影像：四維張量 (N, C, H, W)
- 文字：二維張量 (N, T)
常見各層的維度變化:
- 影像處理多涉及空間維度的卷積運算。
- 文字處理更多依賴序列處理和注意力機制。

機器學習和深度學習的區別
2018-09-13
機器學習深度學習
機械學習和深度學習的區別
2024-03-19
深度學習
python中機器學習和深度學習的區別究竟是什麼?
2022-03-29
Python機器學習深度學習
一張圖看懂AI、機器學習和深度學習的區別
2018-09-09
AI機器學習深度學習
5分鐘內看懂機器學習和深度學習的區別
2018-09-12
機器學習深度學習
Linux shell指令碼中內聯輸入＜＜- EOF和＜＜EOF的區別
2020-11-11
Linux指令碼
深度學習與機器學習之間區別 - javaworld
2020-01-09
深度學習機器學習Java
機器學習和深度學習概念入門
2018-04-12
機器學習深度學習
Python中tuple和list的區別?Python基礎學習!
2021-05-12
Python
序列資料和文字的深度學習
2022-07-15
深度學習
影像分割中的深度學習：U-Net 體系結構
2019-10-07
深度學習
基於深度學習的場景文字檢測和識別（Scene Text Detection and Recognition）綜述
2020-12-04
深度學習
Python2和Python3的區別?Python入門學習
2021-01-11
Python
深度學習中影像上取樣的方法
2021-07-17
深度學習
程式和程式有什麼區別？Linux學習入門
2020-11-23
Linux
機器學習中偏差bias和方差variance區別
2021-04-29
機器學習
為什麼醫學影像AI已進入「後深度學習時代」？
2019-05-15
AI深度學習
【乾貨】機器學習和深度學習概念入門
2018-12-31
機器學習深度學習
C++ 學習筆記之——輸入和輸出
2018-10-29
C++筆記
Python學習之Pandas和Numpy的區別！
2021-05-08
Python
【深度學習】深度解讀：深度學習在IoT大資料和流分析中的應用
2018-03-13
深度學習大資料
深度學習——性別識別
2022-01-11
深度學習
基於深度學習的醫學影像配準學習筆記2
2020-10-06
深度學習筆記
CAD中怎麼輸入文字？CAD製圖初學入門教程
2020-03-27
QImage：使用QImage建構函式載入影像和使用成員函式loadFromData載入影像的區別
2024-03-30
函式
this和super的區別和應用學習筆記
2021-09-09
筆記
如何用 Python 和深度遷移學習做文字分類？
2018-11-01
Python遷移學習文字分類
關於C++中字串輸入get與getline的區別
2018-11-22
C++字串
【長篇乾貨】深度學習在文字分類中的應用
2018-04-04
深度學習文字分類
深度學習中的Dropout
2020-12-02
深度學習
01_Numpy學習筆記（下）：輸入和輸出
2020-11-23
筆記
Python學習系列之 xrange和range的區別！
2021-02-02
Python
C語言檔案輸入和輸出操作的學習心得（一）
2019-05-12
C語言
基於深度學習的影像超解析度重建
2018-09-27
深度學習
影像Resize方式對深度學習模型效果的影響
2021-04-02
深度學習模型
[譯] 用於 iOS 的 ML Kit 教程：識別影像中的文字
2019-06-10
iOS
深度學習之影像處理與分析(二)
2020-12-24
深度學習
Linux中raid和lvm有什麼區別?Linux學習教程
2021-11-02
LinuxAILVM

深度學習中，影像和文字的輸入區別

影像輸入

1. 資料預處理

2. 輸入形狀

3. 常見各層的維度

文字輸入

1. 資料預處理

2. 輸入形狀

3. 常見各層的維度

對比總結

相關文章