預訓練模型 & Fine-tuning

rainbow_lucky0106發表於2020-10-18

在實踐中，由於資料集不夠大，很少有人從頭開始訓練網路。常見的做法是使用預訓練的網路（例如在ImageNet上訓練的分類1000類的網路）來重新fine-tuning（也叫微調），或者當做特徵提取器。

語言模型來輔助NLP任務已經得到了學術界較為廣泛的探討，通常有兩種方式：

feature-based（ELMo）

利用語言模型的中間結果也就是LM embedding, 將其作為額外的特徵，引入到原任務的模型中。
通常feature-based方法包括兩步：a. 在大的語料A上無監督地訓練語言模型，訓練完畢得到語言模型，然後構造task-specific model例如序列標註模型，採用有標記的語料B來有監督地訓練task-sepcific model，將語言模型的引數固定，語料B的訓練資料經過語言模型得到LM embedding，作為task-specific model的額外特徵。

fine-tuning

Fine-tuning方式是指在已經訓練好的語言模型的基礎上，加入少量的task-specific parameters。例如對於分類問題在語言模型基礎上加一層softmax網路，然後在新的語料上重新訓練來進行fine-tune。
- 構造語言模型，採用大的語料A來訓練語言模型在語言模型基礎上增加少量神經網路層來完成specific task。例如序列標註、分類等，然後採用有標記的語料B來有監督地訓練模型，這個過程中語言模型的引數並不固定，依然是trainable variables。

常見的兩類遷移學習場景

卷積網路當做特徵提取器。使用在ImageNet上預訓練的網路，去掉最後的全連線層，剩餘部分當做特徵提取器（例如AlexNet在最後分類器前，是4096維的特徵向量）。這樣提取的特徵叫做CNN codes。得到這樣的特徵後，可以使用線性分類器（Liner SVM、Softmax等）來分類影像。
Fine-tuning卷積網路。替換掉網路的輸入層（資料），使用新的資料繼續訓練。Fine-tune時可以選擇fine-tune全部層或部分層。通常，前面的層提取的是影像的***通用特徵（generic features）***（例如邊緣檢測，色彩檢測），這些特徵對許多工都有用。後面的層提取的是***與特定類別有關***的特徵，因此fine-tune時常常只需要Fine-tuning後面的層。

何時以及如何Fine-tune

決定如何使用遷移學習的因素有很多，這是最重要的只有兩個：新資料集的大小、以及新資料和原資料集的相似程度。有一點一定記住：**網路前幾層學到的是通用特徵，後面幾層學到的是與類別相關的特徵。**這裡有使用的四個場景：

新資料集比較小且和原資料集相似。因為新資料集比較小，如果fine-tune可能會過擬合；又因為新舊資料集類似，我們期望他們高層特徵類似，可以使用預訓練網路當做特徵提取器，用提取的特徵訓練線性分類器。
新資料集大且和原資料集相似。因為新資料集足夠大，可以fine-tune整個網路。
新資料集小且和原資料集不相似。新資料集小，最好不要fine-tune，和原資料集不類似，最好也不使用高層特徵。這時可是使用前面層的特徵來訓練SVM分類器。
新資料集大且和原資料集不相似。因為新資料集足夠大，可以重新訓練。但是實踐中fine-tune預訓練模型還是有益的。新資料集足夠大，可以fine-tine整個網路。

warning

與重新訓練相比，fine-tune要使用更小的學習率。因為訓練好的網路模型權重已經平滑，我們不希望太快扭曲（distort）它們（尤其是當隨機初始化線性分類器來分類預訓練模型提取的特徵時）。

PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
【預訓練語言模型】使用Transformers庫進行GPT2預訓練
2024-03-13
模型ORMGPT
MxNet預訓練模型到Pytorch模型的轉換
2018-06-28
模型PyTorch
TorchVision 預訓練模型進行推斷
2021-02-26
模型
模型訓練：資料預處理和預載入
2020-10-27
模型
Findings | 中文預訓練語言模型回顧
2020-11-18
模型
常見預訓練語言模型簡述
2022-04-11
模型
知識增強的預訓練語言模型系列之ERNIE：如何為預訓練語言模型注入知識
2021-12-30
模型
通用模型、全新框架，WavLM語音預訓練模型全解
2021-12-27
模型框架
新型大語言模型的預訓練與後訓練正規化，阿里Qwen
2024-11-27
模型阿里
TensorFlow 呼叫預訓練好的模型—— Python 實現
2018-10-10
模型Python
keras中VGG19預訓練模型的使用
2018-07-24
Keras模型
預訓練語言模型：還能走多遠？
2020-11-13
模型
NLP與深度學習（五）BERT預訓練模型
2021-09-30
深度學習模型
大規模表格預訓練模型 SPACE-T
2023-04-18
模型
新型大語言模型的預訓練與後訓練正規化，谷歌的Gemma 2語言模型
2024-11-29
模型谷歌Gemma
新型大語言模型的預訓練與後訓練正規化，Meta的Llama 3.1語言模型
2024-11-30
模型
NLP領域預訓練模型的現狀及分析
2019-11-05
模型
「NLP」GPT：第一個引入Transformer的預訓練模型
2019-08-27
GPTORM模型
COLING 2020 | CharBERT：字元敏感的預訓練語言模型
2020-11-20
字元模型
180G！中文ELECTRA預訓練模型再升級
2020-10-26
模型
PaddlePaddle分散式訓練及CTR預估模型應用
2019-05-21
分散式模型
預訓練模型時代：告別finetune, 擁抱adapter
2021-12-29
模型APT
取出預訓練模型中間層的輸出(pytorch)
2023-03-12
模型PyTorch
完勝 BERT，谷歌最佳 NLP 預訓練模型開源，單卡訓練僅需 4 天
2020-03-17
谷歌模型
新型大語言模型的預訓練與後訓練正規化，蘋果的AFM基礎語言模型
2024-11-28
模型蘋果
人工智慧的預訓練基礎模型的分類
2023-04-21
人工智慧模型
BERT預訓練模型的演進過程！(附程式碼)
2019-09-28
模型
獲取和生成基於TensorFlow的MobilNet預訓練模型
2020-11-03
模型
【tf.keras】tf.keras載入AlexNet預訓練模型
2019-05-29
Keras模型
使用Bert預訓練模型文字分類（內附原始碼）
2019-03-13
模型文字分類原始碼
監控大模型訓練
2024-03-13
大模型
fasttext訓練模型程式碼
2020-12-23
AST模型
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
孟子小樣本和檢索式預訓練模型進展
2023-04-21
模型

預訓練模型 & Fine-tuning

常見的兩類遷移學習場景

何時以及如何Fine-tune

warning

相關文章