【淘汰9成NLP面試者的高頻面題】RNN是如何基於時間進行引數學習(BPTT)的?

青松^_^發表於2024-11-23

【淘汰9成NLP面試者的高頻面題】RNN是如何基於時間進行引數學習(BPTT)的?

重要性:★★

本問題主要考察面試者有有以下幾點:

  • ① 理解RNN迴圈的概念,認識到截斷的 BPTT的必要性
  • ② 理解深度學習框架在處理反向傳播時需要在儲存各個時刻的中間(前向計算)資料,會消耗大量的視訊記憶體

這是我常用的一個面試題。看似簡單的基礎題,但在面試中能準確回答的不足10% ,常識題的錯誤反而會讓人印象深刻。


NLP Github 專案:

  • NLP 專案實踐fasterai/nlp-project-practice

    介紹:該倉庫圍繞著 NLP 任務模型的設計、訓練、最佳化、部署和應用,分享大模型演算法工程師的日常工作和實戰經驗

  • AI 藏經閣https://gitee.com/fasterai/ai-e-book

    介紹:該倉庫主要分享了數百本 AI 領域電子書

  • AI 演算法面經fasterai/nlp-interview-handbook#面經

    介紹:該倉庫一網打盡網際網路大廠NLP演算法面經,演算法求職必備神器

  • NLP 劍指Offerhttps://gitee.com/fasterai/nlp-interview-handbook

    介紹:該倉庫彙總了 NLP 演算法工程師高頻面題


RNN透過反向傳播進行引數學習,將迴圈展開後的RNN層的誤差反向傳播法:

RNN的誤差反向傳播法是“按時間順序展開的神經網路的誤差反向傳播法”,所以稱為 Backpropagation Through Time(基於時間的反向傳播),簡稱 BPTT

RNN反向傳播存在的問題
BPTT隨著時序資料的時間跨度的增大,BPTT 消耗的計算資源和記憶體資源(求梯度時必須在記憶體中儲存各個時刻的中間資料)也會成比例地增大。另外,反向傳播的梯度也會變得不穩定。

解決方案:
為解決BPTT在處理長時序資料時存在的問題,通常的做法是將網路連線截成適當的長度。然後對截出來的小型網路執行誤差反向傳播法,這個方法稱為 Truncated BPTT(截斷的 BPTT)

在 Truncated BPTT 中,只是網路的反向傳播的連線被截斷,正向傳播的連線依然被維持。被截斷的網路稱為“塊”。

使用展開的視角觀察RNN的學習過程:


MLP 大模型高頻面題彙總

NLP基礎篇

  • 【NLP 面試寶典 之 模型分類】 必須要會的高頻面題
  • 【NLP 面試寶典 之 神經網路】 必須要會的高頻面題
  • 【NLP 面試寶典 之 主動學習】 必須要會的高頻面題
  • 【NLP 面試寶典 之 超引數最佳化】 必須要會的高頻面題
  • 【NLP 面試寶典 之 正則化】 必須要會的高頻面題
  • 【NLP 面試寶典 之 過擬合】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Dropout】 必須要會的高頻面題
  • 【NLP 面試寶典 之 EarlyStopping】 必須要會的高頻面題
  • 【NLP 面試寶典 之 標籤平滑】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Warm up 】 必須要會的高頻面題
  • 【NLP 面試寶典 之 置信學習】 必須要會的高頻面題
  • 【NLP 面試寶典 之 偽標籤】 必須要會的高頻面題
  • 【NLP 面試寶典 之 類別不均衡問題】 必須要會的高頻面題
  • 【NLP 面試寶典 之 交叉驗證】 必須要會的高頻面題
  • 【NLP 面試寶典 之 詞嵌入】 必須要會的高頻面題
  • 【NLP 面試寶典 之 One-Hot】 必須要會的高頻面題
  • ......

BERT 模型面

  • 【NLP 面試寶典 之 BERT模型】 必須要會的高頻面題
  • 【NLP 面試寶典 之 BERT變體】 必須要會的高頻面題
  • 【NLP 面試寶典 之 BERT應用】 必須要會的高頻面題
  • ......

LLMs 微調面

  • 【NLP 面試寶典 之 LoRA微調】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Prompt】 必須要會的高頻面題
  • 【NLP 面試寶典 之 提示學習微調】 必須要會的高頻面題
  • 【NLP 面試寶典 之 PEFT微調】 必須要會的高頻面題
  • 【NLP 面試寶典 之 Chain-of-Thought微調】 必須要會的高頻面題
  • ......

本文由mdnice多平臺釋出

相關文章