【淘汰9成NLP面試者的高頻面題】LSTM中的tanh和sigmoid分別用在什麼地方?為什麼?
重要性:★★★ 💯
本題主要考察面試者對以下問題的理解:
- ① 資料特徵和模型權重的區別
- ② 門控機制的軟性特徵篩選特點
這是我常用的一個面試題。看似簡單的基礎題,但在面試中能準確回答的不足10% ,常識題的錯誤反而會讓人印象深刻。
【NLP 大模型百面百過】系列文章:
- 【淘汰9成NLP工程師的常識題】BPE 分詞器是如何訓練的?
- 【淘汰9成NLP工程師的常識題】LSTM 如何緩解 RNN 梯度消失的問題?
- 【淘汰9成NLP工程師的常識題】LSTM的前向計算如何進行加速?
- 【淘汰9成NLP工程師的常識題】多頭注意力相對於單頭注意力有什麼優勢?
- ......
LSTM 單元的計算圖:
在大多數情況下,門使用sigmoid函式作為啟用函式,而包含實質資訊的資料則使用tanh函式作為啟用函式。
- 因為tanh的輸出是−1.0 ~ 1.0的實數。我們可以認為這個−1.0 ~ 1.0的數值表示某種被編碼的“資訊”的強弱(程度)。
- 而sigmoid 函式的輸出是0.0~1.0的實數,表示資料流出的比例。
拔高(舉一反三):深刻理解門控機制,並且知曉門控機制在LSTM、IA3、SwiGLU等中都有應用。
門機制:控制水閘的門就能阻止或者釋放水流。類似的,門機制的作用是控制資料的流動。
如上圖所示,門的開合程度由 0.0 ~1.0 的實數表示,透過這個數值控制流出的水量,sigmoid 函式用於求門的開合程度(sigmoid 函式的輸出範圍在 0.0 ~ 1.0)。
① LSTM 中門控機制的應用:
② PEFT的IA3方法中門控機制的應用:
IA3的思想:抑制和放大內部啟用,透過可學習的向量對啟用值進行抑制或放大。具體來說,會對K、V、FFN三部分的值進行調整,訓練過程中同樣凍結原始模型的權重,只更新可學習的部分向量部分。訓練完成後,與Lora類似,也可以將學習部分的引數與原始權重合並,沒有額外推理開銷。
③ LLM的IA3方法中門控機制的應用:
SwiGLU在計算中引入了門控機制,門控機制可以使用更軟性的權重篩選有用的資訊,並且梯度更平滑。ReLU和SwiGLU的視覺化對比:
NLP Github 專案:
-
NLP 專案實踐:fasterai/nlp-project-practice
介紹:該倉庫圍繞著 NLP 任務模型的設計、訓練、最佳化、部署和應用,分享大模型演算法工程師的日常工作和實戰經驗
-
AI 藏經閣:https://gitee.com/fasterai/ai-e-book
介紹:該倉庫主要分享了數百本 AI 領域電子書
-
AI 演算法面經:fasterai/nlp-interview-handbook#面經
介紹:該倉庫一網打盡網際網路大廠NLP演算法面經,演算法求職必備神器
-
NLP 劍指Offer:https://gitee.com/fasterai/nlp-interview-handbook
介紹:該倉庫彙總了 NLP 演算法工程師高頻面題
本文由mdnice多平臺釋出