LLM相關
LLM基礎
-
zero shot、one shot、three shot是什麼
zero shot: 零樣本學習。對於模型沒有見過的影像,透過已有的影像和特徵相關聯,從而判別新的圖片
few shot: 少樣本學習。透過判斷測試樣本與訓練樣本的相似性,來推測測試樣本屬於什麼類
-
bf16和fp16有什麼區別
LLM微調
-
Adpter Tuning
-
Prefix Tuning
-
LoRA原理
LoRA(Low-Rank Adaptation of Large Language Models)是一種用於高效微調大語言模型的方法。它的核心思想是在預訓練模型權重矩陣上額外引入兩個低秩矩陣,在微調過程中透過更新低秩矩陣從而實現在目標任務或領域的遷移,有效地減少了需要更新的引數量,並且降低了微調的計算和儲存成本。訓練完成後只需要將兩個低秩矩陣的乘積加回到原始權重矩陣中從而得到更新後的模型。
-
QLoRA原理
LLM應用
Transformer
-
解釋self attention 和 cross attention
-
為什麼要除以 \(\sqrt{d}\)
\(Attn(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d}})\)
當\(d_{k}\)變大導致\(QK^{T}\)的方差變大,導致元素之間的差異變大,會造成softmax函式退化成argmax
-
BERT和Transformer的區別
-
手寫Transformer
GPT相關
- GPT架構(GPT和Transformer的區別)
Llama相關
-
Llama2架構
-
Llama2 transformer block 裡做了哪些改變
-
為什麼Llama2中使用了RMSNorm 而不用 LayerNorm
-
為什麼用RoPE不用絕對位置編碼,RoPE能表示絕對位置資訊嗎
-
為什麼現在主流都用Decoder-only而不是Encoder-decoder