前言
主要進行Qwen模型架構講解。
教程地址:https://github.com/lixinjie97/tiny-universe/blob/main/01.Qwen_blog/qwen.ipynb
1.Qwen整體介紹
Qwen的整體架構與Llama2類似,如下圖所示:
- tokenizer將文字轉為詞表裡面的數值。
- 數值經過embedding得到一一對應的向量。
- attention_mask是用來看見左邊、右邊,雙向等等來設定。
- 各類下游任務,Casual, seqcls等,基本都是基礎模型model後面接對應的Linear層,還有損失函式不一樣。
2.學習記錄
在本次課程中,我深入學習了Transformer和Qwen2這兩種先進的演算法原理,並透過實踐掌握了它們的程式碼實現流程。透過對相關原始碼的細緻研讀,我領悟到了Transformer中的位置編碼(PE)與Qwen2中的相對位置編碼(RoPE)之間的聯絡和它們各自獨特的特點。這段學習經歷極大地豐富了我的知識儲備,並提升了我的技術理解力。