手搓大模型Task01:LLama3模型講解

南风丶丶發表於2024-09-23

前言

  主要進行Qwen模型架構進行講解。

1.Qwen整體介紹

  Qwen的整體架構與Llama2類似,如下圖所示:

手搓大模型Task01:LLama3模型講解

  • tokenizer將文字轉為詞表裡面的數值。
  • 數值經過embedding得到一一對應的向量。
  • attention_mask是用來看見左邊、右邊,雙向等等來設定。
  • 各類下游任務,Casual, seqcls等,基本都是基礎模型model後面接對應的Linear層,還有損失函式不一樣。

2.學習記錄

  在本次課程中,我深入學習了Transformer和Qwen2這兩種先進的演算法原理,並透過實踐掌握了它們的程式碼實現流程。透過對相關原始碼的細緻研讀,我領悟到了Transformer中的位置編碼(PE)與Qwen2中的相對位置編碼(RoPE)之間的聯絡和它們各自獨特的特點。這段學習經歷極大地豐富了我的知識儲備,並提升了我的技術理解力。

相關文章