Meta開源Llama 3釋出

banq發表於2024-04-19


Meta釋出迄今為止最有能力的開源大模型:Llama 3 

要點:

  • 此次釋出 Llama(Meta Llama 3)的前兩個型號,可供廣泛使用。此版本具有經過預訓練和指令微調的語言模型,具有 8B 和 70B 引數,可以支援廣泛的用例。
  • Llama-3 8b 在基準測試中擊敗 Llama-2 70b !
  • Llama-3  70B擊敗Claude Sonnet!
  • Llama-3 400B 將可能輕鬆擊敗 GPT-4 和 Opus。目前 400b 的基準測試顯示分數低於 Opus,但它仍在訓練中!
  • 推理、程式碼生成和指令跟蹤等功能的極大改進,使 Llama 3 更加易於操控。
  • 截至目前,卻只有 8K 上下文長度:稍後將釋出具有更長上下文視窗的版本

與ChatGPT比較:
與付費 ChatGPT Plus 中的 GPT-4 相比:

           Llama 3 8B Llama 3 70B GPT-4
 MMLU      68.4       82.0        86.5
 GPQA      34.2       39.5        49.1
 MATH      30.0       50.4        72.2
 HumanEval 62.2       81.7        87.6
 DROP      58.4       79.7        85.4

  • 該模型很可能在某些領域比 GPT-4 更先進,除非 GPT-5快點推出。
  • 大多數人使用的免費版 ChatGPT 是基於 GPT-3.5 的,這比 GPT-4 差很多。
  • Llama 3 70B 輕鬆擊敗GPT-3.5,甚至 8B 也很接近。
  • 擁有如此優秀的模型,您可以在本地執行並進行修改,

其他點:

  • 8b 引數版本和 70b 引數版本。
  • 僅解碼器結構。
  • 僅在模型上實現文字輸入到文字輸出(目前)。
  • 計劃稍後釋出多模態版本的 llama 3
  • 計劃稍後推出更大的上下文視窗。
  • 總體上聽起來,他們是在進行迭代釋出。
  • 對 15 萬億個token進行預訓練。
  • 在 2 個 24k GPU 叢集上訓練。
  • 新增更高效的標記符號生成器和 128k 標記符號詞彙表。
  • 內部仍在訓練超過 400b 引數的版本。
  • 建立了一個內部評估,但從未交給建模團隊,以避免過度擬合。

總之
我們現在有一個大致相當於GPT4的開源模型,Llama 3 400B。

讓我們期待 Open Ai 釋出 GPT5 以及 Google 釋出 Gemini 2 或 Gemini 1.5 Ultra 需要多長時間。
這些模型會變得超級強大

相關文章