Phi-3小型和中型下載地址

banq發表於2024-05-22

Phi-3 小型和中型現已在 MIT 許可下可用 ,微軟剛剛推出了Phi-3小型(7B)和中型(14B):

  • Phi-3 小型 128k:https://huggingface.co/microsoft/Phi-3-small-128k-instruct
  • Phi-3 中型 128k:https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
  • Phi-3 小 8k:https://huggingface.co/microsoft/Phi-3-small-8k-instruct
  • Phi-3 中型 4k:https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
  • Phi-3-vision-128k-instruct:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
  • Phi-3-mini-128k-instruct:https://huggingface.co/microsoft/Phi-3-mini-128k-instruct
  • Phi-3-mini-4k-instruct:https://huggingface.co/microsoft/Phi-3-mini-4k-instruct

網友親測:
1、在 Microsoft 改變主意之前下載它們!

2、Phi 3 Vision(4.2B 引數)的尺寸令人印象深刻。比我嘗試過的任何其他開源模型更好地轉錄螢幕截圖中的文字。

3、親測總結:

  • 中型與 Mixtral 8x22B、Llama 3 70B 和 beats Command R+ 104B 及 GPT 3.5 競爭
  • 小型擊敗了 Mistral 7B 和 Llama 3 8B
  • 有4K 和 128K 上下文長度
  • 中型 = 14B, 小型 = 7.5B
  • Vision  = 4.2B (迷你文字主幹)
  • 根據 MIT 許可釋出
  • 在 4.8T 標記上進行訓練
  • 在 512 H100 上執行 42 天
  • 10% 多語言資料
  • 使用經過大量過濾的資料和合成資料(科學 + 編碼教科書)
  • 帶有 100K 詞彙表的新標記符
  • 截止日期:2023 年 10 月

4、在什麼情況下人們會更喜歡短上下文版本?長上下文是否需要更多的視訊記憶體?

  • 短上下文似乎比長上下文表現得稍好。因此,如果準確性對您來說非常重要並且您不需要很長的上下文,那麼短上下文似乎會更好。
  • 簡短的上下文版本很可能會稍微更好地關注您塞入 4k 中的細節。
  • 根據微軟的說法,這是一個針對資源受限環境的模型。上下文越長,KV 快取就會增長得越大,需要更多的記憶體。

相關文章