Phi-3 小型和中型現已在 MIT 許可下可用 ,微軟剛剛推出了Phi-3小型(7B)和中型(14B):
- Phi-3 小型 128k:https://huggingface.co/microsoft/Phi-3-small-128k-instruct
- Phi-3 中型 128k:https://huggingface.co/microsoft/Phi-3-medium-128k-instruct
- Phi-3 小 8k:https://huggingface.co/microsoft/Phi-3-small-8k-instruct
- Phi-3 中型 4k:https://huggingface.co/microsoft/Phi-3-medium-4k-instruct
- Phi-3-vision-128k-instruct:https://huggingface.co/microsoft/Phi-3-vision-128k-instruct
- Phi-3-mini-128k-instruct:https://huggingface.co/microsoft/Phi-3-mini-128k-instruct
- Phi-3-mini-4k-instruct:https://huggingface.co/microsoft/Phi-3-mini-4k-instruct
網友親測:
1、在 Microsoft 改變主意之前下載它們!
2、Phi 3 Vision(4.2B 引數)的尺寸令人印象深刻。比我嘗試過的任何其他開源模型更好地轉錄螢幕截圖中的文字。
3、親測總結:
- 中型與 Mixtral 8x22B、Llama 3 70B 和 beats Command R+ 104B 及 GPT 3.5 競爭
- 小型擊敗了 Mistral 7B 和 Llama 3 8B
- 有4K 和 128K 上下文長度
- 中型 = 14B, 小型 = 7.5B
- Vision = 4.2B (迷你文字主幹)
- 根據 MIT 許可釋出
- 在 4.8T 標記上進行訓練
- 在 512 H100 上執行 42 天
- 10% 多語言資料
- 使用經過大量過濾的資料和合成資料(科學 + 編碼教科書)
- 帶有 100K 詞彙表的新標記符
- 截止日期:2023 年 10 月
4、在什麼情況下人們會更喜歡短上下文版本?長上下文是否需要更多的視訊記憶體?
- 短上下文似乎比長上下文表現得稍好。因此,如果準確性對您來說非常重要並且您不需要很長的上下文,那麼短上下文似乎會更好。
- 簡短的上下文版本很可能會稍微更好地關注您塞入 4k 中的細節。
- 根據微軟的說法,這是一個針對資源受限環境的模型。上下文越長,KV 快取就會增長得越大,需要更多的記憶體。