OpenELM:具有開源訓練和推理框架的高效語言模型系列
OpenELM 使用分層縮放策略來有效地分配變壓器模型每一層內的引數,從而提高準確性。我們使用CoreNet庫預訓練 OpenELM 模型。我們釋出了具有 270M、450M、1.1B 和 3B 引數的預訓練和指令調整模型。
我們的預訓練資料集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集,總計約1.8 萬億個token。使用這些資料集之前,請檢查許可協議和條款。
各型號的詳細資訊請參見下表:
- OpenELM-270M
- OpenELM-450M
- OpenELM-1_1B
- OpenELM-3B
- OpenELM-270M-指令
- OpenELM-450M-指令
- OpenELM-1_1B-指令
- OpenELM-3B-指令
優秀微型模型的競賽已經開始!
比較:
- 蘋果 OpenELM 3B:24.80 MMLU
- 微軟 Phi-3-mini 3.8b:68.8 MMLU
比較:
- OpenELM-3b-instruct: 76.87 HellaSwag, 67.96 WinoGrande,
- Phi-3-mini-instruct: 76.7 HellaSwag, 70.8 WinoGrande