蘋果OpenELM:開源小語言模型

banq發表於2024-04-25


OpenELM:具有開源訓練和推理框架的高效語言模型系列

OpenELM 使用分層縮放策略來有效地分配變壓器模型每一層內的引數,從而提高準確性。我們使用CoreNet庫預訓練 OpenELM 模型。我們釋出了具有 270M、450M、1.1B 和 3B 引數的預訓練和指令調整模型。

我們的預訓練資料集包含RefinedWeb、去重PILE、RedPajama 的子集和Dolma v1.6 的子集,總計約1.8 萬億個token。使用這些資料集之前,請檢查許可協議和條款。

各型號的詳細資訊請參見下表:

  • OpenELM-270M
  • OpenELM-450M
  • OpenELM-1_1B
  • OpenELM-3B
  • OpenELM-270M-指令
  • OpenELM-450M-指令
  • OpenELM-1_1B-指令
  • OpenELM-3B-指令

優秀微型模型的競賽已經開始!
比較:

  • 蘋果 OpenELM 3B:24.80 MMLU
  • 微軟 Phi-3-mini 3.8b:68.8 MMLU

比較:
  • OpenELM-3b-instruct: 76.87 HellaSwag, 67.96 WinoGrande,
  • Phi-3-mini-instruct: 76.7 HellaSwag, 70.8 WinoGrande

 

相關文章