權重、程式碼、資料集全開源,效能超越Mistral-7B,蘋果小模型來了

机器之心發表於2024-07-22

小模型成趨勢?

本週,OpenAI 上線小模型 GPT-4o-mini,小模型賽道正式開卷。近期加入這一賽道的還有蘋果。

最近,蘋果公司作為 DataComp-LM(DCLM)專案的研究機構之一,在 Hugging Face 上釋出了 DCLM-7B 開源模型。該模型效能已經超越了 Mistral-7B,並且正在逼近其他領先的開源模型,包括 Llama 3 和 Gemma。

圖片

圖片

  • 論文連結:https://arxiv.org/pdf/2406.11794

  • 專案連結:https://huggingface.co/apple/DCLM-7B

論文作者之一、蘋果機器學習團隊 Vaishaal Shankar 將 DCLM 模型描述為「真正開源的最佳模型」,因為 DCLM 不僅開源了模型權重,還開源了訓練程式碼和預訓練資料集。

圖片

研究介紹

大型語言模型(LLM)目前面臨的一個評估挑戰是缺乏受控比較。LLM 研究通常會比較採用不同架構、計算或超引數的模型,因此難以理清影響語言模型質量的因素。

基於此,研究團隊提出了語言模型資料比較新基準 ——DCLM,這是語言模型訓練資料整編(curation)的第一個基準,旨在讓 LLM 透過設計高質量資料集來提高模型效能,特別是在多模態領域。

研究團隊發現基於模型的過濾,即由機器學習 (ML) 模型從較大的資料集中自動過濾和選擇高質量資料,可能是構建高質量訓練集的關鍵。

DCLM 整體思路很簡單:使用一個標準化的框架來進行實驗,包括固定的模型架構、訓練程式碼、超引數和評估,最終找出哪種資料整理策略最適合訓練出高效能的模型。

圖片

使用 DCLM,研究團隊構建了一個高質量資料集 DCLM-BASELINE,並用該資料集從頭開始訓練了一個 7B 引數模型 —— DCLM-7B。

圖片

圖片

DCLM-7B 模型的細節。

DCLM-7B 使用基於 OpenLM 框架的預訓練方案,在 MMLU 基準上 5-shot 準確率達到 64%,可與 Mistral-7B-v0.3(63%)和 Llama 3 8B(66%)相媲美,並且在 53 個自然語言理解任務上的平均表現也可與 Mistral-7B-v0.3、Llama 3 8B 相媲美,而所需計算量僅為 Llama 3 8B 的 1/6。

圖片

以下是 DCLM-7B 在各種任務(部分)上的評估結果:

圖片

DCLM-7B 與其他同等大小模型比較結果如下表所示:

圖片

值得注意的是,大部分其他模型雖然開放權重但封閉資料。這就是 Vaishaal Shankar 將 DCLM 模型描述為「真正開源」的原因。

參考連結:https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

相關文章