微軟釋出Phi-3,效能超Llama-3,可手機端執行

机器之心發表於2024-04-24
資料已成為提升大模型能力的重點。

Llama-3 剛釋出沒多久,競爭對手就來了,而且是可以在手機上執行的小體量模型。

本週二,微軟釋出了自研小尺寸模型 Phi-3。

新模型有三個版本,其中 Phi-3 mini 是一個擁有 38 億引數語言模型,經過 3.3 萬億 token 的訓練,其整體效能在學術基準和內部測試上成績優異。

儘管 Phi-3 mini 被最佳化至可部署在手機上,但它的效能可以與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。微軟表示,創新主要在於用於訓練的資料集。
圖片
與此同時,Phi-3 與 Llama-2 使用相同的架構,方便開源社群在其基礎上開發。
圖片
此前,微軟的 Phi 系列模型曾經引發了人們的熱議,去年 6 月,微軟釋出了《Textbooks Are All You Need》論文,用規模僅為 7B token 的「教科書質量」資料訓練 1.3B 引數的模型 phi-1,實現了良好的效能。

去年 9 月,微軟進一步探索這條道路,讓 1.3B 引數的 Transformer 架構語言模型 Phi-1.5 顯示出強大的編碼能力。

去年底,微軟提出的 Phi-2 具備了一定的常識能力,在 2.7B 的量級上多個基準測試成績超過 Llama2 7B、Llama2 13B、Mistral 7B 等一眾先進模型。
圖片
Phi-3 技術報告:https://arxiv.org/abs/2404.14219

剛剛提出的 phi-3-mini 是一個在 3.3 萬億個 token 上訓練的 38 億引數語言模型。實驗測試表明,phi-3-mini 的整體效能可與 Mixtral 8x7B 和 GPT-3.5 等模型相媲美,例如 phi -3-mini 在 MMLU 上達到了 69%,在 MT-bench 上達到了 8.38。

微軟之前對 phi 系列模型的研究表明,高質量的「小資料」能夠讓較小的模型具備良好的效能。phi-3-mini 在經過嚴格過濾的網路資料和合成資料(類似於 phi-2)上進行訓練,並進一步調整了穩健性、安全性和聊天格式。

此外,研究團隊還提供了針對 4.8T token 訓練的 7B 和 14B 模型的初始引數擴充套件結果,稱為 phi-3-small 和 phi-3-medium,兩者都比 phi-3-mini 能力更強。
圖片
學術基準

在標準開源基準測試中,phi-3-mini 與 phi-2 、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B 、Llama-3-instruct8B 和 GPT-3.5 的比較結果如下表所示,為了確保具有可比性,所有結果都是透過完全相同的 pipeline 得到的。
圖片
安全性

Phi-3-mini 是根據微軟負責任人工智慧原則開發的。保證大模型安全的總體方法包括訓練後的安全調整、紅隊(red-teaming)測試、自動化測試和數十個 RAI 危害類別的評估。微軟利用受 [BSA+ 24] 啟發修改的有用和無害偏好資料集 [BJN+ 22、JLD+ 23] 和多個內部生成的資料集來解決安全性後訓練(post-training)的 RAI 危害類別。微軟一個獨立的 red team 反覆檢查了 phi-3-mini,以進一步確定後訓練過程中需要改進的領域。

根據 red team 的反饋,研究團隊整理了額外的資料集從而完善後訓練資料集。這一過程導致有害響應率顯著降低,如圖 3 所示。
圖片
下表顯示了 phi-3-mini-4k 和 phi-3-mini-128k 與 phi-2、Mistral-7B-v0.1、Gemma 7B 的內部多輪對話 RAI 基準測試結果。該基準測試利用 GPT-4 模擬五個不同類別的多輪對話並評估模型響應。
圖片
缺陷

微軟表示,就 LLM 能力而言,雖然 phi-3-mini 模型達到了與大型模型相似的語言理解和推理能力水平,但它在某些任務上仍然受到其規模的根本限制。例如,該模型根本沒有能力儲存太多「事實知識」,這可以從 TriviaQA 上的低評分中看出。不過,研究人員相信這些問題可以透過搜尋引擎增強的方式來解決。
圖片
參考內容:https://news.ycombinator.com/item?id=40127806

相關文章