微軟Phi-4家族新增兩位成員,5.6B多模態單任務超GPT-4o,3.8B小模型媲美千問7B

机器之心發表於2025-02-27
動輒百億、千億引數的大模型正在一路狂奔,但「小而美」的模型也在閃閃發光。

2024 年底,微軟正式釋出了 Phi-4—— 在同類產品中表現卓越的小型語言模型(SLM)。僅用了 40% 合成資料,140 億引數的 Phi-4 就在數學效能上擊敗了 GPT-4o。

剛剛,微軟又隆重介紹了 Phi-4 模型家族的兩位新成員:Phi-4-multimodal (多模態模型)和 Phi-4-mini(語言模型)。Phi-4-multimodal 改進了語音識別、翻譯、摘要、音訊理解和影像分析,而 Phi-4-mini 專為速度和效率而設計,兩者都可供智慧手機、PC 和汽車上的開發人員使用。
截圖2025-02-27 09.46.44.png
專案地址:https://huggingface.co/microsoft/phi-4

在技術報告中,微軟對這兩個模型進行了更加詳細的介紹。

  • Phi-4-Multimodal 是一個多模態模型,它將文字、視覺和語音 / 音訊輸入模態整合到一個模型中。它採用新穎的模態擴充套件方法,利用 LoRA 介面卡和特定模態路由器,實現了多種推理模式的無干擾結合。例如,儘管語音 / 音訊模態的 LoRA 元件只有 46 億引數,但它目前在 OpenASR 排行榜上排名第一。Phi-4-Multimodal 支援涉及(視覺 + 語言)、(視覺 + 語音)和(語音 / 音訊)輸入的場景,在各種任務中的表現均優於此前的大型視覺 - 語言模型和語音 - 語言模型。
  • Phi-4-Mini 是一個擁有 38 億引數的語言模型,在高質量的網路和合成資料上進行了訓練,其效能明顯優於近期類似規模的開源模型,並在需要複雜推理的數學和編碼任務上與兩倍於其規模的模型不相上下。這一成就得益於精心設計的合成資料配方,該配方強調高質量的數學和編碼資料集。與上一代產品 Phi-3.5-Mini 相比,Phi-4-Mini 的詞彙量擴大到了 20 萬個,從而能更好地支援多語言應用,同時還採用了分組查詢功能,從而能更高效地生成長序列。

Phi-4-Multimodal 是這家公司的首個多模態語言模型,微軟表示:「Phi-4-multimodal 標誌著我們人工智慧發展的一個新里程碑。

此外,微軟還進一步訓練了 Phi-4-Mini 以增強其推理能力。結果顯示,它與 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B 等規模更大的先進推理系統相媲美。
image.png
接下來,讓我們看看技術細節。

模型架構

兩個模型都使用 tokenizer o200k base tiktoken ,詞彙量為 200,064 個,旨在更高效地支援多語言和多模態輸入和輸出。所有模型都基於僅解碼器的 Transformer,並支援基於 LongRoPE 的 128K 上下文長度。

語言模型架構

Phi-4-mini 由 32 層 Transformer 組成,專為速度和效率而設計,Phi-4-Mini 還有一些特殊的「省記憶體」技巧:

首先是分組查詢注意力機制(GQA),模型在處理長序列時能夠快速地聚焦於關鍵資訊片段。這最佳化了長上下文生成時的 KV 快取。具體來說,模型使用 24 個查詢頭和 8 個 K/V 頭,將 KV 快取消耗減少到標準大小的三分之一。

其次是輸入 / 輸出嵌入繫結技術,實現了資源的最佳化利用,同時與 Phi-3.5 相比提供了更廣泛的 20 萬詞彙覆蓋。

此外,在 RoPE 配置中,使用了分數 RoPE 維度,確保 25% 的注意力頭維度與位置無關。這種設計能讓模型更平滑地處理較長的上下文。

Phi-4-Mini 峰值學習率的計算公式為:

LR*(D) = BD^(-0.32),

其中 B 是超引數,D 是訓練 token 的總數,透過調整 D = 12.5B、25B、37.5B 和 50B 來擬合 B 值。

多模態模型架構

Phi-4-Multimodal 採用了「Mixture of LoRA」技術,透過整合特定模態的 LoRAs 來實現多模態功能,同時完全凍結基礎語言模型。該技術優於現有方法,並在多模態基準上實現了與完全微調模型相當的效能。此外,Phi-4-Multimodal 的設計具有高度可擴充套件性,允許無縫整合新的 LoRA,以支援更多模態,而不會影響現有模態。

該模型的訓練過程由多個階段組成,包括語言訓練(包括預訓練和後訓練),然後將語言骨幹擴充套件到視覺和語音 / 音訊模態。

對於語言模型,研究者使用高質量、推理豐富的文字資料來訓練 Phi-4-Mini。值得注意的是,他們加入了精心策劃的高質量程式碼資料集,以提高編碼任務的效能。

語言模型訓練完成後,研究者凍結了語言模型,並實施「Mixture of LoRA」技術,繼續多模態訓練階段。

具體來說,在訓練特定模態編碼器和投影器的同時,還訓練了兩個額外的 LoRA 模組,以實現與視覺相關的任務(如視覺 - 語言和視覺 - 語音)和與語音 / 音訊相關的任務(如語音 - 語言)。它們都包含預訓練和後訓練階段,分別用於模態對齊和指令微調。
截圖2025-02-27 09.55.24.png
Phi-4-Multimodal 模型架構。

效能評估

Phi-4-multimodal

雖然 Phi-4-multimodal 只有 5.6B 引數,但它將語音、視覺和文字處理無縫整合到一個統一的架構中,所有這些模態都在同一個表徵空間內同時處理。

Phi-4 多模態能夠同時處理視覺和音訊。下表顯示了在圖表 / 表格理解和文件推理任務中,當視覺內容的輸入查詢為合成語音時的模型質量。與其他可以將音訊和視覺訊號作為輸入的現有最先進的全方位模型相比,Phi-4 多模態模型在多個基準測試中取得了更強的效能。
image.png
圖 1:所列基準包括 SAi2D、SChartQA、SDocVQA 和 SInfoVQA。進行對比的模型有:Phi-4-multimodal-instruct、InternOmni-7B、Gemini-2.0-Flash-Lite-prvview-02-05、Gemini-2.0-Flash 和 Gemini1.5-Pro。

Phi-4-multimodal 在語音相關任務中表現出了卓越的能力。它在自動語音識別 (ASR) 和語音翻譯 (ST) 方面都優於 WhisperV3 和 SeamlessM4T-v2-Large 等專業模型。該模型以令人印象深刻的 6.14% 的單詞錯誤率在 Huggingface OpenASR 排行榜上名列前茅,超過了 2025 年 2 月之前的最佳表現 6.5%。此外,它是少數幾個成功實現語音摘要並達到與 GPT-4o 模型相當的效能水平的開放模型之一。該模型在語音問答 (QA) 任務上與 Gemini-2.0-Flash 和 GPT-4o-realtime-preview 等接近的模型存在差距,因為模型尺寸較小導致保留事實 QA 知識的能力較弱。
image.png
圖 2:Phi-4 多模態語音基準。

在下方影片中,Phi-4-multimodal 分析了語音輸入並幫助規劃西雅圖之旅:微軟Phi-4家族新增兩位成員,5.6B多模態單任務超GPT-4o,3.8B小模型媲美千問7B
Phi-4-multimodal 同樣在各種基準測試中都表現出了卓越的視覺能力,最顯著的是在數學和科學推理方面取得了優異的表現。儘管規模較小,但該模型在通用多模態能力(如文件和圖表理解、光學字元識別 (OCR) 和視覺科學推理)方面仍保持著極具競爭性的表現,與 Gemini-2-Flash-lite-preview/Claude-3.5-Sonnet 等相當或超過它們。
image.png
Phi-4-multimodal 展示了強大的推理和邏輯能力,適合分析任務。引數量更小也使得微調或定製更容易且更實惠。下表中展示了 Phi-4-multimodal 的微調場景示例。
圖片
下方影片展示了 Phi-4-multimodal 的推理能力:微軟Phi-4家族新增兩位成員,5.6B多模態單任務超GPT-4o,3.8B小模型媲美千問7B
Phi-4-mini:3.8B,小身材大能量

Phi-4-Mini 和 Phi-4-Multimodal 共享同一個語言模型骨幹網路。Phi-4-mini 雖然體積小巧,但它承襲了 Phi 系列前作的傳統,在推理、數學、程式設計、指令遵循和函式呼叫等任務上超越了更大的模型。
圖片
Phi-4-mini 在各種測試集中和較小模型的成績對比

更重要的是,開發者們可以基於 Phi-4-mini 構建出一個可擴充套件的智慧體系統,它可以借函式呼叫、指令跟隨、長上下文處理以及推理能力來訪問外部知識,從而彌補自身引數量有限的不足。

透過標準化協議,Phi-4-mini 的函式呼叫可以與結構化的程式設計介面無縫整合。當使用者提出請求時,Phi-4-mini 能夠對查詢進行分析,識別並呼叫相關的函式以及合適的引數,接收函式輸出的結果,並將這些結果整合到最終的回應之中。

在設定合適的資料來源、API 和流程之後,Phi-4-mini 可以部署在你家,當你的智慧家居助手,幫你檢視監控有沒有異常。
圖片
基於 Phi-4-mini 的家居智慧體

透過標準化協議,函式呼叫使得模型可以與結構化的程式設計介面無縫整合。當使用者提出請求時,Phi-4-mini 可以對查詢進行分析,識別並呼叫相關的函式以及合適的引數,接收函式輸出的結果,並將這些結果整合到最終的回應之中。這樣一來,就構建了一個可擴充套件的基於智慧體的系統,藉助定義良好的函式介面,模型能夠連線到外部工具、應用程式介面(API)以及資料來源,進而增強自身的能力。下面的例子就模擬了 Phi-4-mini 控制智慧家居的場景。

因為體積較小,Phi-4-mini 和 Phi-4-multimodal 模型可以在計算資源有限的環境中使用,尤其是在用 ONNX Runtime 最佳化後。

訓練資料

Phi-4-mini 效能明顯優於近期類似規模的開源模型,有一個重要原因就是高質量的訓練資料。

相比上一代 Phi-3.5-Mini,研究人員選擇了更嚴格的資料過濾策略,加入了針對性的數學和程式設計訓練資料、特殊清洗過的 Phi-4 合成資料,還透過消融實驗重新調整了資料混合比例,增加推理資料的比例為模型帶來了顯著提升。

具體來說,研究人員從推理模型生成了大量合成的思維鏈(CoT)資料,同時採用基於規則和基於模型的兩種篩選方法來剔除錯誤的生成結果,將正確的取樣答案標記為首選生成,將錯誤的標記為非首選,並建立 DPO 資料。

不過,這些資料僅用於實驗性推理模型,所以正式釋出的 Phi-4-Mini 版本檢查點中沒有這些 CoT 資料。

在後訓練階段,與 Phi-3.5-Mini 相比,Phi-4-Mini 使用了更大規模和更多樣化的函式呼叫和摘要資料。研究人員合成了大量的指令跟隨資料來增強模型的指令跟隨能力。

在程式設計方面,研究人員加入了大量的程式碼補全資料,比如要求模型在現有程式碼片段中間生成缺失程式碼的任務。這挑戰了模型對需求和現有上下文的理解能力,帶來了顯著的效能提升。

Phi-4-Multimodal 模型的預訓練階段涉及豐富多樣的資料集,視覺 - 語言訓練資料包含 0.5T 影像 - 文字文件、OCR 資料、圖表理解等;語音相關的訓練資料涵蓋真實和合成資料,使用內部 ASR 模型轉錄音訊並計算原始文字與轉錄之間的詞錯率(WER)來衡量合成語音的質量。

更多詳情,請訪問原專案地址。

參考連結:
https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family/
https://huggingface.co/microsoft/Phi-4-multimodal-instruct

相關文章