32K上下文,Mistral 7B v0.2 基模型突然開源了

机器之心發表於2024-03-25

剛剛,Mistral AI 的模型又更新了。

這次開源一如既往地「突然」,是在一個叫做 Cerebral Valley 的駭客松活動上公佈的。

圖片

PPT 一翻頁,全場都舉起了手機拍照:

圖片

這次開源的 Mistral 7B v0.2 Base Model ,是 Mistral-7B-Instruct-v0.2 背後的原始預訓練模型,後者屬於該公司的「Mistral Tiny」系列。

此次更新主要包括三個方面:

  • 將 8K 上下文提到了 32K;

  • Rope Theta = 1e6;

  • 取消滑動視窗。

圖片

下載連結:https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar

更新之後的效能對比是這樣的:

圖片

場外觀眾迅速跟進。有人評價說:「Mistral 7B 已經是同尺寸級別中最好的模型,這次改進是一個巨大的進步。 我將盡快在這個模型上重新訓練當前的許多微調。」

圖片

Mistral AI 的第一個 7B 模型釋出於 2023 年 9 月,在多個基準測試中實現了優於 Llama 2 13B 的好成績,讓 Mistral AI 一下子就打出了知名度。

圖片

這也導致目前很多開源大模型都已不再對標 Llama 2,而是將 Mistral AI 旗下的各系列模型作為直接競爭對手。

而 Mistral 7B v0.2 Base Model 對應的指令調優版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已開放測試,據官方部落格介紹,該模型僅適用於英語,在 MT-Bench 上能夠獲得 7.6 分的成績,遜於 GPT-3.5。

圖片

此次開放基礎模型之後,開發者們就可以根據自己的需求對這個「當前最好的 7B 模型」進行微調了。

不過,7B 模型只能算是 Mistral AI 眾多驚豔成果中的一項。這家公司的長遠目標是對標 OpenAI。

上個月底,Mistral AI 正式釋出了「旗艦級」大模型 Mistral Large。與此前的一系列模型不同,這一版本效能更強,體量更大,直接對標 OpenAI 的 GPT-4。隨著 Mistral Large 上線,Mistral AI 推出了名為 Le Chat 的聊天助手,也實現了對標 ChatGPT。

而新模型的釋出,也伴隨著公司大方向的一次轉型。人們發現, Mistral Large 並不是一個開源大模型 —— 有跑分、 API 和應用,就是不像往常一樣有 GitHub 或是下載連結。

圖片

與 Mistral Large 釋出同時發生的,是 Mistral AI 與微軟達成了長期合作的協議,不僅會將 Mistral Large 引入 Azure,還收穫了微軟 1600 萬美元的投資。

Mistral AI 對路透社表示,作為交易的一部分,微軟將持有該公司少數股權,但未透露細節。未來,二者的合作主要集中在三個核心領域:

  • 超算基礎設施:微軟將透過 Azure AI 超級計算基礎設施支援 Mistral AI ,為 Mistral AI 旗艦模型的 AI 訓練和推理工作負載提供一流的效能和規模;

  • 市場推廣:微軟和 Mistral AI 將透過 Azure AI Studio 和 Azure 機器學習模型目錄中的模型即服務(MaaS)向客戶提供 Mistral AI 的高階模型。除 OpenAI 模型外,模型目錄還提供了多種開源和商業模型。

  • 人工智慧研發:微軟和 Mistral AI 將探索為特定客戶訓練特定目的模型的合作。

當被問及公司是否正在改變其開源商業模式時,Mistral AI 聯合創始人 Arthur Mensch 在採訪中表示:「我們從開源模式開始,任何人都可以免費部署,因為這是廣泛分發它們並創造需求的一種方式。但從一開始,我們就提供了一種具有最佳化模型的商業模式,這讓使該公司能夠為模型開發所需的昂貴研究提供資金。」

參考連結:https://twitter.com/MistralAILabs/status/1771670765521281370

相關文章