32K上下文，Mistral 7B v0.2 基模型突然開源了

机器之心發表於2024-03-25

原文網址 : https://www.jiqizhixin.com/articles/2024-03-25-8

模型

剛剛，Mistral AI 的模型又更新了。

這次開源一如既往地「突然」，是在一個叫做 Cerebral Valley 的駭客松活動上公佈的。

PPT 一翻頁，全場都舉起了手機拍照：

這次開源的 Mistral 7B v0.2 Base Model ，是 Mistral-7B-Instruct-v0.2 背後的原始預訓練模型，後者屬於該公司的「Mistral Tiny」系列。

此次更新主要包括三個方面：

將 8K 上下文提到了 32K；
Rope Theta = 1e6；
取消滑動視窗。

下載連結：https://models.mistralcdn.com/mistral-7b-v0-2/mistral-7B-v0.2.tar

更新之後的效能對比是這樣的：

場外觀眾迅速跟進。有人評價說：「Mistral 7B 已經是同尺寸級別中最好的模型，這次改進是一個巨大的進步。我將盡快在這個模型上重新訓練當前的許多微調。」

Mistral AI 的第一個 7B 模型釋出於 2023 年 9 月，在多個基準測試中實現了優於 Llama 2 13B 的好成績，讓 Mistral AI 一下子就打出了知名度。

這也導致目前很多開源大模型都已不再對標 Llama 2，而是將 Mistral AI 旗下的各系列模型作為直接競爭對手。

而 Mistral 7B v0.2 Base Model 對應的指令調優版本 Mistral-7B-Instruct-v0.2 在 2023 年 12 月就已開放測試，據官方部落格介紹，該模型僅適用於英語，在 MT-Bench 上能夠獲得 7.6 分的成績，遜於 GPT-3.5。

此次開放基礎模型之後，開發者們就可以根據自己的需求對這個「當前最好的 7B 模型」進行微調了。

不過，7B 模型只能算是 Mistral AI 眾多驚豔成果中的一項。這家公司的長遠目標是對標 OpenAI。

上個月底，Mistral AI 正式釋出了「旗艦級」大模型 Mistral Large。與此前的一系列模型不同，這一版本效能更強，體量更大，直接對標 OpenAI 的 GPT-4。隨著 Mistral Large 上線，Mistral AI 推出了名為 Le Chat 的聊天助手，也實現了對標 ChatGPT。

而新模型的釋出，也伴隨著公司大方向的一次轉型。人們發現， Mistral Large 並不是一個開源大模型 —— 有跑分、 API 和應用，就是不像往常一樣有 GitHub 或是下載連結。

與 Mistral Large 釋出同時發生的，是 Mistral AI 與微軟達成了長期合作的協議，不僅會將 Mistral Large 引入 Azure，還收穫了微軟 1600 萬美元的投資。

Mistral AI 對路透社表示，作為交易的一部分，微軟將持有該公司少數股權，但未透露細節。未來，二者的合作主要集中在三個核心領域：

超算基礎設施：微軟將透過 Azure AI 超級計算基礎設施支援 Mistral AI ，為 Mistral AI 旗艦模型的 AI 訓練和推理工作負載提供一流的效能和規模；
市場推廣：微軟和 Mistral AI 將透過 Azure AI Studio 和 Azure 機器學習模型目錄中的模型即服務（MaaS）向客戶提供 Mistral AI 的高階模型。除 OpenAI 模型外，模型目錄還提供了多種開源和商業模型。
人工智慧研發：微軟和 Mistral AI 將探索為特定客戶訓練特定目的模型的合作。

當被問及公司是否正在改變其開源商業模式時，Mistral AI 聯合創始人 Arthur Mensch 在採訪中表示：「我們從開源模式開始，任何人都可以免費部署，因為這是廣泛分發它們並創造需求的一種方式。但從一開始，我們就提供了一種具有最佳化模型的商業模式，這讓使該公司能夠為模型開發所需的昂貴研究提供資金。」

^{參考連結：https://twitter.com/MistralAILabs/status/1771670765521281370}

小模型捲起來了：Mistral聯合英偉達開源12B小模型，128k上下文
2024-07-19
模型
Meta無限長文字大模型來了：引數僅7B，已開源
2024-04-17
大模型
Docker下使用llama.cpp部署帶Function calling和Json Mode功能的Mistral 7B模型
2024-08-27
DockerFunctionJSON模型
權重、程式碼、資料集全開源，效能超越Mistral-7B，蘋果小模型來了
2024-07-22
蘋果模型
Mistral AI兩連發：7B數學推理專用、Mamba2架構程式碼大模型
2024-07-17
AI架構大模型
北航推出TinyLLaVA-Video，有限計算資源優於部分7B模型，程式碼、模型、訓練資料全開源
2025-02-10
IDE模型
Mistral AI新模型對標GPT-4，不開源且與微軟合作，網友：忘了初心
2024-02-27
AI模型GPT微軟
[資源]基於 Pytorch 的 TorchGAN開源了！
2018-12-30
PyTorch
Mistral開源8X22B大模型，OpenAI更新GPT-4 Turbo視覺，都在欺負谷歌
2024-04-10
大模型OpenAIGPT視覺谷歌
第一個100%開源的MoE大模型，7B的引數，1B的推理成本
2024-09-05
大模型
mac10.15 突然 vscode打不開了？
2024-07-09
MacVSCode
7B超越百億級，北大開源aiXcoder-7B最強程式碼大模型，企業部署最佳選擇
2024-04-10
AIXCode大模型
基於laravel的流程引擎偷偷開源了
2020-08-27
Laravel
Facebook開源模型可解釋庫Captum，這次改模型有依據了
2019-10-15
模型APT
基於香橙派AIpro將開源框架模型轉換為昇騰模型
2024-04-12
AI框架模型
開源了！唱吧 UI 元件庫開源了！
2021-12-31
UI元件
發力了，Mistral對標ChatGPT全面升級le Chat，還祭出超大杯多模態模型
2024-11-19
ChatGPT模型
首個基於Mamba的MLLM來了！模型權重、訓練程式碼等已全部開源
2024-04-22
模型
Moment:又一個開源的時間序列基礎模型
2024-03-21
模型
開源資料庫Greenplu突然閉源？GaussDB(DWS)提供數倉新可能
2024-07-08
資料庫
TiFlash 開源了
2022-04-01
浪潮資訊釋出源2.0基礎大模型，千億引數全面開源
2023-11-27
大模型
阿里雲通義開源最強過程獎勵PRM模型，7B尺寸比GPT-4o更能發現推理錯誤
2025-01-16
阿里模型GPT
開源醫療大模型排行榜: 健康領域大模型基準測試
2024-04-30
大模型
開源OCR模型對比
2024-04-16
模型
大模型開源專案
2024-11-24
大模型
開源視覺大模型
2024-09-13
視覺大模型
Mistral首個多模態模型Pixtral 12B來了！還是直接放出24GB磁力連結
2024-09-12
模型
dubbogo v0.2 release
2018-05-18
Go
開源！上海AI Lab影片生成大模型書生·築夢 2.0來了
2024-09-23
AI大模型
開源大模型王座再易主，1320億引數DBRX上線，基礎、微調模型都有
2024-03-28
大模型
突然沒有力氣寫程式碼了
2020-05-28
GearCase UI v0.2 版本
2018-12-29
UI
國內最大MoE開源大模型來了，還基於此搞出個火遍港臺的AI聊天應用
2024-09-13
大模型AI
Falcon Mamba: 首個高效的無注意力機制 7B 模型
2024-09-05
模型
Mistral AI釋出新版人工智慧：Mistral 8x22B
2024-04-11
AI人工智慧
又一屆「AI春晚」拉開序幕！智源大模型集體爆發了
2024-06-16
AI大模型
人工智慧大模型之開源大語言模型彙總（國內外開源專案模型彙總）
2024-06-21
人工智慧大模型

32K上下文，Mistral 7B v0.2 基模型突然開源了

相關文章