​Mistral首個多模態模型Pixtral 12B來了!還是直接放出24GB磁力連結

机器之心發表於2024-09-12
訓練完就直接上模型。

我們都知道,Mistral 團隊向來「人狠話不多」。昨天下午,他們又又又丟出了一個不帶任何註解的磁力連結。

圖片

解析一下這個連結,可以看到大小共 23.64 GB,其中包含 4 個檔案,其中最大的檔案是一個封裝的多模態大模型。

圖片

動作快的非官方 Mistral 社群已經將該模型上傳到了 Hugging Face。

  • 磁力連結:magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910
  • Hugging Face 地址:https://huggingface.co/mistral-community/pixtral-12b-240910

這一發布引來如潮好評,有人將其與近日經常出現在話題熱榜中的 Reflection 模型做了對比,更是盡顯 Mistral 團隊踏實做事的風格:

圖片

Pixtral 12B 的規格和效能

該模型的名字為 pixtral-12b-240910,從名字也能看出,該模型的引數量為 12B。

其中 params.jsom 列出了該模型的相關引數:

圖片

可以看到,該模型有一個視覺編碼器,其支援 1024×1024 大小的影像,有 24 個隱藏層,支援高階影像處理。

該模型的層數為 40、隱藏維度大小為 14,336,注意力頭有 32 個。

此外,Pixtral 12B 的詞彙庫有 131,072 個不同的 token,可以說相當龐大,因此能實現非常細膩的語言理解和生成。

從這些引數和配置也能看出,Pixtral 12B 至少有能力處理文字和影像資料,實現多模態處理。

Pixtral 12B 的釋出廣受好評,這是因為人們一直在期待開放模型社群也能獲得好用易用的多模態模型。Mistral 這條磁力連結將我們向這個方向推進了一步。

不過由於該模型才剛釋出,其效果究竟如何還尚未可知,但好在我們也不是完全沒有線索。就在昨天,Mistral 低調地舉辦了一場峰會 Mistral AI Summit,演講者包括 Mistral CEO Arthur Mensch 以及英偉達 CEO 黃仁勳等。

幾位參與者在社交網路上分享了一些現場照片,讓我們可以一窺 Pixtral 模型的效能。

圖片

在這張幻燈片中,我們可以看到 Pixtral 12B 支援任意大小的影像和 128k 的上下文視窗。另外,該模型也能處理同時包含文字和影像的大型文件。

具體效能指標上,Pixtral 12B 的表現雖不及 GPT-4o 和 Claude-3.5 Sonnet,但在各基準上全面勝過了 Claude-3 Haiku 和 Gemini-1.5 8B。

圖片

而在幾個開放多模態模型中,Pixtral 在大多數基準上都表現最佳,僅在 DocVQA 上略低於 Qwen2 7B。

圖片

Mistral 展示了 Pixtral 的一些具體應用案例。

透過 OCR 將包含數學公式的科學文章圖片轉錄成 Markdown 格式?毫無壓力!

圖片

識別潦草的手寫內容,也不在話下。

圖片

提取圖片資訊和描述影像內容?這已經算是多模態模型的基本能力,那就更無問題了。

圖片

圖片

不僅如此,Pixtral 還能理解更加複雜的影像,並從中提取出關鍵資訊和見解:

圖片

Pixtral 也具備非常出色的解釋和推理能力。具體指標上,Pixtral 12B 在 MMMU 和 MathVista 上的多模態知識和推理效能均領先其它參與對比的模型(主要是開放模型,並沒有 GPT-4o 和 Claude-3.5 Sonnet)。多模態問答效能也表現卓越,處於領先位置。

圖片

多模態指令遵從以及文字理解能力都表現不錯,在某些指標上僅略遜於 Claude-2 Haiku。

圖片

比如它能根據 DNA 影像分析出該影像是在解釋 DNA 的結構(相信這個能力很適合用於學習新知識):

圖片

也能基於手繪的潦草網頁設計草稿推理生成 HTML 程式碼:

圖片

拍一拍考試卷讓其解答數學選擇題,也輕輕鬆鬆就能完成:

圖片

至於 Pixtral 是否支援影片,Mistral 在問答環節分享說他們還未測試過影片幀,但已經嘗試過 PFF(點特徵融合),並且他們表示 Pixtral「128k 的上下文應該能處理影片」。此外,Pixtral 也能泛化用於衛星影像。

至於如何使用 Pixtral 12B,如果你的硬體效能足夠,當然可以自己部署;但 Mistral 的開發者關係負責人 Sophia Yang 也表示,未來會透過 Mistral 的 Le Chat 和 La Platforme 提供該模型。

圖片

Mistral 的願景:讓 AI 好用且有用

根據網友們分享的訊息,在 Mistral AI Summit 上,該公司分享了他們的願景。

他們認為,要讓 AI 有用,最關鍵的其實是系統問題。

圖片

但對不懂相關技術的普通使用者來說,這個系統顯得非常複雜。Mistral 想做的就是簡化使用者的使用流程,降低使用者的使用成本。他們想把複雜的技術部分都整合進 La Platforme,讓使用者只需進行簡單的配置就能享受 AI 帶來的便利和效率。

圖片

此外,為了讓 AI 有能力解決複雜問題,將使用者互動用於 AI 模型的持續訓練是很有必要的。同時還需要持續地將新軟體整合進 AI 的工具箱,提升其能力。

目前,Mistral 的模型矩陣中已經包含了用於通用任務和科研任務的多種免費模型。

圖片

另外,該公司還為程式設計任務開發了 Codestral 模型,支援 80 多種程式語言並且效能優秀。不過需要指出,雖然 Mistral 允許研究者基於研究和測試目的免費使用 Codestral,但若想將其投入商業應用,則需要向其購買商用許可權 —— 這也算是該公司為數不多的盈利專案之一。

圖片

今年 6 月份,Mistral 以 60 億美元的估值獲得了 6.4 億美元投資,之後不久便釋出了該公司的旗艦模型 Mistral Large 2。

Mistral Large 2 的引數量為 123B,支援多語言和函式呼叫,具備強大的推理和程式碼能力,整體效能雖不及當前最佳的 GPT-4o 和 Claude-3.5 Sonnet,但卻超過了 405B 引數的 Llama 3.1。同樣,Mistral Large 2 也免費開放給非商業用途。

圖片

Mistral 團隊絕對算是 AI 模型開發領域的一股清流。在 AI 領域普遍關注營銷宣傳的如今,Mistral 的 Twitter 雖有 10 萬關注者卻並未關注任何一個人,其僅有的 10 條推文也幾乎都是在釋出新模型,其 CEO Arthur Mensch 的個人賬戶也毫不活躍。

Mistral AI 成立於 2023 年 5 月,是一家法國人工智慧初創公司,也是為數不多來自歐洲的大模型開源領域的明星團隊。一個有趣的小知識是因為該公司來自法國,所以 Le Chat 的意思其實就是「貓」,這也是其 Logo 之所以像一隻貓的原因。

圖片

Mistral AI 曾在 2023 年 6 月獲得了創紀錄的 1.18 億美元種子輪融資(據稱是歐洲歷史上最大的種子輪融資)。當然,這個紀錄在前些天已經被 Ilya Sutskever 創立的 Safe Superintelligence Inc. 打破。

參考連結:

https://x.com/MistralAI/status/1833758285167722836

https://x.com/swyx/status/1833926630861070359

相關文章