發力了,Mistral對標ChatGPT全面升級le Chat,還祭出超大杯多模態模型

机器之心發表於2024-11-19

一覺醒來,Mistral AI 又發力了。

就在今天,Mistral AI 多模態家族迎來了第二位成員:一個名為 Pixtral Large 的超大杯基礎模型。

這是一個基於 Mistral Large 2 構建、124B 開放權重的多模態模型,具備頂尖的影像理解能力 —— 能夠看懂文件、圖表和自然影像,同時保持 Mistral Large 2 領先的純文字理解能力。

除了釋出新模型,Mistral AI 還進一步升級了免費聊天機器人 le Chat,增加影像生成、網路搜尋和互動式畫布功能,全面對標 ChatGPT。

所有這些功能,統統以免費測試版的形式開放。

圖片
Mistral AI 的每一次更新,都會讓整個 AI 社群興奮起來。

有人感嘆:「六個月前,開源模型和閉源模型之間的差距非常大。現在,最先進的人工智慧正在迅速向任何想要使用它的人開放。」
圖片
到底有多強?

接下來,讓我們看看釋出細節吧。

開源多模態大模型 Pixtral Large

Pixtral Large 可根據 Mistral 研究許可證 (MRL) 用於研究和教育用途,同時根據 Mistral 商業許可證用於商業目的的實驗、測試和生產。

Pixtral Large 前身是 2024 年夏季釋出的 Mistral Large 2,以及 9 月份釋出的首個多模態模型 Pixtral 12-B。關於將多模態模型擴充套件到 1240 億引數的出發點,Mistral AI CEO 是這麼說的:「我們越來越意識到,要創造最佳的 AI 體驗,需要共同設計模型和產品介面。Pixtral 在訓練時就考慮到了高影響力的前端應用,是一個很好的例子。」

Pixtral Large 包括一個 1230 億引數解碼器和一個 10 億引數視覺編碼器,使其在文字和視覺資料處理方面均表現出色。

Pixtral Large 上下文視窗為 128K,至少可以處理 30 張高解析度影像或大約一本 300 頁的書,這相當於領先的 OpenAI GPT 系列模型的能力。

在效能方面,該模型在包括 MathVista、DocVQA 和 VQAv2 在內的多種基準上展現出了最先進的效能,非常適合圖表解釋、文件分析和影像理解等任務。
圖片
具體而言,在 MathVista 基準上,Pixtral Large 實現了 69.4% 的準確率,優於所有其他模型。在 ChartQA 和 DocVQA 基準上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 在 MM-MT-Bench 上也展示了強有力的競爭力,優於 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。
圖片
在影像理解方面,Pixtral Large 也表現優異。比如上傳一份賬單,詢問該模型:「我買了咖啡和香腸,外加 18% 的小費。我該付多少錢?」
圖片
Pixtral Large 會非常有條理地給出總消費金額,先是計算了咖啡和香腸的費用,2 杯拿鐵瑪奇朵、 1 份香腸 ,然後計算 18% 的小費 ,最後給出總金額。
圖片
Pixtral Large 也能準確理解並分析圖表。比如對於下面的訓練損失曲線圖,問 dark dragon 模型什麼時候開始出現問題。

Pixtral Large 分析的也很準確:「在達到 10,000 step 時,訓練損失開始出現不穩定…… 隨後,這種不穩定性持續存在,並在 20,000step 附近出現了另一個大的峰值……」
圖片
在接下來的示例中,上傳一張圖片,問 Pixtral Large 哪些公司使用 Mistral AI 模型?
圖片
Pixtral Large 也能根據圖片提供的資訊給出準確的結果,回答過程如下。
圖片
除了 Pixtral Large,Mistral AI 最先進的文字模型 Mistral Large 也迎來了一次更新。該模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。

Mistral Large 24.11 將首先在 Google Cloud 和 Microsoft Azure 上推出,預計一週內即可使用。

  • 模型和權重下載地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
  • 試用地址:https://chat.mistral.ai/chat

對標 ChatGPT 大升級
le Chat 已經強得可怕

Pixtral Large 的釋出,也讓 le Chat 的能力上升到了一個新的高度。

le Chat 現在可以處理大型、複雜的 PDF 文件和影像,比如一篇理論文獻的所有內容 —— 圖形、表格、圖表、文字、公式、方程式。

下面的例子展示了愛因斯坦、波多爾西和羅森於 1935 年撰寫的著名量子糾纏論文的資訊提取、總結和語義理解。發力了,Mistral對標ChatGPT全面升級le Chat,還祭出超大杯多模態模型
此外還有兩項新能力登陸 le Chat:

首先是實時的網路搜尋。這是一項關於生產力的升級,Mistral AI 表示,le Chat 的大部分使用者來自學生和專業人士,而這些使用者非常看重其在學習、研究和工作中的作用。

下面是一位營銷類專業人士使用 le Chat 來評估醫療保健人工智慧市場:發力了,Mistral對標ChatGPT全面升級le Chat,還祭出超大杯多模態模型
然後是新的 Canvas 介面。當使用者需要暫時離開對話進行構思時,它會彈出到 le Chat 視窗中,隨後使用者可以和 Mistral LLM 合作完成共享輸出。

從此,我們和聊天機器人的互動不再侷限於雙向對話。藉助 LLM 強大的推理能力,Canvas 可以用來建立文件、簡報、程式碼、模型等,亮點在於「就地修改」內容,無需重新生成回覆、版本控制草稿並預覽設計。

比如在下方演示中,是一個產品團隊為準備推出 Canvas 而建立產品指標儀表板的反應模型的影片。發力了,Mistral對標ChatGPT全面升級le Chat,還祭出超大杯多模態模型
Mistral AI 與 SD 作者團隊成立的 Black Forest Labs 也達成了合作,因此 le Chat 擁有了高質量的影像生成能力。

最後,如果你想馬上體驗到 Mistral AI 最新放送的搜尋、PDF 上傳、編碼、影像生成等所有功能,請訪問:http://chat.mistral.ai/

參考連結:
https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/

相關文章