一覺醒來,Mistral AI 又發力了。
就在今天,Mistral AI 多模態家族迎來了第二位成員:一個名為 Pixtral Large 的超大杯基礎模型。
這是一個基於 Mistral Large 2 構建、124B 開放權重的多模態模型,具備頂尖的影像理解能力 —— 能夠看懂文件、圖表和自然影像,同時保持 Mistral Large 2 領先的純文字理解能力。
除了釋出新模型,Mistral AI 還進一步升級了免費聊天機器人 le Chat,增加影像生成、網路搜尋和互動式畫布功能,全面對標 ChatGPT。
所有這些功能,統統以免費測試版的形式開放。
Mistral AI 的每一次更新,都會讓整個 AI 社群興奮起來。有人感嘆:「六個月前,開源模型和閉源模型之間的差距非常大。現在,最先進的人工智慧正在迅速向任何想要使用它的人開放。」Pixtral Large 可根據 Mistral 研究許可證 (MRL) 用於研究和教育用途,同時根據 Mistral 商業許可證用於商業目的的實驗、測試和生產。Pixtral Large 前身是 2024 年夏季釋出的 Mistral Large 2,以及 9 月份釋出的首個多模態模型 Pixtral 12-B。關於將多模態模型擴充套件到 1240 億引數的出發點,Mistral AI CEO 是這麼說的:「我們越來越意識到,要創造最佳的 AI 體驗,需要共同設計模型和產品介面。Pixtral 在訓練時就考慮到了高影響力的前端應用,是一個很好的例子。」Pixtral Large 包括一個 1230 億引數解碼器和一個 10 億引數視覺編碼器,使其在文字和視覺資料處理方面均表現出色。Pixtral Large 上下文視窗為 128K,至少可以處理 30 張高解析度影像或大約一本 300 頁的書,這相當於領先的 OpenAI GPT 系列模型的能力。在效能方面,該模型在包括 MathVista、DocVQA 和 VQAv2 在內的多種基準上展現出了最先進的效能,非常適合圖表解釋、文件分析和影像理解等任務。具體而言,在 MathVista 基準上,Pixtral Large 實現了 69.4% 的準確率,優於所有其他模型。在 ChartQA 和 DocVQA 基準上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。Pixtral Large 在 MM-MT-Bench 上也展示了強有力的競爭力,優於 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。在影像理解方面,Pixtral Large 也表現優異。比如上傳一份賬單,詢問該模型:「我買了咖啡和香腸,外加 18% 的小費。我該付多少錢?」Pixtral Large 會非常有條理地給出總消費金額,先是計算了咖啡和香腸的費用,2 杯拿鐵瑪奇朵、 1 份香腸 ,然後計算 18% 的小費 ,最後給出總金額。Pixtral Large 也能準確理解並分析圖表。比如對於下面的訓練損失曲線圖,問 dark dragon 模型什麼時候開始出現問題。Pixtral Large 分析的也很準確:「在達到 10,000 step 時,訓練損失開始出現不穩定…… 隨後,這種不穩定性持續存在,並在 20,000step 附近出現了另一個大的峰值……」在接下來的示例中,上傳一張圖片,問 Pixtral Large 哪些公司使用 Mistral AI 模型?Pixtral Large 也能根據圖片提供的資訊給出準確的結果,回答過程如下。除了 Pixtral Large,Mistral AI 最先進的文字模型 Mistral Large 也迎來了一次更新。該模型在 API 上以 pixtral-large-latest 的形式提供,在 HuggingFace 上以 Mistral Large 24.11 的形式提供。Mistral Large 24.11 將首先在 Google Cloud 和 Microsoft Azure 上推出,預計一週內即可使用。- 模型和權重下載地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main
- 試用地址:https://chat.mistral.ai/chat
Pixtral Large 的釋出,也讓 le Chat 的能力上升到了一個新的高度。le Chat 現在可以處理大型、複雜的 PDF 文件和影像,比如一篇理論文獻的所有內容 —— 圖形、表格、圖表、文字、公式、方程式。下面的例子展示了愛因斯坦、波多爾西和羅森於 1935 年撰寫的著名量子糾纏論文的資訊提取、總結和語義理解。首先是實時的網路搜尋。這是一項關於生產力的升級,Mistral AI 表示,le Chat 的大部分使用者來自學生和專業人士,而這些使用者非常看重其在學習、研究和工作中的作用。下面是一位營銷類專業人士使用 le Chat 來評估醫療保健人工智慧市場:然後是新的 Canvas 介面。當使用者需要暫時離開對話進行構思時,它會彈出到 le Chat 視窗中,隨後使用者可以和 Mistral LLM 合作完成共享輸出。從此,我們和聊天機器人的互動不再侷限於雙向對話。藉助 LLM 強大的推理能力,Canvas 可以用來建立文件、簡報、程式碼、模型等,亮點在於「就地修改」內容,無需重新生成回覆、版本控制草稿並預覽設計。比如在下方演示中,是一個產品團隊為準備推出 Canvas 而建立產品指標儀表板的反應模型的影片。Mistral AI 與 SD 作者團隊成立的 Black Forest Labs 也達成了合作,因此 le Chat 擁有了高質量的影像生成能力。最後,如果你想馬上體驗到 Mistral AI 最新放送的搜尋、PDF 上傳、編碼、影像生成等所有功能,請訪問:http://chat.mistral.ai/https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/