衝擊DeepSeek R1,谷歌釋出新一代Gemini全型號刷榜,程式設計、物理模擬能力炸裂

机器之心發表於2025-02-06
Jeff Dean:一次生成就能出正確程式碼。

在 DeepSeek 的強烈攻勢下,這次輪到谷歌坐不住了。

本週三,該公司全面釋出 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗艦大模型 Gemini 2.0 Pro 實驗版本,並且還在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。
圖片
下圖為三個模型在通用、程式碼、推理、事實性、多語言、數學、長上下文、影像、音訊和影片等多領域任務中的效能指標。
圖片
在大模型排行榜上,Gemini 2.0-Pro 在 Chatbot Arena 所有類別中排名第一。Pro 版在程式碼等複雜任務上表現突出,Gemini Advanced 使用者目前已經可以在 App 上進行試用了。
圖片
與此同時,排名並列第三的 Gemini-2.0-Flash 已透過 Google AI Studio 和 Vertex AI 向開發人員廣泛開放(價格是 0.1 美元 / M token),Flash-lite 也以更低的成本進入了前十。谷歌還在 Gemini 應用程式中推出了旗下「推理」模型 Gemini 2.0 Flash Thinking。

新版本 Gemini 2.0 可以做到很多以前做不到的事。谷歌首席科學家 Jeff Dean 表示 Gemini 2.0 Pro 模型可以編寫完整的程式碼,包括所有正確的資料結構和搜尋演算法,一次嘗試就可以獲得正確的資料結構。
圖片
更多第三方試用的結果也已陸續出現在社交網路上,可見 Gemini 2.0 的效能提升明顯,可以生成程式碼實現一些模擬物理規律的效果。

提示詞:建立一個自行動的貪吃蛇遊戲,其中 100 條蛇相互競爭。(單次嘗試)
圖片
提示詞:編寫一個指令碼,顯示一個球在旋轉的六邊形內彈跳。球應該受到重力和摩擦力的影響,並且必須逼真地從旋轉的牆壁上彈起,在 p5.js 中實現。(單次嘗試)
圖片
提示詞:編寫一個 p5.js 指令碼,模擬圓柱形容器真空空間中的 25 個粒子,它們在容器邊界內彈跳。為每個球使用不同的顏色,並確保它們留下顯示其運動的軌跡。新增容器的緩慢旋轉,以便更好地檢視場景中發生的事情。確保建立適當的碰撞檢測和物理規則,以確保粒子留在容器中。新增外部球形容器。為整個場景新增緩慢放大和縮小效果。
圖片
種種跡象表明,進入 2025 年之後,全球大模型領域的競爭烈度又上了一個臺階。谷歌正式釋出 Gemini 2 系列的同時,OpenAI 立即作出回應,宣佈將其 AI 搜尋功能面向所有免費使用者開放。
圖片
值得注意的是,有媒體報導稱在谷歌釋出新模型之際,科技界的注意力仍然集中在 DeepSeek 上。DeepSeek 的模型在效能上媲美甚至超越了美國科技公司提供的領先 AI 模型。與此同時,企業可以透過 DeepSeek 的 API 以相對低廉的價格使用其模型。

谷歌和 DeepSeek 都在去年 12 月釋出了 AI 推理模型,但 DeepSeek 的 R1 模型獲得了更多關注。現在,谷歌可能正試圖透過其廣受歡迎的 Gemini app,讓更多人瞭解其 Gemini 2.0 Flash Thinking 模型。

至於 Gemini 2.0 Pro,作為谷歌去年 2 月推出的 Gemini 1.5 Pro 模型的繼任者,谷歌表示它現在是 Gemini AI 模型家族中的領先模型。

在價格方面,谷歌將繼續透過 Gemini 2.0 Flash 和 2.0 Flash-Lite 降低成本。兩者均採用單一輸入型別的定價模式,取消了 Gemini 1.5 Flash 中對短上下文和長上下文請求的區分。這意味著,儘管 2.0 Flash 和 Flash-Lite 在效能上有所提升,但在混合上下文工作負載下,兩者的成本可能低於 Gemini 1.5 Flash。
圖片
谷歌 Gemini 2.0 三大模型:全方位加強

Gemini 2.0 Pro 實驗版本

首次是新一代旗艦 Gemini 2.0 Pro 實驗版本,它是谷歌迄今為止在編碼和複雜指令任務中表現最好的模型。

在 Gemini 2.0 早期實驗版本中(如 Gemini-Exp-1206),開發人員已經發現了這些模型的優勢和最佳用例,比如編碼、複雜指令。

此次,Gemini 2.0 Pro 實驗版本進一步強化了這些功能,具備了最強大的編碼效能和處理複雜指令的能力,並且比谷歌此前釋出的任何模型都具備更好的理解和推理世界知識的能力。

據介紹,該模型支援了谷歌最長的 200 萬 tokens 上下文視窗,可以處理 2 小時影片、22 小時音訊、6 萬+ 行程式碼和 140 萬 + 單詞,從而能夠全面分析和理解海量資訊。同時,該模型還支援呼叫 Google 搜尋和程式碼執行等工具。

目前,Gemini 2.0 Pro 已經作為實驗模型提供給 Google AI Studio 和 Vertex AI 的開發人員使用,並且 Gemini Advanced 使用者在桌面和移動裝置中也可以體驗。
圖片
Gemini 2.0 Flash

其次來看 Gemini 2.0 Flash,它是谷歌 Flash 系列模型的最新「成員」。

在 2024 年穀歌 I/O 大會上,Gemini 2.0 Flash(實驗版本)首次亮相,此後便作為強大的主力模型而深受開發者的喜愛,並最適合大規模處理高容量、高頻率任務,並能夠透過 100 萬 tokens 上下文視窗對海量資訊進行多模態推理。

當前,Gemini 2.0 Flash 已經在谷歌的 AI 產品中向更多人全面開放使用。據介紹,該模型提供了全面的功能,包括原生工具使用。目前支援文字輸出,並即將推出影像生成與文字轉語音功能,未來幾個月還將提供多模態 Live API。

目前,使用者既可以在 Gemini App 中試用該模型,也可以在 Google AI Studio 和 Vertex AI 中使用 Gemini API。

圖片

Gemini 2.0 Flash-Lite

最後是 Gemini 2.0 Flash-Lite,它是谷歌目前為止價效比最高的模型。該模型針對大規模文字輸出用例進行了成本最佳化。
圖片
谷歌表示,他們收到了關於 Gemini 1.5 Flash 在價格和速度方面的積極反饋,並希望在保持成本與速度優勢的同時繼續提升模型質量。因此,Gemini 2.0 Flash-Lite 在效能上更強,在大多數基準測試中均優於 1.5 Flash,並且速度和成本相當。

此外,與 2.0 Flash 一樣,Gemini 2.0 Flash-Lite 支援 100 萬 tokens 上下文視窗和多模態輸入。比如,該模型可以為大約 4 萬張不同的照片生成相關的單行字幕(或標題),在 Google AI Studio 付費套餐中僅花費不到 1 美元。

目前,Gemini 2.0 Flash-Lite 在 Google AI Studio 和 Vertex AI 中提供公開預覽版。

下圖為三個模型的一些引數彙總,可以看出影像和音訊功能即將上線。
圖片
改變遊戲規則?

Gemini 2.0 全面開放後,其領先能力在機器學習社群被熱烈討論。有評論認為,在這代模型推出後包括 OCR 等一些領域的遊戲規則已被改變。
圖片
Gemin 2.0 在處理真實文件時已經可以做到極高的準確率和低成本,實測很少會出現具體數值被誤讀的情況。除了表格解析之外,Gemini 在 PDF 到 Markdown 轉換的所有其他方面可以始終提供近乎完美的準確性。所有特性結合在一起,你將獲得一個極其簡單、可擴充套件且便宜的索引流程。

圖片

我們一直在等的大模型技術革命,已經在很多領域出現了。

參考連結:
https://developers.googleblog.com/en/gemini-2-family-expands/
https://blog.google/technology/google-deepmind/gemini-model-updates-february-2025/
https://techcrunch.com/2025/02/05/google-launches-new-ai-models-and-brings-thinking-to-gemini/
https://news.ycombinator.com/item?id=42952605

相關文章