就在國內各家大模型廠商趁年底瘋狂卷的時候,太平洋的另一端也沒閒著。
就在今天,谷歌釋出了 Gemini 2.0 Flash Thinking 推理模型的加強版,並再次登頂 Chatbot Arena 排行榜。
谷歌 AI 掌門人 Jeff Dean 親發賀信:「我們在此實驗性更新中引入了 1M 長的上下文,以便對長篇文字(如多篇研究論文或大量資料集)進行更深入的分析。經過不斷迭代,提高可靠性,減少模型思想和最終答案之間的矛盾。」試用連結:https://aistudio.google.com/prompts/new_chat讓我們回憶一下:2024 年 12 月 20 日,橫空出世的 Gemini 2.0 Flash Thinking,曾讓 OpenAI 的十二連發黯然失色。Gemini 2.0 Flash Thinking 基於 Gemini 2.0 Flash,只是其經過專門訓練,可使用思維(thoughts)來增強其推理能力。釋出之初,這款大模型就登頂了 Chatbot Arena 排行榜。在技術上,Gemini 2.0 Flash Thinking 主要有兩點突破:可處理高達 1M token 的長上下文理解;能在多輪對話和推理中自我糾錯。Gemini 2.0 Flash Thinking 的一大亮點是會明確展示其思考過程。比如在 Jeff Dean 當時展示的一個 demo 中,模型解答了一個物理問題並解釋了自己的推理過程,整個過程耗時 1 分多鐘。而另外一位研究者表示,Gemini-2.0-Flash-Thinking-Exp-01-21 這款最新模型的實際體驗比 Jeff Dean 描述的還要快。再看 Gemini 2.0 Flash Thinking 的成績,那也是相當亮眼,和前兩代 Gemini 1.5 Pro 002、Gemini 2.0 Flash EXP 相比,Gemini 2.0 Flash Thinking 在 AIME2024(數學能力測試)、GPQA Diamond(科學能力測試)和 MMMU(多模態推理能力)進步迅速,特別是數學成績,提升了 54%。從折線圖來看,即使是比較物件是一個月前的自己,也取得了顯著的提升。與此同時,在 AGI House 舉辦的活動中,Jeff Dean 和研究科學家 Mostafa Dehghani 透露了更多 Gemini 2.0 Flash Thinking 和 Gemini 2.0 的細節。進入 Gemini 2.0 Flash Thinking 的互動介面,可以發現谷歌把 Gemini 系列所有模型都放在了這個稱為「Google AI Studio」的介面。從左側的選單來看,我們可以在這裡一站式地獲得 API 金鑰、建立提示詞、訪問實時對話、開發 APP。平臺還提供了模型調優、資源庫管理、Drive 訪問整合等進階功能,並配備了提示詞庫、API 文件、開發者論壇等支援資源。但這個介面上的功能就像「集市」一樣分散,藏得比較深的功能入口似乎並不使用者友好,也缺乏介紹模型能力的文件。Jeff Dean 對此表示,當模型不再是實驗版而是正式釋出時,谷歌將提供完整的技術報告,他們現在的主要目標是讓使用者試用,再根據更多反饋改善。 Gemini 2.0 Flash Thinking 的互動介面此外,谷歌的開發理念更偏向「全面均衡」。「我們不希望模型在某些領域特別突出,而其他領域表現欠佳 —— 比如在讀 X 射線時表現出色,但解讀核磁共振時卻很糟糕。」Jeff Dean 補充道:「我們的目標是打造一個真正有實力的通用模型,能夠完成使用者期待的各類任務。這需要持續改進:我們會收集使用者反饋,瞭解模型在哪些方面做得好,哪些方面做得不夠好。然後,獲取更多人們關心的資料來提升,確保模型在各個方向都有進步,而不是侷限在某個小範圍內 —— 雖然在數學等特定領域,有時也會進行專門最佳化。」Gemini 2.0 Flash Thinking 主推的亮點是超長的上下文視窗。不過,眾所周知,很多具備長上下文視窗能力的 AI 模型都有個通病:聊著聊著就「變傻」了,說的話前言不搭後語,或者就直接「擺爛」,跳過上下文中的大段資訊。Jeff Dean 表示,Gemini 2.0 Flash Thinking 真正能做到在對話過程中保持連貫的思維,並靈活運用之前積累的資訊來完成當前的任務。因相比混合在一起的數千億訓練資料,上下文視窗的資訊對於模型來說非常清晰,因此,上下文視窗的資訊對於 Gemini 2.0 Flash Thinking 來說,就像你讓把一張普通轎車的圖片改成敞篷車一樣,模型能準確理解每個畫素,然後一步步完成修改。而從下面這個 demo 來看,Gemini 2.0 理解多模態的能力已經躍升了一個臺階。它可以根據語音提示,實時改變這三個小圓的排布,排成一行放在介面頂部,或者排列成一個雪人。更誇張的是,Gemini 2.0 對語音、視覺和動作的融會貫通已經達到了你說想要紫色的圓,它知道要把紅色和藍色的圓重疊在一起調色的境地。想要如此精準地理解網頁介面的佈局和內容,需要強大的邊框識別能力。Jeff Dean 揭秘,這來自 Project Mariner。Project Mariner 是一個研究性的實驗專案,旨在探索人類將如何與 AI 智慧體互動,第一步就是讓 AI 理解並操作網頁瀏覽器。Project Mariner 的能力類似於 Claude 的「computer use」,可以實時訪問使用者的螢幕,理解瀏覽器中影像的含義。傳送門:https://deepmind.google/technologies/project-mariner/當被問及 Gemini 系列模型是否要向更多模態進發時,Jeff Dean 的回答是:目前谷歌正在瞄準 3D 資料,而且已經有了很好的結果。看來谷歌還攢了不少存貨,下一個突破會在哪個領域?讓我們拭目以待。https://x.com/rohanpaul_ai/status/1881858428399722948https://x.com/demishassabis/status/1881844417746632910https://deepmind.google/technologies/gemini/flash-thinking/https://x.com/agihouse_org/status/1881506816393380041