僅僅一天,Gemini就奪回了GPT-4o拿走的頭名

机器之心發表於2024-11-22
太捲了,大模型迭代開始以「周」為單位了嗎?

一週前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜單的頭把交椅。
圖片
對於苦苦追趕 OpenAI 幾個月的谷歌來說,這次在基準測試上的勝利十分振奮人心。

可惜振奮的時間不長:昨天,GPT-4o 一個更新,把第一名的位置搶回來了。
圖片
奧特曼慶功的話音剛落,Gemini-Exp-1121 殺出來,又把第一名搶走了。
圖片
谷歌工程師還順帶嘲諷了一波:
圖片
位次的變化實在太快,讓人有點恍惚了。難道接下來,大模型迭代要以「周」為單位了嗎?
圖片
狂卷基準測試,真有意義嗎?

有人猜測,莫非這就是谷歌逐漸過渡到 Gemini 2 的釋出方式?但這種可能性不大,因為最近的兩個模型版本都還達不到「次世代」的水準。再加上又有傳言,各家在訓練階段的 Scaling Law 上都遇到了一些瓶頸,提升模型能力的希望更多轉向了後訓練階段。我們最終看到的下一代大模型,或許和目前的技術路線大不相同。
圖片
目前,Gemini-Exp-1114 和 Gemini-Exp-1121 在 Google AI Studio 上均為可用狀態:
圖片
從官方釋出的介紹來看,Gemini-Exp-1114 的亮點主要在於質量改進,而最新的 Gemini-Exp-1121 重點改進了編碼、推理和視覺能力。
圖片
這場爭奪戰的出現,卻引出了另外一個角度的話題:當前的人工智慧基準測試方法可能大大簡化了模型評估。

就比如一週前,當研究人員控制了響應格式和長度等表面因素時,Gemini-Exp-1114 的表現下降到第四位,因為傳統指標可能會誇大感知能力。

這種差異揭示了人工智慧評估中的一個根本問題:模型可以透過最佳化表面特徵而不是展示推理或可靠性的真正改進來獲得高分。對定量基準的關注引發了一場爭奪更高分數的競賽,行業對排行榜的依賴也會催生一些不良激勵方式,而這些都無關於人工智慧的真正進步。

各個廠商針對特定測試場景最佳化模型,同時可能忽略安全性、可靠性和實用性等更廣泛的問題。這種方法產生的 AI 系統擅長完成狹隘的預定任務,但在處理細微的現實世界互動時卻舉步維艱。

比如有人就發現在 LiveBench 上,一週後更新的 Gemini-Exp-1121 版本,在數學和推理能力上反而比不上 Gemini-Exp-1114,令人疑惑。
圖片
廠商之間為獲得更高的基準分數而展開的競爭並不會停止,但真正的競爭可能在於如何開發全新的框架來評估和確保人工智慧系統的安全性和可靠性。

OpenAI 考慮用瀏覽器挑戰谷歌霸主地位

谷歌和 OpenAI 不僅在大模型領域有點針鋒相對,在瀏覽器方面,OpenAI 正在加緊追趕。
圖片
當谷歌 Chrome 瀏覽器深陷反壟斷之際,OpenAI 出手了。

據《Information》週四報導,OpenAI 最近考慮開發一款可與其 ChatGPT 聊天機器人整合的 web 瀏覽器,並推出了 NLWeb(Natural Language Web)搜尋技術,以增強對旅遊、食品、房地產和零售等行業的搜尋。

報導還稱,OpenAI 已與 Conde Nast、Redfin、Eventbrite 和 Priceline 等網站和應用程式開發商討論過這款搜尋產品。

據知情人士透漏,為了達到這一目標,OpenAI 聘請了谷歌 Chrome 團隊創始成員 Ben Goodger 以及其他前 Chrome 關鍵開發人員進行研發,展現了 OpenAI 對開發瀏覽器濃厚的興趣。
圖片
領英資料顯示,此前 Ben Goodger 是 Chrome 團隊的創始成員,今年 6 月加入 OpenAI

這一系列舉措可能會讓 OpenAI 與佔據瀏覽器和搜尋市場最大份額的谷歌展開競爭。此前,OpenAI 已經透過 SearchGPT 進入搜尋市場。

報導還稱,OpenAI 討論了為三星製造的裝置提供人工智慧功能,而三星是谷歌的主要商業合作伙伴。

此前,OpenAI 已經與蘋果建立了合作伙伴關係,Apple Intelligence 功能現已使用 OpenAI 的技術。

不過,目前尚不清楚 OpenAI 何時會推出瀏覽器,《Information》報導稱,OpenAI 距離推出瀏覽器還差得很遠。

如今看來,谷歌不僅面臨來自 OpenAI 的壓力,在美國司法部認為谷歌應該出售其 Chrome 瀏覽器以結束其在線上搜尋領域的壟斷地位後,谷歌在瀏覽器市場的主導地位變得岌岌可危。

如果 OpenAI 成功推出新的瀏覽器,它將成為谷歌最大的競爭對手。

吃瓜網友們也是紛紛看好 OpenAI,表示道「OpenAI 是非常有潛力開發出一款非常棒的瀏覽器的,因為他們現在已經有了搜尋功能。」
圖片
不過也有網友並不看好:「就我個人而言,瀏覽器對我已經沒什麼用了,因為我現在只需向聊天機器人提問,就能立即得到答案,而且無需廣告或嘗試多個頁面。」
圖片
還有人用一個故事表達了自己的觀點:「Nicholas Negroponte 曾經討論過超級計算機的應用,並講述了一個關於他們展示科學計算器應用的故事。所有的投資者都非常生氣 ——『我們花費了數百萬美元,而你們所做的只是重新建立了計算器?我們已經有計算器了!』如果 OpenAI 開發一款瀏覽器,我認為可能會發生同樣的事情。」
圖片
我們暫且不管 OpenAI 何時推出瀏覽器,單就最近幾天這兩家機構在模型更新速度上,就已經相當激烈了,OpenAI 正面剛谷歌還會繼續。

參考連結:
https://www.theinformation.com/articles/openai-considers-taking-on-google-with-browser
https://x.com/btibor91/status/1859716045004734739

相關文章