新火種AI|谷歌深夜釋出復仇神器Gemini,原生多模態碾壓GPT-4?
作者:一號
GPT-4最強的對手出現了。
北京時間12月7日凌晨,谷歌CEO“劈柴”突然釋出重磅AI殺手鐧—— Gemini。就在前幾天,還有訊息說Gemini要推遲一個月才上線,結果現在這麼突然地釋出,著實讓AI圈料不到。以谷歌以往的實力,不用想,這又是AI界的一個“不眠之夜”。
在去年ChatGPT釋出不到兩週,谷歌就拉響了「警報」來應戰,好不容易搞出來的Bard,在SHOU次亮相的時候卻出現了失誤,讓谷歌市值一夜蒸發了1000億美元。
而且,GPT(Generative Pre-training Transformer)還是基於Transformer開發的,而這個Transformer模型最早還是谷歌提出來,要想谷歌心甘情願地服輸,可不是那麼容易。
果然,這一年的時間裡,關於Gemini的訊息就層出不窮,有的說谷歌大腦和DeepMind部門合併,幾乎耗盡谷歌內部算力資源,就是為了背水一戰,和OpenAI決戰。
不過前段時間,OpenAI的釋出會把AI界炸了一圈,還上演了一出“宮鬥劇”,甚至還傳出讓人浮想聯翩的Q*,谷歌都沒一點新訊息,差點就讓人以為AI圈的WANG者已定。
就在一個月之前,英偉達科學家Jim Fan就曾說過,“ 人們對谷歌Gemini的期望高得離譜!谷歌要想重奪當年AlphaGo的輝煌,Gemini不僅要100%達到GPT-4的能力,還要在成本或者速度上比GPT-4更好。”
生來就是全才
還好,從Gemini公佈的演示影片來看,它沒讓人失望。
“Gemini,從第一天起就是多模態大模型——跨越文字、影像、影片、音訊和程式碼的無縫推理。”這是谷歌官網上,介紹Gemini的第一句話。
與ChatGPT透過升級迭代,逐步加上視覺、音訊等多模態能力,形成“合體金剛”的路徑不同,Gemini生來就是一位全才。它從第一天起就被設計成原生多模態結構,文字、影像、音影片能力從最開始就一起訓練,從這一點上來看,Gemini的學習更像人類。這就意味著,Gemini可以無縫調動多模態能力,抽象和理解、操作和組合不同型別的資訊。
舉個例子,如果你同時上傳一張圖片給ChatGPT和Gemini,那麼ChatGPT的處理將會是這樣的,先借助GPT-4V認出來圖裡是什麼,然後轉成文字交給GPT去進行語義理解,然後再作回答;而Gemini則可以基於影像直接進行理解並回應,不用進行不同模型之間的調動。因此,在實操過程中,Gemini可以減少資訊的丟失,回應也可以更加迅速和絲滑。
這從谷歌給到的演示影片中便可以看出:
演示者一邊畫畫,Gemini就可以一邊辨認,並且用自然、流利的語音和演示者對話,在演示者拿出藍色的玩具鴨實物後,它還會幽默的回應:“看起來藍色的鴨子比我想象中更常見。”
很顯然,這樣的體驗更接近漫威中的“賈維斯”——一個GAO級人工智慧,能與人類自如地進行互動。
而這樣的體驗,離不開Gemini的 原生多模態架構。
Gemini VS GPT-4
除了擁有令人驚歎的原生多模態能力, 在效能上,Gemini也是相當強悍。
按照尺寸的不同,Gemini共有“中杯”、“大杯”還有“超大杯”三種,即Ultra、Pro和Nano三個不同的版本。它們在效能和適配任務上的側重點各有不同。
·Gemini Ultra —規模最大且功能最強大的模型,適用於高度複雜的任務,預計2024年初推出。
·Gemini Pro — 適用於各種任務的模型,已經被用在了谷歌聊天機器人Bard的升級版上。
·Gemini Nano — 可以在端端側裝置上執行的高效模型,已經可以跑在谷歌Pixel 8 Pro手機上了。
根據谷歌給到的資料,從自然影像、音訊和影片理解,再到數學推理,Gemini Ultra的效能在32個常見的大語言模型(LLM)研究和開發的學術基準測試中, 拿下了30個SOTA。
其中,它在通用、推理、數學和程式設計等大方向的成績如下:
更讓人驚奇的是,在MMLU(大規模多工語言理解)任務上,Gemini Ultra的得分達到了90.0%,超越了人類專家89.8%的成績, 達到了超越人類專家水平。
MMLU測試包括數學、物理、歷史、法律、醫學等57個學科,主要是用來考察大語言模型世界知識和解決問題的能力,而在這些學科中的每一個,Gemini都達到了甚至超過了行業專家的水準。
在影像基準測試中,Gemini Ultra在不使用OCR(物件字元識別)來提取影像文字進行下一步處理的情況下, 表現優於GPT-4V。
各種測試都表明,Gemini在多模態處理上表現出了強大的能力,並且在更復雜的推理上也有很大的潛力。
實際能力被質疑
然而,在模型釋出後不久,就有人在谷歌給到的60頁技術報告中發現了一些“小技巧”。
在MMLU測試中,Gemini的結果下面用灰色小字標註著CoT@32,這表示,這個結果是 使用了思維練提示技巧,嘗試了32次後選出來的最好結果,而對比GPT-4,則是 無提示詞技巧,只嘗試了5次的結果,這測試結果,變數確實控制得不是很好。
而且在顯示超越人類專家的示意圖裡,比例尺上也有問題,讓人以為超越了人類專家很多,但實際上並沒有相差多少。
HuggingFace的技術主管Philipp Schmind“修復”了這張圖,表示實際上應該是這樣:
並且,在谷歌給到的一篇解釋多模態互動過程的部落格中,似乎表明了演示影片裡, Gemini實時互動並不是真的,而是使用了靜態圖片,透過多段提示詞拼湊,最後再剪輯影片,才達到了演示影片裡的效果。
不管谷歌是不是有意使用“障眼法”,Gemini的釋出無疑給看似穩定的AI界帶來了一些“動盪”。
並且,谷歌還宣佈推出了迄今為止最強大、最高效、最可擴充套件的TPU系統: Cloud TPU v5p,Gemini正式在此基礎上訓練的,這意味著谷歌將有能力拜託英偉達的算力限制,也算給了AI晶片市場帶來了一些變化。
大模型的多模態探索
隨著ChatGPT透過升級迭代,擁有了多模態能力,以及Gemini所展現出來的原生多模態能力,我們可以清晰地感受到,AI大模型浪潮已經進入了一個全新的階段,即從大語言模型轉向多模態模型。後者將更符合人類和世界互動最自然的方式: 用眼睛看,用耳朵聽,用嘴巴說,用文字記錄與決策。
多模態領域的技術探索,與網際網路媒介形式的變化也十分吻合,即從文字媒體,再到
音影片媒體。如今,隨著抖音以及TikTok等短影片平臺的興起,影片已經成為了我們這個資訊時代的主流。
根據思科的年度網際網路報告, 影片已經佔據了網際網路超過80%的流量。
很明顯,如果一個AI大模型不具備識別影像以及音影片的能力,那麼其訓練資料將會跟不上資訊迭代的速度,其能力也將大打折扣。
現如今,在多模態模型道路的探索上,除了GPT,Gemini也加入了進來,不知道未來Meta的Llama還有馬斯克的Grok等等,是否也將加入角逐?
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70035178/viewspace-2999223/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 新火種AI|谷歌Gemini被曝誇大營銷?碾壓GPT4純靠“一張嘴”AI谷歌GPT
- 重磅:谷歌釋出最強大AI模型【Google Gemini】谷歌AI模型Go
- 新火種AI | OpenAI深夜變天!CEO奧特曼竟被掃地出門…OpenAI奧特曼
- 碾壓GPT-4!Claude3到底有多強?GPT
- 91.1% 準確率,效能遠超 GPT-4 系列模型,谷歌推出多模態醫學大模型 Med-GeminiGPT谷歌大模型
- 多模態AI是醫學的未來,谷歌推出三個新模型,Med-Gemini迎來大升級AI谷歌模型
- 新火種AI | 谷歌Gemini“抄襲”百度文心一言?AI訓練資料陷入大難題AI谷歌
- 覆蓋40種語言:谷歌釋出多語言、多工NLP新基準XTREME谷歌REM
- 新火種AI|微軟扶持下一個OpenAI?Mistral AI新模型對標GPT-4,上線即擠爆微軟OpenAI模型GPT
- RedisJson釋出官方效能報告,效能碾壓ES和MongoRedisJSONGo
- 新火種AI | 市場規模200億,短劇未來靠AI?AI
- 新火種AI|GPT-4誕生1年,OpenAI把它放到了機器人上GPTOpenAI機器人
- 谷歌釋出7月Android補丁 修復多個致命漏洞谷歌Android
- 重返谷歌的Transformer作者,開始掌管Gemini AI谷歌ORMAI
- 沃趣釋出QData T5 效能價格均碾壓Exadata
- 新火種AI|2024,得AI晶片者得天下。AI晶片
- 多模態大模型不夠靈活,谷歌DeepMind創新架構Zipper:分開訓練再「壓縮」大模型谷歌架構
- 新火種AI | 誰是AI時代的“抖音”?AI
- Spring AI多模態開發SpringAI
- 支付寶AI新進展:釋出多模態醫療大模型,攜手20家機構發起AI醫療共建計劃AI大模型
- 新火種AI|AI行業規模將達2250億美元,國產晶片如何獲益?AI行業晶片
- 推理最強也最快,谷歌釋出Gemini 2.0 Flash Thinking,全面超越o1-preview谷歌ThinkingView
- 新火種AI|用AI技術“復活”親人,是全新機遇還是倫理挑戰?AI
- 新火種AI|零到估值超十億,李開復如何8個月打造AI 2.0獨角獸?AI
- OpenAI「草莓」兩週內釋出?網傳不是多模態,反應慢了10多秒OpenAI
- 谷歌 AI 負責人談2020 年機器學習趨勢:多工和多模態會有大突破谷歌AI機器學習
- GitLab 中文版正式釋出 17.5,修復多個漏洞,釋出多個功能Gitlab
- 行業首創!巨人網路釋出多智慧體大模型AI原生遊戲玩法行業智慧體大模型AI遊戲
- 新火種AI|比爾蓋茲:人工智慧的未來是AI AgentAI人工智慧
- 新火種AI|AI正在讓汽車成為“消費電子產品”AI
- 新火種AI | I發展何去何從?李開復:中美大模型只能存活五六家AI大模型
- 多模態
- 新火種AI | 奧特曼重回OpenAI:既是成功,也是失敗奧特曼OpenAI
- GPT-4狂飆釋出,AI時代運維將產生哪些變革GPTAI運維
- 谷歌釋出 Android XR 整合 Gemini 語音對話;Voice Agent 平臺 Vapi 獲 2000 萬美元融資谷歌AndroidAPI
- Mutter 3.35.1 已釋出–修復多項BUG
- 輕鬆建立基於 GPT-4 的 AI 原生應用 - DifyGPTAI
- 復旦等釋出AnyGPT:任意模態輸入輸出,影像、音樂、文字、語音都支援GPT