OpenAI顛覆世界：GPT-4o完全免費，實時語音影片互動震撼全場，直接進入科幻時代

机器之心發表於2024-05-14

原文網址 : https://www.jiqizhixin.com/articles/2024-05-14-5

OpenAIGPT

ChatGPT 問世才 17 個月，OpenAI 就拿出了科幻電影裡的超級 AI，而且完全免費，人人可用。

太震撼了！

當各家科技公司還在追趕大模型多模態能力，把總結文字、P 圖等功能放進手機裡的時候，遙遙領先的 OpenAI 直接開了大招，釋出的產品連自家 CEO 奧特曼都驚歎：就像電影裡一樣。

5 月 14 日凌晨，OpenAI 在首次「春季新品釋出會」上搬出了新一代旗艦生成模型 GPT-4o、桌面 App，並展示了一系列新能力。這一次，技術顛覆了產品形態，OpenAI 用行動給全世界的科技公司上了一課。

今天的主持人是 OpenAI 的技術長 Mira Murati，她表示，今天主要講三件事：

第一，以後 OpenAI 做產品就是要免費優先，為的就是讓更多的人能使用。
第二，因此 OpenAI 此次釋出了桌面版本的程式和更新後的 UI，其使用起來更簡單，也更自然。
第三，GPT-4 之後，新版本的大模型來了，名字叫 GPT-4o。GPT-4o 的特別之處在於它以極為自然的互動方式為每個人帶來了 GPT-4 級別的智慧，包括免費使用者。

ChatGPT 的這次更新以後，大模型可以接收文字、音訊和影像的任意組合作為輸入，並實時生成文字、音訊和影像的任意組合輸出 —— 這才是屬於未來的互動方式。

最近，ChatGPT 不用註冊也可以使用了，今天又增加了桌面程式，OpenAI 的目標就是讓人們可以隨時隨地的無感使用它，讓 ChatGPT 整合在你的工作流中。這 AI 現在就是生產力了。

GPT-4o 是面向未來人機互動正規化的全新大模型，具有文字、語音、影像三種模態的理解力，反應極快還帶有感情，也很通人性。

在現場，OpenAI 的工程師拿出一個 iPhone 演示了新模型的幾種主要能力。最重要的是實時語音對話，Mark Chen 說：「我第一次來直播的釋出會，有點緊張。」ChatGPT 說，要不你深呼吸一下。

好的，我深呼吸。

ChatGPT 立即回答說，你這不行，喘得也太大了。

如果你之前用過 Siri 之類的語音助手，這裡就可以看出明顯的不同了。首先，你可以隨時打斷 AI 的話，不用等它說完就可以繼續下一輪對話。其次，你不用等待，模型反應極快，比人類的回應還快。第三，模型能夠充分理解人類的情感，自己也能表現出各種感情。

隨後是視覺能力。另一個工程師在紙上現寫的方程，讓 ChatGPT 不是直接給答案，而是讓它解釋要一步步怎麼做。看起來，它在教人做題方面很有潛力。

^{ChatGPT 說，每當你為數學焦頭爛額的時候，我就在你身邊。}

接下來嘗試 GPT-4o 的程式碼能力。這有一些程式碼，開啟電腦裡桌面版的 ChatGPT 用語音和它互動，讓它解釋一下程式碼是用來做什麼的，某個函式是在做什麼，ChatGPT 都對答如流。

輸出程式碼的結果，是一個溫度曲線圖，讓 ChatGPT 以一句話的方式回應所有有關此圖的問題。

最熱的月份在幾月，Y 軸是攝氏度還是華氏度，它都能回答得上來。

OpenAI 還回應了一些 X/Twitter 上網友們實時提出的問題。比如實時語音翻譯，手機可以拿來當翻譯機來回翻譯西班牙語和英語。

又有人問道，ChatGPT 能識別你的表情嗎？ OpenAI顛覆世界：GPT-4o完全免費，實時語音影片互動震撼全場，直接進入科幻時代

看起來，GPT-4o 已經能夠做到實時的影片理解了。

接下來，就讓我們詳細瞭解下 OpenAI 今天放出的核彈。

全能模型 GPT-4o

首先介紹的是 GPT-4o，o 代表 Omnimodel（全能模型）。

第一次，OpenAI 在一個模型中整合了所有模態，大幅提升了大模型的實用性。

OpenAI CTO Muri Murati 表示，GPT-4o 提供了「GPT-4 水準」的智慧，但在 GPT-4 的基礎上改進了文字、視覺和音訊方面的能力，將在未來幾周內「迭代式」地在公司產品中推出。

「GPT-4o 的理由橫跨語音、文字和視覺，」Muri Murati 說道：「我們知道這些模型越來越複雜，但我們希望互動體驗變得更自然、更簡單，讓你完全不用關注使用者介面，而只關注與 GPT 的協作。」

GPT-4o 在英語文字和程式碼上的效能與 GPT-4 Turbo 的效能相匹配，但在非英語文字上的效能顯著提高，同時 API 的速度也更快，成本降低了 50%。與現有模型相比，GPT-4o 在視覺和音訊理解方面尤其出色。

它最快可以在 232 毫秒的時間內響應音訊輸入，平均響應時長 320 毫秒，與人類相似。在 GPT-4o 釋出之前，體驗過 ChatGPT 語音對話能力的使用者能夠感知到 ChatGPT 的平均延遲為 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

這種語音響應模式是由三個獨立模型組成的 pipeline：一個簡單模型將音訊轉錄為文字，GPT-3.5 或 GPT-4 接收文字並輸出文字，第三個簡單模型將該文字轉換回音訊。但 OpenAI 發現這種方法意味著 GPT-4 會丟失大量資訊，例如模型無法直接觀察音調、多個說話者或背景噪音，也無法輸出笑聲、歌唱或表達情感。

而在 GPT-4o 上，OpenAI 跨文字、視覺和音訊端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一神經網路處理。

「從技術角度來看，OpenAI 已經找到了一種方法，可以將音訊直接對映到音訊作為一級模態，並將影片實時傳輸到 transformer。這些需要對 token 化和架構進行一些新的研究，但總體來說是一個資料和系統最佳化問題（大多數事情都是如此）。」英偉達科學家 Jim Fan 如此評論道。

GPT-4o 可以跨文字、音訊和影片進行實時推理，這是向更自然的人機互動（甚至是人 - 機器 - 機器互動）邁出的重要一步。 OpenAI顛覆世界：GPT-4o完全免費，實時語音影片互動震撼全場，直接進入科幻時代

OpenAI 總裁 Greg Brockman 也線上「整活」，不僅讓兩個 GPT-4o 實時對話，還讓它們即興創作了一首歌曲，雖然旋律有點「感人」，但歌詞涵蓋房間的裝飾風格、人物穿著特點以及期間發生的小插曲等。 OpenAI顛覆世界：GPT-4o完全免費，實時語音影片互動震撼全場，直接進入科幻時代

此外，GPT-4o 在理解和生成影像方面的能力比任何現有模型都要好得多，此前很多不可能的任務都變得「易如反掌」。

比如，你可以讓它幫忙把 OpenAI 的 logo 印到杯墊上：

經過這段時間的技術攻關，OpenAI 應該已經完美解決了 ChatGPT 生成字型的問題。

同時，GPT-4o 還擁有 3D 視覺內容生成的能力，能夠從 6 個生成的影像進行 3D 重建：

這是一首詩，GPT-4o 可以將其排版為手寫樣式：

更復雜的排版樣式也能搞定：

與 GPT-4o 合作，你只需要輸入幾段文字，就能得到一組連續的漫畫分鏡：

而下面這些玩法，應該會讓很多設計師有點驚訝：

這是一張由兩張生活照演變而來的風格化海報：

還有一些小眾的功能，比如「文字轉藝術字」：

GPT-4o 效能評估結果

OpenAI 技術團隊成員在 X 上表示，之前在 LMSYS Chatbot Arena 上引起廣泛熱議的神秘模型「im-also-a-good-gpt2-chatbot」就是 GPT-4o 的一個版本。

在比較困難的 prompt 集上 —— 特別是編碼方面：GPT-4o 相比於 OpenAI 之前的最佳模型，效能提升幅度尤其顯著。

具體來說，在多項基準測試中，GPT-4o 在文字、推理和編碼智慧方面實現了 GPT-4 Turbo 級別的效能，同時在多語言、音訊和視覺功能上實現了新高。

^{推理提升：GPT-4o 在 5-shot MMLU（常識問題）上創下了 87.2% 的新高分。（注：Llama3 400b 還在訓練中）}

^{音訊 ASR 效能：GPT-4o 相比 Whisper-v3 顯著提高了所有語言的語音識別效能，特別是對於資源匱乏的語言。}

^{GPT-4o 在語音翻譯方面取得了新的 SOTA 水平，並且在 MLS 基準測試中優於 Whisper-v3。}

^{M3Exam 基準測試既是多語言評估基準也是視覺評估基準，由來自多個國家 / 地區的標準化測試多項選擇題組成，幷包括圖形、圖表。在所有語言基準測試中，GPT-4o 都比 GPT-4 更強。}

未來，模型能力的提升將實現更自然、實時的語音對話，並能夠透過實時影片與 ChatGPT 進行對話。例如，使用者可以向 ChatGPT 展示一場現場體育比賽，並要求它解釋規則。

ChatGPT 使用者將免費獲得更多高階功能

每週都有超過一億人使用 ChatGPT，OpenAI 表示 GPT-4o 的文字和影像功能今天開始免費在 ChatGPT 中推出，並向 Plus 使用者提供高達 5 倍的訊息上限。

現在開啟 ChatGPT，我們發現 GPT-4o 已經可以使用了。

使用 GPT-4o 時，ChatGPT 免費使用者現在可以訪問以下功能：體驗 GPT-4 級別智慧；使用者可以從模型和網路獲取響應。

此外，免費使用者還可以有以下選擇 ——

分析資料並建立圖表：

和拍攝的照片對話：

上傳檔案以獲取總結、寫作或分析方面的幫助：

發現並使用 GPTs 和 GPT 應用商店：

以及使用記憶功能打造更有幫助的體驗。

不過，根據使用情況和需求，免費使用者可以使用 GPT-4o 傳送的訊息數量會受到限制。當達到限制時，ChatGPT 將自動切換到 GPT-3.5，以便使用者可以繼續對話。

此外，OpenAI 還將在未來幾周內在 ChatGPT Plus 中推出新版本的語音模式 GPT-4o alpha，並透過 API 向一小部分值得信賴的合作伙伴推出對 GPT-4o 更多新的音訊和影片功能。

當然了，透過多次的模型測試和迭代，GPT-4o 在所有模態下都存在一些侷限性。在這些不完美的地方，OpenAI 表示正努力改進 GPT-4o。

可以想到的是， GPT-4o 音訊模式的開放肯定會帶來各種新的風險。在安全性問題上，GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術，在跨模態設計中內建了安全性。OpenAI 還建立了新的安全系統，為語音輸出提供防護。

新的桌面 app 簡化使用者工作流程

對於免費和付費使用者，OpenAI 還推出了適用於 macOS 的新 ChatGPT 桌面應用程式。透過簡單的鍵盤快捷鍵（Option + Space），使用者可以立即向 ChatGPT 提問，此外，使用者還可以直接在應用程式中擷取螢幕截圖並進行討論。

現在，使用者還可以直接從計算機與 ChatGPT 進行語音對話，GPT-4o 的音訊和影片功能將在未來推出，透過點選桌面應用程式右下角的耳機圖示來開始語音對話。

從今天開始，OpenAI 將向 Plus 使用者推出 macOS 應用程式，並將在未來幾周內更廣泛地提供該應用程式。此外今年晚些時候 OpenAI 會推出 Windows 版本。

奧特曼：你們開源，我們免費

在釋出結束後，OpenAI CEO 山姆・奧特曼久違地發表了一篇部落格文章，介紹了推動 GPT-4o 工作時的心路歷程：

在我們今天的釋出中，我想強調兩件事。

首先，我們使命的一個關鍵部分是將強大的人工智慧工具免費（或以優惠的價格）提供給人們。我非常自豪地宣佈，我們在 ChatGPT 中免費提供世界上最好的模型，沒有廣告或類似的東西。

當我們創立 OpenAI 時，我們的最初構想是：我們要創造人工智慧並利用它為世界創造各種利益。現在情況有所變化，看起來我們將創造人工智慧，然後其他人將使用它來創造各種令人驚奇的事物，我們所有人都會從中受益。

當然，我們是一家企業，會發明很多收費的東西，這將幫助我們向數十億人提供免費、出色的人工智慧服務（希望如此）。

其次，新的語音和影片模式是我用過的最好的計算互動介面。感覺就像電影裡的人工智慧一樣，我仍然有點驚訝於它竟然是真的。事實證明，達到人類水平的響應時間和表達能力是一個巨大的飛躍。

最初的 ChatGPT 暗示了語言介面的可能性，而這個新事物（GPT-4o 版本）給人的感覺有本質上的不同 —— 它快速、智慧、有趣、自然且能給人帶來幫助。

對我來說，與電腦互動從來都不是很自然的事情，事實如此。而當我們新增（可選）個性化、訪問個人資訊、讓 AI 代替人採取行動等等能力時，我確實可以看到一個令人興奮的未來，我們能夠使用計算機做比以往更多的事情。

最後，非常感謝團隊為實現這一目標付出了巨大的努力！

值得一提的是，上個星期奧特曼在一次採訪中表示，雖然全民免費收入（universal basic income）難以實現，但我們可以實現「全民免費計算 universal basic compute」。在未來，所有人都可以免費獲得 GPT 的算力，可以使用、轉售或捐贈。

「這個想法是，隨著 AI 變得更加先進，並嵌入到我們生活的方方面面，擁有像 GPT-7 這樣的大語言模型單元可能比金錢更有價值，你擁有了部分生產力，」奧特曼解釋道。

GPT-4o 的釋出，或許就是 OpenAI 朝著這方面努力的一個開始。

是的，這還只是個開始。

最後提一句，今天 OpenAI 部落格中展示的「Guessing May 13th’s announcement.」的影片，幾乎完全撞車谷歌明天 I/O 大會的一個預熱影片，這無疑是對谷歌的貼臉開大。不知道看完今天 OpenAI 的釋出，谷歌有沒感到巨大壓力？

^{參考內容：}

^{https://openai.com/index/hello-gpt-4o/}

^{https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/}

^{https://blog.samaltman.com/gpt-4o}

^{https://www.businessinsider.com/openai-sam-altman-universal-basic-income-idea-compute-gpt-7-2024-5}

影片分析進入智慧時代
2019-03-05
AliRTC 開啟影片互動 “零計算” 時代
2021-11-08
實時語音互動，打造更加智慧便捷的應用
2024-09-30
阿里資料庫進入全網秒級實時監控時代
2019-03-02
阿里資料庫
[完結] Laravel 6 From Scratch [Laracasts 免費影片中文語音]
2020-04-01
LaravelAST
電信：在顛覆性時代創造價值（附下載）
2021-06-14
社群供稿丨 GPT-4o 對實時互動與 RTC 的影響
2024-05-29
GPT
[完結] Laravel 6 實戰 - 寫一個 Twitter - [Laracasts 免費影片中文語音]
2020-04-29
LaravelAST
樹莓派語音互動--語音輸入識別
2020-11-24
樹莓派
《Boneworks》：顛覆性物理模擬，超強互動
2020-08-03
線上音樂進入“人本主義”爭奪時代
2022-05-17
[完結] Learn Vue 2: Step By Step [Laracasts 免費影片中文語音]
2020-06-16
VueAST
RTE NG-Lab：一起探索下一代實時互動新世界
2022-04-29
顛覆與自我顛覆，思域的進階之路
2022-03-04
世界模型進入4D時代！單視角影片構建的自由視角4D世界來了
2024-12-16
世界模型
微軟正式推出新一代全雙工語音互動技術
2018-03-23
微軟
OpenAI工程師親自修訂：用ChatGPT實時語音API構建應用
2025-01-10
OpenAI工程師ChatGPTAPI
QLab Pro for Mac(現場表演類實時音影片編輯工具)
2022-11-16
Mac
大模型時代進入尾聲：場景式模型接棒
2023-04-20
大模型
巴西遊戲市場進入次世代主機時代
2019-06-18
遊戲
《食物語》互動迭代思路：“她”時代下的情感化設計
2019-10-25
食物語
從網際網路時代進入物聯網時代
2019-02-26
OpenAI：GPT或將顛覆19%的工作崗位
2023-03-21
OpenAIGPT
通義釋出語音模型 MinMo：全雙工、多口音；MiniCPM-o ：端側 GPT-4o 級視覺、語音、多模態實時流式大模型
2025-01-15
GPT視覺大模型
騰訊互動白板+即時通訊+實時音視訊，Android學生端接入
2021-07-07
Android
阿里鄢志傑博士：“達摩院”要做下一代顛覆性的人機互動
2019-01-08
阿里
AI「視覺圖靈」時代來了！位元組OmniHuman，一張圖配上音訊，就能直接生成影片
2025-02-05
AI視覺圖靈音訊
多人沉浸式音樂互動，3DCAT實時雲渲染新業務場景來襲
2022-08-26
3D
好玩的策略並不貴，《世界啟元》引領SLG進入新時代
2024-06-28
臻於至善，精益求精，HALO Network進入2.0時代，持續賦能加密世界
2021-12-03
加密
未來戰場將進入新時代，人工智慧大展神威
2020-09-28
人工智慧
低延遲流式語音識別技術在人機語音互動場景中的實踐
2023-04-14
智慧電視也進入消費者重視晶片的時代了
2020-11-05
晶片
數實融合數字孿生進入“技術+應用”雙驅動時代
2022-09-07
免費OA，互聯時代推動企業發展成長的選擇
2023-02-16
語音互動的前世今生
2018-06-12
實時語音如何過質量關？
2021-11-05
OC&C：2019年全球汽車顛覆時速表
2020-01-09

OpenAI顛覆世界：GPT-4o完全免費，實時語音影片互動震撼全場，直接進入科幻時代

相關文章