OpenAI Realtime API 升級,整合 WebRTC 且降價 60%;豆包釋出視覺理解模型,實時語音模型也將上線
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、OpenAI Realtime API 升級,整合 WebRTC 且降價 60%
在 OpenAI 第九場釋出會上 ,其焦點主要放在 API 和開發者服務的全新升級上,並宣佈向 API 使用等級 5 級的開發者開放 OpenAI o1 API 的訪問許可權。據官方介紹,現已正式上線的 o1 具備多項關鍵功能,可支援實際應用場景如下:
函式呼叫:無縫連線 o1 與外部資料和 API。
結構化輸出:生成可靠地遵循自定義 JSON 模式的響應。
開發者指令:為模型指定指令或上下文,例如定義語氣、風格以及其他行為指導。
視覺能力:推理影像,開啟更多科學、製造或程式設計領域的應用,特別是在視覺輸入至關重要的場景中。
更低延遲:與 o1-preview 相比,o1 在處理相同請求時,推理 token 使用量平均減少 60%。
OpenAI 對 Realtime API 也進行了全面升級。新版本特別適合開發語音助手、實時翻譯工具等應用場景。同時,Realtime API 能夠整合到智慧眼鏡等可穿戴裝置中,或者輕鬆接入各類攝像頭和麥克風系統。Realtime API 此次更新重點包括 WebRTC 直接整合、價格調整以及更精細的響應控制。
據介紹,WebRTC 可自動處理音訊編碼、流媒體傳輸、降噪和擁塞控制等關鍵功能,即使在網路條件不穩定的情況下也能保證流暢的使用者體驗。Realtime API 還新增了多項實用功能:
後臺任務,如內容稽核或分類,可以在不干擾使用者語音互動的情況下進行。
允許自定義輸入上下文,指定哪些對話內容作為模型的輸入。
控制響應時機,利用伺服器端語音活動檢測(VAD),但不自動觸發回應。
延長最大會話時長,將原本 15 分鐘的會話時長增加到 30 分鐘。
在定價方面,OpenAI 大幅下調了相關服務費用:gpt-4o-realtime-preview-2024-12-17 音訊 token 價格下調 60%,降至每百萬輸入 token 40 美元,每百萬輸出 token 80 美元;音訊輸入快取費用僅需每百萬 token 2.50 美元,大幅下降 87.5%;同時推出的 GPT-4o mini 為開發者提供了更具價效比的選擇,在保持體驗的同時,將音訊價格設定為每百萬輸入 token 10 美元,每百萬輸出 token 20 美元,文字 token 則分別為 0.60 美元和 2.40 美元。(@ APPSO)
2、谷歌推出全新 AI 工具 Whisk 無需提示詞,可多張圖片混合生成新風格影像
谷歌釋出了一款名為 Whisk 的新 AI 工具,它顛覆了傳統的影像生成模式,允許使用者使用圖片作為提示詞,而非冗長的文字描述。
透過 Whisk,你可以上傳圖片來指定 AI 生成影像的主題、場景和風格,並且可以為這三者分別使用多張圖片。
如果手頭沒有合適的圖片,也可以讓谷歌自動填充一些圖片作為提示(這些圖片似乎也是 AI 生成的)。
Whisk 還為每張生成的圖片提供了文字提示。如果對結果滿意,使用者可以收藏或下載影像;如果想要進一步最佳化,可以在文字框中新增更多文字,或直接點選影像編輯文字提示。
谷歌在部落格文章中強調,Whisk 旨在進行「快速的視覺探索,而非畫素級的精確編輯」。該公司還表示,Whisk 可能會「跑偏」,因此允許使用者編輯底層的提示詞。
谷歌表示,Whisk 使用了最新版本的 Imagen3 影像生成模型。谷歌還同時釋出了新一代影片生成模型 Veo2,據說它能夠理解「電影的獨特語言」,並且「更少」出現諸如多餘手指之類的幻覺。Veo2 將首先在谷歌的 VideoFX 中推出,使用者可以透過谷歌實驗室的候補名單申請體驗,並計劃在明年擴充套件到 YouTube Shorts 和其他產品。(@AIbase 基地)
3、OpenAI 稱目前尚無推出影片生成模型 Sora API 的計劃
OpenAI 今日表示,目前沒有推出其影片生成模型 Sora 的應用程式介面(API)的計劃,該模型可基於文字、影像生成影片。
在 OpenAI 開發團隊成員的線上問答活動中,OpenAI 開發者體驗負責人 Romain Huet 明確指出:「我們目前還沒有推出 Sora API 的計劃。」
此前,由於訪問量遠超預期,OpenAI 此前不得不緊急關閉了基於 Sora 的影片創作和編輯套件的申請通道。OpenAI 執行長 Sam Altman 為此在社交平臺 X 上公開道歉,承認「嚴重低估了對 Sora 的需求」,並表示「需要一段時間才能讓所有人都能使用,正在努力尋找儘快實現的方法!」值得一提的是,OpenAI 已於數日前重新開放了 Sora 的註冊申請。
OpenAI 暫緩推出 Sora API 的策略,或使其在與主要競爭對手的角逐中處於不利地位。其主要競爭對手谷歌已於 12 月初推出了其影片生成模型 Veo 的有限訪問 API。谷歌本週還宣佈,因其高質量輸出而在網路上迅速走紅的 Veo 的升級版 Veo 2,也將在 2025 年的某個時候推出 API。(@IT 之家)
4、視覺 AI 迎來「釐時代」!豆包視覺理解模型正式釋出,比行業價格便宜 85%!
在 12 月 18 日舉辦的火山引擎 Force 大會上,位元組跳動正式釋出豆包視覺理解模型,該模型千 tokens 輸入價格僅為 0.003 元,一元錢可處理 284 張 720P 圖片,比行業價格便宜 85%。
豆包視覺理解模型不僅能精準識別視覺內容,還具備出色的理解和推理能力,可完成分析圖表、處理程式碼、解答學科問題等複雜任務。
目前,豆包大模型已覆蓋約 3 億臺智慧終端裝置,日均 tokens 使用量超過 4 萬億,較七個月前增長 33 倍。
此次大會上,位元組跳動還發布了豆包 3D 生成模型,並宣佈 2025 年春季將推出具備更長影片生成能力的豆包影片生成模型 1.5 版,豆包端到端實時語音模型也將很快上線。(@ 硬 AI)
02 有亮點的產品
1、語音 AI 初創公司 Kardome 獲得 1,000 萬美元融資,並宣佈在韓國設立地區總部
位於特拉維夫的語音人工智慧公司 Kardome 已獲得 1000 萬美元的 A 輪融資,由 Korea Investment Partners 領投。主要投資者還包括現代汽車集團、Next Gear Ventures 和 Techstars。
這筆資金旨在加速開發 Kardome 的空間聽覺人工智慧(Spatial Hearing AI),該技術透過讓裝置更自然地隔離和響應聲音來增強語音互動,就像人類的聽覺一樣。從汽車到 AR 眼鏡,Kardome 的技術正在重塑語音指令的工作方式。
作為擴張戰略的一部分,Kardome 正在韓國首爾設立地區總部。此舉旨在提升公司在亞洲的影響力,尤其是在汽車和消費電子市場。
「Kardome 的技術與基於 LLM 的語音解決方案相結合,將徹底改變汽車、智慧家居、AR/VR 和機器人領域的通訊方式,」Korea Investment Partners 董事總經理 Min-Q Kim 說。「這種協同效應使 Kardome 站在了快速增長市場的前沿。
Kardome 的空間聽覺人工智慧已經應用於超過 100 萬臺裝置。透過開設首爾辦事處,該公司旨在利用韓國先進的技術生態系統,加深與現代汽車等汽車巨頭的聯絡,現代汽車也是該公司的投資者之一。
有了這筆新資金,Kardome 希望將環境音訊轉變為真正的響應式、情境感知體驗。想象一下人工智慧在您的汽車或家中的應用,它能適應您周圍的環境,實現自然、無縫的互動——這就是 Kardome 正在構建的世界。(@ maginative)
2、Cresta Virtual Agent:AI 驅動虛擬代理解決方案
Cresta Virtual Agent 是一款 AI 驅動虛擬代理解決方案。這款虛擬代理能夠在沒有人力參與的情況下提供 24/7 的服務,不僅減少了依賴人類代理的時間限制,還提升了客戶對企業響應速度的期待。透過自然語言處理(NLP)和情感分析,Cresta Virtual Agent 能夠捕捉客戶語言中的情緒訊號,並根據語境調整語氣和語言,營造類似人類的互動體驗。
除了回答簡單問題,Cresta Virtual Agent 還能執行復雜操作,如預訂、取消訂單、升級套餐等。它透過分析客戶歷史資料和行為識別增銷和交叉銷售機會。虛擬代理內建明確的護欄和許可權管理,確保其行動範圍在企業設定的規則內,避免過度授權或非預期行為。這一功能特別適用於金融、醫療等高合規行業,確保資料安全性和操作透明度。
Cresta Virtual Agent 還能夠理解上下文,處理會話中斷,並根據客戶的情緒動態調整對話節奏。透過持續學習最佳對話實踐,Cresta Virtual Agent 能夠自動化更多具有複雜決策和結果導向的任務,不僅節省人力成本,還確保自動化流程的結果符合客戶需求與企業目標。當虛擬代理無法解決問題時,能快速無縫地將對話轉交給人類代理,並確保人類代理接手時已完全瞭解客戶背景和需求,避免客戶重複敘述問題的情況,大幅提升服務效率,同時提高了客戶的滿意度。(@ Z potentials)
03 有態度的觀點
1、27 歲華裔億萬富翁 Alexandr Wang:中美 AI 技術差距在縮小,Agent 是 2025 年最大創業機會之一
全球最年輕的 95 後億萬富翁、MIT 輟學生以及估值超 1000 億的 AI 獨角獸 Scale AI 創始人 Alexandr Wang 近期在 SPC 對談時回顧了自己在 YC 創業加速器的經歷。
Alexandr 坦言初期階段充滿了焦慮和迷茫。他引用 YC 的一句話:「在 YC,失敗就像《飢餓遊戲》一樣,90% 公司會失敗,但往往需要三年才能知道。」
他強調,創業者必須具備非理性但堅定的自信 ——「如果要競爭,我們就把更好的東西做出來」,這種信念最終成為 Scale 成功的核心動力。
在談到全球科技的競爭時,Alexandr 提出,美國和中國的 AI 技術對決將決定未來全球的技術主導地位。中國最近在 AI 領域取得了突破性進展,尤其是在複製 OpenAI 的「思維迴圈」技術方面,這標誌著中美在 AI 技術上的差距幾乎已經縮小。
此外,他還提到了資料牆和合成資料的挑戰,認為資料的稀缺性將成為未來 AI 發展的重要瓶頸。
儘管計算能力的提升不可忽視,但只有在資料的擴充套件上與計算能力同步增長,才能打破這一瓶頸。Alexandr 預計,當前 AI 模型在多輪互動中的表現仍然有限,但隨著模型的改進,未來 AI 智慧體將成為一個巨大的創業機會。到 2025 年,AI 智慧體將徹底改變 C 端 和 B 端的互動方式,是一個極具潛力的創業方向。(@ 有新 Newin)
更多 Voice Agent 學習筆記:
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- 豆包大模型日均Tokens使用量破5000億,模型家族再升級大模型
- 近期大模型AIGC概要:Grok 1.5 視覺升級等大模型AIGC視覺
- 理解 OpenAI 的 CLIP 模型OpenAI模型
- GPT-4o Mini深夜突發:即刻免費上線,API降價60%GPTAPI
- 如何為實時音視訊設計小且優的深度學習模型?深度學習模型
- 大模型價格進入“釐”時代,豆包大模型定價每千tokens僅0.8釐大模型
- 火山引擎釋出豆包大模型文旅解決方案大模型
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- WebRTC音訊通話升級為視訊通話Web音訊
- 視覺多模態理解模型基礎視覺模型
- 深入瞭解視覺語言模型視覺模型
- DAAM:首次利用視覺語言學解釋大型擴散模型視覺模型
- 智慧定價模型:藉助API實時更新商品價格資訊模型API
- 3.2.1.0 釋出!時間轉換函式+BI 整合+檢視正式上線!函式
- Newbe.ObjectVisitor 0.4.4 釋出,模型驗證器上線Object模型
- 「草莓」即將上線,OpenAI新旗艦大模型曝光,代號「獵戶座」OpenAI大模型
- 重磅釋出:OpenAI o1全新推理模型系列OpenAI模型
- 業界 | 深度學習也能實現「雞尾酒會效應」:谷歌提出新型音訊-視覺語音分離模型深度學習谷歌音訊視覺模型
- AMD 證實升級 Windows 11 現重大 BUG: CPU 速度最高降 15%,補丁即將釋出Windows
- 火山引擎釋出大模型訓練影片預處理方案,已應用於豆包影片生成模型大模型
- 激發創新,助力研究:CogVLM,強大且開源的視覺語言模型亮相視覺模型
- 前端音視訊WebRTC實時通訊的核心前端Web
- 大模型時代的計算機視覺!CVPR 2024線上分享會全日程公佈大模型計算機視覺
- 大模型時代的計算機視覺!CVPR 2024線上論文分享會啟動大模型計算機視覺
- 語音識別模型模型
- OpenAI Realtime API 迎來降價;朱嘯虎首個 AI 硬體專案 Gyges Labs:輕量化近眼顯示光學方案OpenAIAPI
- 視覺語言模型的高效遷移學習視覺模型遷移學習
- GPT-SoVITS語音合成模型實踐GPT模型
- [BUG反饋]升級後獨立模型出錯模型
- 2024年6月計算機視覺論文推薦:擴散模型、視覺語言模型、影片生成等計算機視覺模型
- 開源視覺大模型視覺大模型
- 大語言模型中上下文視窗理解和實現原理模型
- 優雅且語義化的斷言之—將模型屬性斷言變為模型方法斷言模型
- GPUStack v0.4:文生圖模型、語音模型、推理引擎版本管理、離線支援和部署本地模型GPU模型
- 線上ER模型設計:視覺化MySQL資料庫建表及操作模型視覺化MySql資料庫
- 本地部署FastGPT使用線上大語言模型ASTGPT模型