OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@CY,@JLT,@ 鮑勃
01 有話題的新聞
1、OpenAI 釋出全新生成式 AI 模型 GPT-4o:語音對話更流暢,免費提供
5 月 14 日,OpenAI 宣佈推出其最新旗艦生成式 AI 模型 GPT-4o,該模型將在未來幾周內分階段整合至 OpenAI 的各個產品之中。GPT-4o 將免費提供給所有使用者使用。
OpenAI 技術長穆裡・穆拉蒂(Muri Murati)表示,GPT-4o 將提供與 GPT-4 同等水平的智慧,但在文字、影像以及語音處理方面均取得了進一步提升。
「GPT-4o 可以綜合利用語音、文字和視覺資訊進行推理,」穆拉蒂在 OpenAI 公司總部舉行的主題演講中表示。GPT-4 是 OpenAI 此前的旗艦模型,可以處理由影像和文字混合而成的資訊,並能完成諸如從影像中提取文字或描述影像內容等任務,GPT-4o 則在此基礎上新增了語音處理能力。
GPT-4o 採用了全新的技術,讓聊天機器人對話的響應速度大幅提升。釋出會上 OpenAI 展示了使用 GPT-4o 進行語音對話的演示。演示者提問結束後,GPT-4o 幾乎可以即時回應,並透過文字轉語音功能進行朗讀,讓對話感覺更加自然逼真。
另一個演示展示了 GPT-4o 根據要求調整說話時語氣,GPT-4o 可以根據指令改變聲音,從誇張戲劇到冰冷機械,展現了出色的可塑性。最後,演示還展示了 GPT-4o 的唱歌功能。
以往,OpenAI 釋出新版 ChatGPT 模型時,通常會將其置於付費牆之後。不過這次 GPT-4o 將免費提供給所有使用者,付費使用者則可以享受五倍的呼叫額度。(@IT 之家)
2、谷歌 I/O 大會官宣:Android 15 和 Gemini AI
5 月 13 日,谷歌宣佈谷歌 I/O 開發者大會(Google I/O 2024)將於美國當地時間 5 月 14 日舉行。
本次大會的重點內容之一是 Android 15,目前谷歌已經推出 Android 15 開發者預覽版,該系統在底層支援了衛星通訊。目前,一些偏遠地區如深山、草原、沙漠、雪地等仍存在通訊死角,而衛星通訊技術的應用大大增強了智慧手機的通訊能力,使我們的溝通方式變得更加可靠和廣泛。
除此之外,本次大會的另一項重要內容是 AI,谷歌將會公佈 Gemini AI 的最新進展。
據悉,Gemini 是谷歌打造的人工智慧模型,可同時識別文字、影像、音訊、影片和程式碼五種型別資訊,還可以理解並生成主流程式語言。谷歌計劃逐步將 Gemini 整合到其搜尋、廣告、Chrome 等其他服務中,谷歌也在思考圍繞 Gemini 人工智慧會有哪些全新的搜尋體驗,這些都將在 I/O 大會上一一呈現。(@ 快科技)
3、位元組跳動收購 OWS 音訊公司大十科技 Oladance,有望推出 AI 智慧眼鏡
位元組跳動已於 3 月份收購 OWS 公司 Oladance 品牌大十科技,收購價格在 3-5 億元之間,目前位元組跳動團隊人員已經進駐大十科技,後期有望推出 AI 智慧眼鏡。Oladance 是深圳市大十未來科技有限公司旗下的音訊品牌,專注於 OWS 全開放穿戴式音訊產品領域。
據瞭解,位元組跳動 2022 年開始就有 AR 眼鏡專案立項,此番收購 Oladance,除了探索和推出 AI OWS 智慧耳機外,公司有望先推出類比 Meta Ray-Ban 的智慧眼鏡,實現先眼鏡 + 音訊 +AI、後 AR 的產品戰略。(@ 維深資訊 wellsennXR)
4、英國推出開源免費 AI 評估平臺 Inspect
英國人工智慧安全研究所( AI Safety Institute )近日推出了一款名為「Inspect」的 AI 模型安全評估平臺,該平臺向全球 AI 工程師免費開放,幫助加快在全球範圍內開展的人工智慧安全評估工作。
官方介紹,Inspect 是一個軟體庫,使測試人員能夠評估各個模型的特定功能,然後根據結果給出分數。Inspect 可用於評估一系列領域的模型,包括其核心知識、推理能力和自主能力。
人工智慧安全研究所主席 Ian Hogarth 表示,「我們希望看到全球人工智慧社群不僅使用 Inspect 進行自己的模型安全測試,而且幫助適應和構建開源平臺,以便我們能夠全面進行高質量的評估」。(@ 愛範兒)
5、訊息稱蘋果準備在美國外銷售 Vision Pro,中法德日為首批國家
5 月 14 日,據知情人士週一透露,蘋果準備開始在美國之外銷售混合現實頭顯 Vision Pro,檢驗這款售價達 3499 美元(約合人民幣 25308 元)的裝置是否有更廣泛的吸引力。Vision Pro 的市場可能擴充至中國、日本、法國和德國。
知情人士透露,數百名來自中國、澳大利亞、德國、法國、日本、韓國和新加坡的國際零售店員工上週飛赴蘋果位於美國加利福尼亞州庫比蒂諾的總部,參加為期四天的線下培訓,學習如何向客戶演示 Vision Pro。
今年 2 月初,當蘋果開始在美國市場發售 Vision Pro 之前,該公司也曾在總部對美國零售店員工進行過培訓,學習如何向客戶演示和回答問題。Vision Pro 在國際市場的確切上市日期尚未宣佈,但預計將在今年的全球開發者大會(WWDC)之後擴充套件到其他國家。今年的全球開發者大會將於 6 月 10 日至 14 日舉行。(@ 騰訊網)
02 有態度的觀點
1、祖克伯:AI 資料中心 GPU 緊缺正在緩解,電力將成新瓶頸
5 月 13 日,Meto CEO 馬克・祖克伯(Mark Zuckerberg)近日在接受油管 Dwarkesh Patel 頻道採訪時表示,AI 資料中心的 GPU 緊缺已在緩解過程中,未來的瓶頸將是電力供應。
祖克伯首先提到,此前一段時間,IT 企業即使資金充足也難以買到全部所需數量的 AI GPU,但這一情況目前已開始緩解。但祖克伯認為 1GW 級別的資料中心不會很快出現,畢竟這相當於將一整個核電機組的發電能力用於訓練 AI。
祖克伯表示,整體而言各國對能源行業的管理更為嚴格,這意味著為大型資料中心建設配套能源設施(包括髮電站、變電站、輸電系統)的審批更為緩慢。同時這些設施本身的建設週期也較長。
AI 資料中心的增長不可能長期維持目前的速度,終將遭遇電力瓶頸:能源行業不同於 AI,資本投入不能在短時間內收穫成效,新增電力供給的交付遠慢於資料中心本身。( @DoNews)
2、李開復:中國需要自己的 ChatGPT 時刻,中國的聊天機器人或工具都不夠好
5 月 13 日,人工智慧創業公司零一萬物 CEO 李開復在接受採訪時表示,中國需要自己的 “ChatGPT 時刻”,2024 年將是中國生成式 AI 應用爆發的一年。李開復表示,中國需要自己的 “ChatGPT 時刻” 來提高人們的興趣、加快普及和投資。“對美國人來說,這一刻發生在 17 個月前,” 李開復在北京透過會議平臺 Zoom 接受採訪時說,“中國使用者還沒有體驗到 ChatGPT 時刻。目前為止,中國的聊天機器人或工具都不夠好。”
與許多全球 AI 創業公司不同的是,李開復透露零一萬物已接近盈利。在對這些模型進行中文和通用資料集的訓練之後,李開復正在將這些模型和應用程式推向全球,並與國內外客戶簽約以增加明年的收入。“2024 年將是中國生成式 AI 應用的爆發年。” 李開復稱。(@ 鳳凰網科技)
03 有思考的文章
《為多模態 LLM 指明方向,邱錫鵬團隊提出具有內生跨模態能力的 SpeechGPT》
「SpeechGPT 突破了傳統語音到語音對話 cascaded system (ASR+LLM+TTS) 的束縛,實現了模態之間的知識傳遞,不需要額外的 ASR 和 TTS 系統也能和 LLM 直接進行語音對話。」
「 SpeechGPT 為打造真正的多模態大語言模型指明瞭方向:將不同模態的資料(視覺,語音等)統一表示為離散單元整合在 LLM 之中,在跨模態資料集上經過預訓練和指令微調,來使得模型具有多模態理解和生成的能力,從而離 AGI 更進一步。」
@ 鮑勃:GPT-4o 釋出後,WebRTC 的核心開發者 Justin Uberti 推薦了復旦大學邱錫鵬團隊的論文:「這篇論文是關於 speech-to-speech 建模的很好的介紹,並詳細介紹了許多挑戰和所需資料集。」
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- OpenAI 成功收購 Chat.com 域名;AI「電子舌頭」問世,可辨別味道、檢測食品安全丨 RTE 開發者日報OpenAI開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- Vidu 全球首發「主體參照」新功能,一鍵同步角色特徵;GPT-4o 實時音訊專案負責人離職創業丨 RTE 開發者日報特徵GPT音訊創業開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 前 OpenAI 首席科學家建「安全超級智慧」實驗室;Meta 重組元宇宙團隊丨 RTE 開發者日報 Vol.228OpenAI元宇宙開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- 馬斯克的 xAI 融資 60 億美元;英偉達收購兩家 AI 創企丨 RTE 開發者日報 Vol.193馬斯克AI開發者日報