ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、OpenAI 釋出類人 ChatGPT 語音助手:支援中文在內的 50 種語言
今天凌晨,OpenAI 宣佈向更多 ChatGPT 付費使用者推出「高階語音模式」(Advanced Voice Mode,簡稱 AVM )。
目前,OpenAI 提供了兩種型別的語音對話 —— 標準語音和高階語音:
1)高階語音:目前正在向 Plus 和 Team 使用者逐步推出。該功能使用 GPT-4o 的原生音訊技術,能夠實現更加自然的實時對話,並捕捉非語言線索(例如語速),還能作出情感化的回應。
Plus 和 Team 使用者每天對高階語音的使用量有限制,包括語音輸入和輸出。企業版和教育版的使用者將在下週開始獲得該功能。
2)標準語音:適用於所有登入 ChatGPT 的使用者,並可以透過 iOS、macOS 和 Android 應用使用。
標準語音透過多種模型生成響應,包括將語音轉錄為文字,再傳遞給模型進行回答。
儘管標準語音不像高階語音那樣具備原生多模式功能,但它仍然使用 GPT-4o 和 GPT-4o mini。需要注意的是,標準語音中的每一次提示都會計入訊息限制。
AVM 將在一週內逐步向所有 Plus 和 Team 使用者推送。在等待期間,OpenAI 還增加了「自定義指令」、記憶功能、五種新語音和改進的口音支援,還可以用超過 50 種語言說「抱歉,我遲到了」,同時支援中文模式。
此外,ChatGPT 還新增了五種可供使用者體驗的語音:Arbor、Maple、Sol、 Spruce 和 Vale,加上之前的 Breeze、Juniper、Cove 和 Ember,ChatGPT 語音總數達到了九種,幾乎趕上了谷歌 Gemini Live 的數量。
OpenAI 表示,自從 AVM 的有限 alpha 測試釋出以來,已經進行了多項改進。據稱 ChatGPT 的語音功能現在對口音的理解能力更強,且對話更加順暢和迅速。
OpenAI 還將 ChatGPT 部分定製功能擴充套件到了 AVM,包括「自定義指令」,允許使用者個性化 ChatGPT 的響應方式,以及「記憶功能」,讓 ChatGPT 能夠記住之前的對話以供以後參考。(@ 有新 Newin)
2、位元組版 Sora 終於來了,一口氣釋出兩款影片模型
位元組跳動旗下的火山引擎在深圳辦了一場 AI 創新巡展,一口氣釋出了兩款影片生成大模型,正式宣告進軍 AI 影片生成。這兩款模型,一個名為 PixelDance,一個名為 Seaweed,不僅在審美、動幅上提升了一個 level,還破解了多主體互動和一致性難題。
豆包影片生成模型能夠實現複雜的多主體互動。這意味著多個影片中的人物可以在不同鏡頭中自然地完成複雜的互動動作,人物的樣貌、服裝和細節在不同鏡頭的切換下仍然保持一致,接近真實拍攝的效果。
這種一致性得益於 DiT 架構(融合計算單元)的應用,使得影片生成在動態和運鏡之間可以靈活切換,支援多種鏡頭語言,如變焦、環繞、平搖、縮放、目標跟隨等。(@ 小互 AI)
3、OpenAI 釋出 MMMLU 資料集:更廣、更深評估 AI 模型,支援簡體中文
OpenAI 在 Hugging Face 上釋出了多語言大規模多工語言理解(MMMLU)資料集,涵蓋各種主題、學科領域和語言,旨在評估大型語言模型(LLMs)在各種任務中的效能,包括不同研究領域中的常識、推理、解決問題和理解能力。
MMMLU 資料集是涵蓋範圍廣、考驗深層認知的多語言資料集,支援簡體中文等多樣語言,可以進行跨語言的綜合評估,彌補了 NLP 研究中代表性不足的語言模型的評估問題。(@ 極客日報)
4、騰訊 Robotics X 實驗室人居環境機器人「5 號」正式亮相
騰訊 Robotics X 實驗室今日在官方公眾號發文,宣佈該實驗室最新研發成果人居環境機器人「5 號」(The Five,小五)正式亮相。
官方表示,小五作為騰訊 Robotics X 實驗室最新一代機器人,集合了此前多代機器人研發的核心能力,融合了四腿輪足複合設計、大面積觸覺皮膚、多指靈巧手以及安全人機物理互動等多項自研技術。( @APPSO)
5、VideoLingo——一鍵全自動影片翻譯工具
VideoLingo 是一站式影片翻譯本地化配音工具,旨在生成 Netflix 級別的高質量字幕,告別生硬機翻和多行字幕,並提供高質量的配音。透過直觀的 Streamlit 網頁介面,只需點選兩下即可完成從影片連結到內嵌高質量雙語字幕甚至帶上配音的整個流程,輕鬆建立 Netflix 品質的本地化影片。(@ 機器之心 SOTA 模型)
02 有態度的觀點
1、谷歌 CEO 皮查伊:AI 不會取代程式設計師,反而會讓更多人成為程式設計師
近年來,人工智慧(AI)的飛速發展引發了廣泛討論,人們擔心 AI 是否會取代人類的工作。藝術家和程式設計師尤其擔心,因為 AI 似乎能夠勝任這兩項工作。然而,谷歌及其母公司 Alphabet 的 CEO 桑達爾・皮查伊(Sundar Pichai)認為,AI 不會取代程式設計師,相反,其將幫助更多人成為程式設計師。
皮查伊在卡內基梅隆大學的演講中談到了 AI 對程式設計工作的影響,他表示,AI 最有可能幫助人們,而不是取代他們。它可以幫助現有程式設計師專注於更高階的任務,而不是重複解決同樣的問題。此外,皮查伊認為 AI 將降低程式設計的門檻,使更多人能夠透過自然語言的方式進行程式設計,就像使用一種創意工具一樣。
皮查伊還將 AI 能夠在日常活動中為眾多專業人士提供幫助的能力描述為看待人工智慧的「正確視角」,他還稱「人工智慧」這個詞不太恰當,容易讓人產生比較的想法,其實不必如此。他認為一個更好的術語應該是「賦能智慧」,並且他「打賭未來會有更多的人進行程式設計」。(@IT 之家)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- RTE 領域近期詞雲統計釋出;谷歌開始新一輪「瘦身」計劃;使用ChatGPT之後智力提高 50%丨RTE開發者日報 Vol.50谷歌ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報AI開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 自動生成大語言模型的系統指令System或使用者提示User模型
- 500億引數,支援103種語言:谷歌推出「全球文字翻譯」模型谷歌模型
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報