ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報

RTE开发者社区發表於2024-09-25

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、OpenAI 釋出類人 ChatGPT 語音助手:支援中文在內的 50 種語言

今天凌晨,OpenAI 宣佈向更多 ChatGPT 付費使用者推出「高階語音模式」(Advanced Voice Mode,簡稱 AVM )。

目前,OpenAI 提供了兩種型別的語音對話 —— 標準語音和高階語音:

1)高階語音:目前正在向 Plus 和 Team 使用者逐步推出。該功能使用 GPT-4o 的原生音訊技術,能夠實現更加自然的實時對話,並捕捉非語言線索(例如語速),還能作出情感化的回應。

Plus 和 Team 使用者每天對高階語音的使用量有限制,包括語音輸入和輸出。企業版和教育版的使用者將在下週開始獲得該功能。

2)標準語音:適用於所有登入 ChatGPT 的使用者,並可以透過 iOS、macOS 和 Android 應用使用。

標準語音透過多種模型生成響應,包括將語音轉錄為文字,再傳遞給模型進行回答。

儘管標準語音不像高階語音那樣具備原生多模式功能,但它仍然使用 GPT-4o 和 GPT-4o mini。需要注意的是,標準語音中的每一次提示都會計入訊息限制。

AVM 將在一週內逐步向所有 Plus 和 Team 使用者推送。在等待期間,OpenAI 還增加了「自定義指令」、記憶功能、五種新語音和改進的口音支援,還可以用超過 50 種語言說「抱歉,我遲到了」,同時支援中文模式。

此外,ChatGPT 還新增了五種可供使用者體驗的語音:Arbor、Maple、Sol、 Spruce 和 Vale,加上之前的 Breeze、Juniper、Cove 和 Ember,ChatGPT 語音總數達到了九種,幾乎趕上了谷歌 Gemini Live 的數量。

OpenAI 表示,自從 AVM 的有限 alpha 測試釋出以來,已經進行了多項改進。據稱 ChatGPT 的語音功能現在對口音的理解能力更強,且對話更加順暢和迅速。

OpenAI 還將 ChatGPT 部分定製功能擴充套件到了 AVM,包括「自定義指令」,允許使用者個性化 ChatGPT 的響應方式,以及「記憶功能」,讓 ChatGPT 能夠記住之前的對話以供以後參考。(@ 有新 Newin)

2、位元組版 Sora 終於來了,一口氣釋出兩款影片模型

位元組跳動旗下的火山引擎在深圳辦了一場 AI 創新巡展,一口氣釋出了兩款影片生成大模型,正式宣告進軍 AI 影片生成。這兩款模型,一個名為 PixelDance,一個名為 Seaweed,不僅在審美、動幅上提升了一個 level,還破解了多主體互動和一致性難題。

豆包影片生成模型能夠實現複雜的多主體互動。這意味著多個影片中的人物可以在不同鏡頭中自然地完成複雜的互動動作,人物的樣貌、服裝和細節在不同鏡頭的切換下仍然保持一致,接近真實拍攝的效果。

這種一致性得益於 DiT 架構(融合計算單元)的應用,使得影片生成在動態和運鏡之間可以靈活切換,支援多種鏡頭語言,如變焦、環繞、平搖、縮放、目標跟隨等。(@ 小互 AI)

3、OpenAI 釋出 MMMLU 資料集:更廣、更深評估 AI 模型,支援簡體中文

OpenAI 在 Hugging Face 上釋出了多語言大規模多工語言理解(MMMLU)資料集,涵蓋各種主題、學科領域和語言,旨在評估大型語言模型(LLMs)在各種任務中的效能,包括不同研究領域中的常識、推理、解決問題和理解能力。
MMMLU 資料集是涵蓋範圍廣、考驗深層認知的多語言資料集,支援簡體中文等多樣語言,可以進行跨語言的綜合評估,彌補了 NLP 研究中代表性不足的語言模型的評估問題。(@ 極客日報)

4、騰訊 Robotics X 實驗室人居環境機器人「5 號」正式亮相

騰訊 Robotics X 實驗室今日在官方公眾號發文,宣佈該實驗室最新研發成果人居環境機器人「5 號」(The Five,小五)正式亮相。

官方表示,小五作為騰訊 Robotics X 實驗室最新一代機器人,集合了此前多代機器人研發的核心能力,融合了四腿輪足複合設計、大面積觸覺皮膚、多指靈巧手以及安全人機物理互動等多項自研技術。( @APPSO)

5、VideoLingo——一鍵全自動影片翻譯工具

VideoLingo 是一站式影片翻譯本地化配音工具,旨在生成 Netflix 級別的高質量字幕,告別生硬機翻和多行字幕,並提供高質量的配音。透過直觀的 Streamlit 網頁介面,只需點選兩下即可完成從影片連結到內嵌高質量雙語字幕甚至帶上配音的整個流程,輕鬆建立 Netflix 品質的本地化影片。(@ 機器之心 SOTA 模型)

02 有態度的觀點

1、谷歌 CEO 皮查伊:AI 不會取代程式設計師,反而會讓更多人成為程式設計師

近年來,人工智慧(AI)的飛速發展引發了廣泛討論,人們擔心 AI 是否會取代人類的工作。藝術家和程式設計師尤其擔心,因為 AI 似乎能夠勝任這兩項工作。然而,谷歌及其母公司 Alphabet 的 CEO 桑達爾・皮查伊(Sundar Pichai)認為,AI 不會取代程式設計師,相反,其將幫助更多人成為程式設計師。

皮查伊在卡內基梅隆大學的演講中談到了 AI 對程式設計工作的影響,他表示,AI 最有可能幫助人們,而不是取代他們。它可以幫助現有程式設計師專注於更高階的任務,而不是重複解決同樣的問題。此外,皮查伊認為 AI 將降低程式設計的門檻,使更多人能夠透過自然語言的方式進行程式設計,就像使用一種創意工具一樣。

皮查伊還將 AI 能夠在日常活動中為眾多專業人士提供幫助的能力描述為看待人工智慧的「正確視角」,他還稱「人工智慧」這個詞不太恰當,容易讓人產生比較的想法,其實不必如此。他認為一個更好的術語應該是「賦能智慧」,並且他「打賭未來會有更多的人進行程式設計」。(@IT 之家)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章