OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203

RTE开发者社区發表於2024-05-14

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@CY@JLT,@ 鮑勃

01 有話題的新聞

1、OpenAI 釋出全新生成式 AI 模型 GPT-4o:語音對話更流暢,免費提供

5 月 14 日,OpenAI 宣佈推出其最新旗艦生成式 AI 模型 GPT-4o,該模型將在未來幾周內分階段整合至 OpenAI 的各個產品之中。GPT-4o 將免費提供給所有使用者使用。

OpenAI 技術長穆裡・穆拉蒂(Muri Murati)表示,GPT-4o 將提供與 GPT-4 同等水平的智慧,但在文字、影像以及語音處理方面均取得了進一步提升。

「GPT-4o 可以綜合利用語音、文字和視覺資訊進行推理,」穆拉蒂在 OpenAI 公司總部舉行的主題演講中表示。GPT-4 是 OpenAI 此前的旗艦模型,可以處理由影像和文字混合而成的資訊,並能完成諸如從影像中提取文字或描述影像內容等任務,GPT-4o 則在此基礎上新增了語音處理能力。

GPT-4o 採用了全新的技術,讓聊天機器人對話的響應速度大幅提升。釋出會上 OpenAI 展示了使用 GPT-4o 進行語音對話的演示。演示者提問結束後,GPT-4o 幾乎可以即時回應,並透過文字轉語音功能進行朗讀,讓對話感覺更加自然逼真。

另一個演示展示了 GPT-4o 根據要求調整說話時語氣,GPT-4o 可以根據指令改變聲音,從誇張戲劇到冰冷機械,展現了出色的可塑性。最後,演示還展示了 GPT-4o 的唱歌功能。

以往,OpenAI 釋出新版 ChatGPT 模型時,通常會將其置於付費牆之後。不過這次 GPT-4o 將免費提供給所有使用者,付費使用者則可以享受五倍的呼叫額度。(@IT 之家)

2、谷歌 I/O 大會官宣:Android 15 和 Gemini AI

5 月 13 日,谷歌宣佈谷歌 I/O 開發者大會(Google I/O 2024)將於美國當地時間 5 月 14 日舉行。

本次大會的重點內容之一是 Android 15,目前谷歌已經推出 Android 15 開發者預覽版,該系統在底層支援了衛星通訊。目前,一些偏遠地區如深山、草原、沙漠、雪地等仍存在通訊死角,而衛星通訊技術的應用大大增強了智慧手機的通訊能力,使我們的溝通方式變得更加可靠和廣泛。

除此之外,本次大會的另一項重要內容是 AI,谷歌將會公佈 Gemini AI 的最新進展。

據悉,Gemini 是谷歌打造的人工智慧模型,可同時識別文字、影像、音訊、影片和程式碼五種型別資訊,還可以理解並生成主流程式語言。谷歌計劃逐步將 Gemini 整合到其搜尋、廣告、Chrome 等其他服務中,谷歌也在思考圍繞 Gemini 人工智慧會有哪些全新的搜尋體驗,這些都將在 I/O 大會上一一呈現。(@ 快科技)

3、位元組跳動收購 OWS 音訊公司大十科技 Oladance,有望推出 AI 智慧眼鏡

位元組跳動已於 3 月份收購 OWS 公司 Oladance 品牌大十科技,收購價格在 3-5 億元之間,目前位元組跳動團隊人員已經進駐大十科技,後期有望推出 AI 智慧眼鏡。Oladance 是深圳市大十未來科技有限公司旗下的音訊品牌,專注於 OWS 全開放穿戴式音訊產品領域。

據瞭解,位元組跳動 2022 年開始就有 AR 眼鏡專案立項,此番收購 Oladance,除了探索和推出 AI OWS 智慧耳機外,公司有望先推出類比 Meta Ray-Ban 的智慧眼鏡,實現先眼鏡 + 音訊 +AI、後 AR 的產品戰略。(@ 維深資訊 wellsennXR)

4、英國推出開源免費 AI 評估平臺 Inspect

英國人工智慧安全研究所( AI Safety Institute )近日推出了一款名為「Inspect」的 AI 模型安全評估平臺,該平臺向全球 AI 工程師免費開放,幫助加快在全球範圍內開展的人工智慧安全評估工作。

官方介紹,Inspect 是一個軟體庫,使測試人員能夠評估各個模型的特定功能,然後根據結果給出分數。Inspect 可用於評估一系列領域的模型,包括其核心知識、推理能力和自主能力。

人工智慧安全研究所主席 Ian Hogarth 表示,「我們希望看到全球人工智慧社群不僅使用 Inspect 進行自己的模型安全測試,而且幫助適應和構建開源平臺,以便我們能夠全面進行高質量的評估」。(@ 愛範兒)

5、訊息稱蘋果準備在美國外銷售 Vision Pro,中法德日為首批國家

5 月 14 日,據知情人士週一透露,蘋果準備開始在美國之外銷售混合現實頭顯 Vision Pro,檢驗這款售價達 3499 美元(約合人民幣 25308 元)的裝置是否有更廣泛的吸引力。Vision Pro 的市場可能擴充至中國、日本、法國和德國。

知情人士透露,數百名來自中國、澳大利亞、德國、法國、日本、韓國和新加坡的國際零售店員工上週飛赴蘋果位於美國加利福尼亞州庫比蒂諾的總部,參加為期四天的線下培訓,學習如何向客戶演示 Vision Pro。

今年 2 月初,當蘋果開始在美國市場發售 Vision Pro 之前,該公司也曾在總部對美國零售店員工進行過培訓,學習如何向客戶演示和回答問題。Vision Pro 在國際市場的確切上市日期尚未宣佈,但預計將在今年的全球開發者大會(WWDC)之後擴充套件到其他國家。今年的全球開發者大會將於 6 月 10 日至 14 日舉行。(@ 騰訊網)

02 有態度的觀點

1、祖克伯:AI 資料中心 GPU 緊缺正在緩解,電力將成新瓶頸

5 月 13 日,Meto CEO 馬克・祖克伯(Mark Zuckerberg)近日在接受油管 Dwarkesh Patel 頻道採訪時表示,AI 資料中心的 GPU 緊缺已在緩解過程中,未來的瓶頸將是電力供應。

祖克伯首先提到,此前一段時間,IT 企業即使資金充足也難以買到全部所需數量的 AI GPU,但這一情況目前已開始緩解。但祖克伯認為 1GW 級別的資料中心不會很快出現,畢竟這相當於將一整個核電機組的發電能力用於訓練 AI。

祖克伯表示,整體而言各國對能源行業的管理更為嚴格,這意味著為大型資料中心建設配套能源設施(包括髮電站、變電站、輸電系統)的審批更為緩慢。同時這些設施本身的建設週期也較長。

AI 資料中心的增長不可能長期維持目前的速度,終將遭遇電力瓶頸:能源行業不同於 AI,資本投入不能在短時間內收穫成效,新增電力供給的交付遠慢於資料中心本身。( @DoNews)

2、李開復:中國需要自己的 ChatGPT 時刻,中國的聊天機器人或工具都不夠好

5 月 13 日,人工智慧創業公司零一萬物 CEO 李開復在接受採訪時表示,中國需要自己的 “ChatGPT 時刻”,2024 年將是中國生成式 AI 應用爆發的一年。李開復表示,中國需要自己的 “ChatGPT 時刻” 來提高人們的興趣、加快普及和投資。“對美國人來說,這一刻發生在 17 個月前,” 李開復在北京透過會議平臺 Zoom 接受採訪時說,“中國使用者還沒有體驗到 ChatGPT 時刻。目前為止,中國的聊天機器人或工具都不夠好。”

與許多全球 AI 創業公司不同的是,李開復透露零一萬物已接近盈利。在對這些模型進行中文和通用資料集的訓練之後,李開復正在將這些模型和應用程式推向全球,並與國內外客戶簽約以增加明年的收入。“2024 年將是中國生成式 AI 應用的爆發年。” 李開復稱。(@ 鳳凰網科技)

03 有思考的文章

《為多模態 LLM 指明方向,邱錫鵬團隊提出具有內生跨模態能力的 SpeechGPT》

「SpeechGPT 突破了傳統語音到語音對話 cascaded system (ASR+LLM+TTS) 的束縛,實現了模態之間的知識傳遞,不需要額外的 ASR 和 TTS 系統也能和 LLM 直接進行語音對話。」

「 SpeechGPT 為打造真正的多模態大語言模型指明瞭方向:將不同模態的資料(視覺,語音等)統一表示為離散單元整合在 LLM 之中,在跨模態資料集上經過預訓練和指令微調,來使得模型具有多模態理解和生成的能力,從而離 AGI 更進一步。」

@ 鮑勃:GPT-4o 釋出後,WebRTC 的核心開發者 Justin Uberti 推薦了復旦大學邱錫鵬團隊的論文:「這篇論文是關於 speech-to-speech 建模的很好的介紹,並詳細介紹了許多挑戰和所需資料集。」

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章