語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、對標谷歌 NotebookLM!語音生成模型 PlayDialog:可生成對話播客、旁白
近日,Play AI 正式推出其最具雄心的產品 ——PlayDialog beta 版本,能生成對話式的播客音訊。
這款端到端的 AI 語音模型,利用對話的歷史上下文,能夠調控語調、情感和語速,以實現更自然的語音合成,標誌著人機對話的新高度。PlayDialog 特別適合於製作真實的對話體驗,例如旁白、語音配音、合成播客等,也能在商業環境中提供沉浸式的一對一語音交流體驗,效果類似谷歌的 NotebookLM。
與此同時,Play AI 還推出了 PlayNote,這是一款可以將多種媒體檔案(如 PDF、文字、影片等)轉化為對話體驗的工具。使用者可以在幾分鐘內生成播客、簡報、旁白,甚至是兒童故事,並享受到 PlayDialog 所帶來的流暢、自然的語音效果。PlayNote 的獨特之處在於,它也提供 API 介面,使得使用者可以不依賴使用者介面,輕鬆實現音訊內容的程式化生成。
PlayDialog beta 經過數億次真實對話的訓練,模型規模約為 Play AI3.0mini 的十倍,能夠在語調(如語音的抑揚頓挫、語速)上與人類的語音表現相匹配。在盲測中,PlayDialog beta 的表現比市場上領先的競爭模型高出兩倍,特別是在表達力方面得分最高。
不同於以往的語音模型,PlayDialog beta 可以理解整段對話的上下文,進而影響語音生成的效果。Play AI 構建了一種被稱為「自適應語音上下文化器」(ASC)的新架構,使得模型能夠利用完整的對話歷史進行回應,從而讓每一句話都不是孤立的輸出,而是豐富的具備合適的語調、情感和語氣,使得合成的播客彷彿讓聽眾感受到演講者在同一空間內進行交流。
無論是充滿活力的討論,還是需要同理心的敏感話題,PlayDialog 都能無縫適應,讓互動顯得更加自然和人性化。
使用者可以透過 PlayNote 體驗這一切,使用它製作強有力、自然的旁白、播客、簡報等,只需幾分鐘就能完成。PlayNote 也可以透過 API 介面使用,允許開發者以大規模程式化方式生成引人入勝的內容。(@ 小夏聊 AIGC)
2、生數科技 Vidu 大模型迎來 1.5 新版本
(圖源:Vidu)
昨日,生數科技官方公眾號宣佈,Vidu 大模型迎來 1.5 版本。官方表示,Vidu 的技術突破主要在以下三個方面:
複雜主體的精準控制:無論是細節豐富的角色,還是複雜的物體,Vidu 都能保證其在多個不同視角下的一致性。
人物面部特徵和動態表情的自然一致:在人物特寫鏡頭中,Vidu 能夠自然且流暢地保持人物面部特徵和表情的連貫性,避免了面部僵硬或失真的現象。
多主體一致性:Vidu 允許使用者上傳多個主體影像,包括人物角色、道具物體、環境背景等,並在影片生成中實現這些元素的互動。
官方表示,Vidu 1.5 的推出,揭示了一個重要現象:視覺模型與語言模型一樣,經過充分的訓練,模型能夠展現出對上下文的深刻理解、記憶等能力。(@ APPSO)
3、AI 試衣技術 Fashion-VDM 顛覆傳統 網購衣服再也不怕踩雷了!
Google Research 團隊最新研發的 Fashion-VDM 技術,讓人足不出戶就能體驗試穿各種漂亮衣服的快感。
Fashion-VDM 是一個影片擴散模型,只要你提供一件衣服的照片和一段你自己的影片,它就能生成一段你穿著這件衣服的影片,而且效果超級逼真!
市面上的虛擬試衣軟體大多是基於影像的,只能生成靜態圖片,而且效果經常慘不忍睹,衣服穿在你身上就像貼紙一樣,毫無真實感可言。Fashion-VDM 則完全不同,它生成的是動態影片,不僅能展示衣服在不同角度的穿著效果,還能模擬衣服的動態變化,比如褶皺、擺動等等,簡直和真人試穿一模一樣。
Fashion-VDM 的秘訣在於它採用了分離式無分類器引導技術(split-CFG),這項技術可以更精確地控制人物和服裝的資訊,確保生成的影片既保留了你本人的特徵,又完美地展現了衣服的細節。
為了讓影片更加流暢自然,Fashion-VDM 還採用了一種漸進式時間訓練策略,先用大量的圖片資料訓練模型,然後再逐步增加影片資料的訓練時長,最終生成長達 64 幀的超長影片,徹底告別畫面卡頓和閃爍!
更厲害的是,Fashion-VDM 還結合了影像和影片資料進行聯合訓練,這意味著它不僅能從圖片中學習服裝的細節,還能從影片中學習人物的動作和服裝的動態變化,最終生成更加真實、更具說服力的試衣影片。
當然,Fashion-VDM 目前還有一些侷限性,比如在處理遮擋的服裝區域時,細節可能不夠準確,人物體型也可能出現輕微變形。(@AIbase 基地)
4、報導稱小米 AI 眼鏡將於明年 Q2 釋出
據「智慧湧現」獨家報導,小米正計劃推出新一代 AI 眼鏡,數月前已與歌爾合作,該產品預計於 2025 年 Q2 釋出。
有知情人士表示,小米 AI 眼鏡將「全面對標 Meta Ray-ban」,搭載 AI 功能、音訊耳機模組、攝像頭模組,並將以小米自有品牌形式釋出。
據稱對於這款產品的出貨量,雷軍的預期「在三十萬臺往上」。
報導還指出,OPPO、vivo、華為、騰訊、位元組近期也都在評估 AI 眼鏡專案;蘋果也被外媒曝光已組織團隊重點評估 AI 眼鏡市場。
財聯社記者以投資者身份致電歌爾股份,相關人士回應稱,公司對具體客戶資訊及專案內容不予透露。公司 AI 眼鏡業務現階段尚未量產,主要產品可應用於 AI 眼鏡等終端產品。(@ APPSO)
5、傳蘋果將推出 AI 智慧家居中控屏
據彭博社的 Mark Gurman 報導,蘋果公司正在開發一款新的智慧家居產品——一款壁掛式螢幕,擁有控制家電、與 Siri 互動和視訊會議等功能。
螢幕看起來像一個方形的 iPad,擁有大約 6 英寸的螢幕,頂部配有攝像頭,內建揚聲器和可充電電池。其已開發三年,可能會在明年 3 月正式宣佈。
這款裝置在功能上與 Google Home Hub 和亞馬遜的 Echo Show 相似,但蘋果的智慧家居控制中心的獨特之處可能是蘋果 AI,包括 10 月下旬開始向使用者推出的 Apple Intelligence 以及即將到來的 App Intents 系統,該系統可使用 AI 控制軟體程式。
此外,蘋果還在開發一款帶有機械臂的版本,能夠移動平板裝置。這表明蘋果可能不僅僅是在開發一個智慧裝置控制皮膚,而是在尋求更先進的智慧家居解決方案。(@ APPSO)
02 有態度的觀點
1、Glean 創始人:AI 創業者應從使用者出發
在紅杉資本的深度訪談中,Glean 的創始人 Arvind Jain 分享了企業搜尋和 AI 應用在企業內部落地的挑戰與機遇。
他強調,為了構建有效的 AI 應用,必須先建立強大的資料基礎設施,包括深入整合企業系統、健全的安全和許可權框架,以及理解人與內容、上下文之間關係的複雜知識圖譜。
Jain 表示企業搜尋的難點在於資料的私有性、基於許可權的訪問和深刻的上下文依賴性,因此,理解組織結構、使用者角色和訪問許可權至關重要。
Jain 還指出,AI 創業者應從使用者出發,先透過關鍵功能為使用者提供清晰的價值,再擴充套件到更多的 AI 功能,這有助於建立企業信任併為高階功能提供所需的資料基礎。
他預見 AI 助手將在未來主動幫助使用者完成工作,改變工作方式,使得每個人都能擁有強大的 AI 助手來提升工作效率。
此外,Jain 建議創業者應專注於解決業務問題,而不是單純追求 AI 技術,因為 AI 只是解決問題的工具之一。(@ APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 基於釦子AI智慧體生成雙語播客AI智慧體
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 利用非對話語料來豐富對話生成模型模型
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 百度釋出 AI 眼鏡:全球首搭中文大模型,支援邊走邊問;OpenAI 聯合創始人宣佈迴歸,主抓重大技術創新丨 RTE 開發者日報大模型OpenAI開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- IBM研究院釋出自動為新聞播報生成字幕的AI模型IBMAI模型
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 星紀魅族宣佈 All in AI;歐盟將首次對蘋果處以罰款丨 RTE 開發者日報 Vol.146AI蘋果開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- 機器學習之語音生成&&音樂生成機器學習
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報