語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報

RTE开发者社区發表於2024-11-14

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、對標谷歌 NotebookLM!語音生成模型 PlayDialog:可生成對話播客、旁白

近日,Play AI 正式推出其最具雄心的產品 ——PlayDialog beta 版本,能生成對話式的播客音訊。

這款端到端的 AI 語音模型,利用對話的歷史上下文,能夠調控語調、情感和語速,以實現更自然的語音合成,標誌著人機對話的新高度。PlayDialog 特別適合於製作真實的對話體驗,例如旁白、語音配音、合成播客等,也能在商業環境中提供沉浸式的一對一語音交流體驗,效果類似谷歌的 NotebookLM。

與此同時,Play AI 還推出了 PlayNote,這是一款可以將多種媒體檔案(如 PDF、文字、影片等)轉化為對話體驗的工具。使用者可以在幾分鐘內生成播客、簡報、旁白,甚至是兒童故事,並享受到 PlayDialog 所帶來的流暢、自然的語音效果。PlayNote 的獨特之處在於,它也提供 API 介面,使得使用者可以不依賴使用者介面,輕鬆實現音訊內容的程式化生成。

PlayDialog beta 經過數億次真實對話的訓練,模型規模約為 Play AI3.0mini 的十倍,能夠在語調(如語音的抑揚頓挫、語速)上與人類的語音表現相匹配。在盲測中,PlayDialog beta 的表現比市場上領先的競爭模型高出兩倍,特別是在表達力方面得分最高。

不同於以往的語音模型,PlayDialog beta 可以理解整段對話的上下文,進而影響語音生成的效果。Play AI 構建了一種被稱為「自適應語音上下文化器」(ASC)的新架構,使得模型能夠利用完整的對話歷史進行回應,從而讓每一句話都不是孤立的輸出,而是豐富的具備合適的語調、情感和語氣,使得合成的播客彷彿讓聽眾感受到演講者在同一空間內進行交流。

無論是充滿活力的討論,還是需要同理心的敏感話題,PlayDialog 都能無縫適應,讓互動顯得更加自然和人性化。

使用者可以透過 PlayNote 體驗這一切,使用它製作強有力、自然的旁白、播客、簡報等,只需幾分鐘就能完成。PlayNote 也可以透過 API 介面使用,允許開發者以大規模程式化方式生成引人入勝的內容。(@ 小夏聊 AIGC)

2、生數科技 Vidu 大模型迎來 1.5 新版本

(圖源:Vidu)

昨日,生數科技官方公眾號宣佈,Vidu 大模型迎來 1.5 版本。官方表示,Vidu 的技術突破主要在以下三個方面:

複雜主體的精準控制:無論是細節豐富的角色,還是複雜的物體,Vidu 都能保證其在多個不同視角下的一致性。

人物面部特徵和動態表情的自然一致:在人物特寫鏡頭中,Vidu 能夠自然且流暢地保持人物面部特徵和表情的連貫性,避免了面部僵硬或失真的現象。

多主體一致性:Vidu 允許使用者上傳多個主體影像,包括人物角色、道具物體、環境背景等,並在影片生成中實現這些元素的互動。

官方表示,Vidu 1.5 的推出,揭示了一個重要現象:視覺模型與語言模型一樣,經過充分的訓練,模型能夠展現出對上下文的深刻理解、記憶等能力。(@ APPSO)

3、AI 試衣技術 Fashion-VDM 顛覆傳統 網購衣服再也不怕踩雷了!

Google Research 團隊最新研發的 Fashion-VDM 技術,讓人足不出戶就能體驗試穿各種漂亮衣服的快感。

Fashion-VDM 是一個影片擴散模型,只要你提供一件衣服的照片和一段你自己的影片,它就能生成一段你穿著這件衣服的影片,而且效果超級逼真!

市面上的虛擬試衣軟體大多是基於影像的,只能生成靜態圖片,而且效果經常慘不忍睹,衣服穿在你身上就像貼紙一樣,毫無真實感可言。Fashion-VDM 則完全不同,它生成的是動態影片,不僅能展示衣服在不同角度的穿著效果,還能模擬衣服的動態變化,比如褶皺、擺動等等,簡直和真人試穿一模一樣。

Fashion-VDM 的秘訣在於它採用了分離式無分類器引導技術(split-CFG),這項技術可以更精確地控制人物和服裝的資訊,確保生成的影片既保留了你本人的特徵,又完美地展現了衣服的細節。

為了讓影片更加流暢自然,Fashion-VDM 還採用了一種漸進式時間訓練策略,先用大量的圖片資料訓練模型,然後再逐步增加影片資料的訓練時長,最終生成長達 64 幀的超長影片,徹底告別畫面卡頓和閃爍!

更厲害的是,Fashion-VDM 還結合了影像和影片資料進行聯合訓練,這意味著它不僅能從圖片中學習服裝的細節,還能從影片中學習人物的動作和服裝的動態變化,最終生成更加真實、更具說服力的試衣影片。

當然,Fashion-VDM 目前還有一些侷限性,比如在處理遮擋的服裝區域時,細節可能不夠準確,人物體型也可能出現輕微變形。(@AIbase 基地)

4、報導稱小米 AI 眼鏡將於明年 Q2 釋出

據「智慧湧現」獨家報導,小米正計劃推出新一代 AI 眼鏡,數月前已與歌爾合作,該產品預計於 2025 年 Q2 釋出。

有知情人士表示,小米 AI 眼鏡將「全面對標 Meta Ray-ban」,搭載 AI 功能、音訊耳機模組、攝像頭模組,並將以小米自有品牌形式釋出。

據稱對於這款產品的出貨量,雷軍的預期「在三十萬臺往上」。

報導還指出,OPPO、vivo、華為、騰訊、位元組近期也都在評估 AI 眼鏡專案;蘋果也被外媒曝光已組織團隊重點評估 AI 眼鏡市場。

財聯社記者以投資者身份致電歌爾股份,相關人士回應稱,公司對具體客戶資訊及專案內容不予透露。公司 AI 眼鏡業務現階段尚未量產,主要產品可應用於 AI 眼鏡等終端產品。(@ APPSO)

5、傳蘋果將推出 AI 智慧家居中控屏

據彭博社的 Mark Gurman 報導,蘋果公司正在開發一款新的智慧家居產品——一款壁掛式螢幕,擁有控制家電、與 Siri 互動和視訊會議等功能。

螢幕看起來像一個方形的 iPad,擁有大約 6 英寸的螢幕,頂部配有攝像頭,內建揚聲器和可充電電池。其已開發三年,可能會在明年 3 月正式宣佈。

這款裝置在功能上與 Google Home Hub 和亞馬遜的 Echo Show 相似,但蘋果的智慧家居控制中心的獨特之處可能是蘋果 AI,包括 10 月下旬開始向使用者推出的 Apple Intelligence 以及即將到來的 App Intents 系統,該系統可使用 AI 控制軟體程式。

此外,蘋果還在開發一款帶有機械臂的版本,能夠移動平板裝置。這表明蘋果可能不僅僅是在開發一個智慧裝置控制皮膚,而是在尋求更先進的智慧家居解決方案。(@ APPSO)

02 有態度的觀點

1、Glean 創始人:AI 創業者應從使用者出發

在紅杉資本的深度訪談中,Glean 的創始人 Arvind Jain 分享了企業搜尋和 AI 應用在企業內部落地的挑戰與機遇。

他強調,為了構建有效的 AI 應用,必須先建立強大的資料基礎設施,包括深入整合企業系統、健全的安全和許可權框架,以及理解人與內容、上下文之間關係的複雜知識圖譜。

Jain 表示企業搜尋的難點在於資料的私有性、基於許可權的訪問和深刻的上下文依賴性,因此,理解組織結構、使用者角色和訪問許可權至關重要。

Jain 還指出,AI 創業者應從使用者出發,先透過關鍵功能為使用者提供清晰的價值,再擴充套件到更多的 AI 功能,這有助於建立企業信任併為高階功能提供所需的資料基礎。

他預見 AI 助手將在未來主動幫助使用者完成工作,改變工作方式,使得每個人都能擁有強大的 AI 助手來提升工作效率。

此外,Jain 建議創業者應專注於解決業務問題,而不是單純追求 AI 技術,因為 AI 只是解決問題的工具之一。(@ APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章