上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報
這裡是 「RTE 開發者日報 」,每天和大家一起看新聞、聊八卦。
我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、Adobe 推出全新 AI 影片生成器 Firefly Video Model,完全使用授權內容進行訓練
Adobe 公司今日釋出了全新的人工智慧驅動的文字轉影片工具 Firefly Video Model。該工具能夠根據文字提示生成全新的影片,與競爭對手不同,Adobe 聲稱 Firefly Video Model 完全使用授權內容進行訓練,有望規避其他生成式 AI 工具所面臨的倫理和版權問題。
由於其使用授權內容進行訓練,Adobe 稱 Firefly Video Model 是「第一個公開可用的商業安全影片模型」。然而,Adobe 尚未宣佈其正式釋出日期,並且在測試階段僅向等待名單上的使用者提供訪問許可權。
自至少 2023 年 4 月以來,Adobe 一直在開發這款新模型,其基礎技術源自該公司為 Firefly 影像合成模型所開發的技術。與該公司後來整合到 Photoshop 中的文字轉影像生成器一樣,Adobe 希望將 Firefly Video Model 瞄準媒體專業人士,如影片創作者和編輯。該公司聲稱其模型可以生成與傳統制作的影片內容無縫融合的素材。
雖然 Adobe 尚未透露任何使用其影片工具的客戶,但據路透社報導,一些主要品牌已經使用其影像生成技術。百事可樂旗下的佳得樂計劃使用 Adobe 的影像模型為定製瓶子設計網站提供服務。美泰公司一直在使用 Adobe 工具協助設計芭比產品包裝。(@IT 之家)
2、微軟生成式 AI 研究副總裁 Sebastien Bubeck,加入 OpenAI
路透社訊息,微軟生成式 AI 研究副總裁 Sebastien Bubeck 將離開微軟,加入 OpenAI。
Bubeck 是描述微軟 Phi 模型的主要作者之一,這是一系列超小型語言和視覺模型,旨在推動 AI 應用到邊緣裝置。隨著像 OpenAI 的 GPT-4o 這樣的龐大集中模型在某些市場逐漸被快速、私密且離線工作的裝置模型所取代,這種專業知識變得越來越重要。
微軟發言人表示,Sebastian 已決定離開微軟,進一步開發 AGI。我們期待透過 Bubeck 與 OpenAI 的合作來繼續維持雙方的關係。
Sebastien Bubeck 是微軟一位重要研究人員,其研究涵蓋深度學習、機器學習、最佳化和演算法理論等多個方面。(@AIGC 開發者社群)
3、微軟探索音生圖 AI 模型,實時視覺化會議演講者語音講述的場景
科技媒體 MSPoweruser 稱微軟公司獲得了一項新的專利,描述了基於使用者實時輸入的語音來生成圖片。
根據美國商標和專利局最新公示的清單,該專利共計 20 頁,微軟於2023年4月5日提交申請,於 10 月 10 日獲批。
根據專利描述,該系統可以在會議或講座中實時捕捉音訊,隨後透過語言模型進行總結,並生成相應的 AI 影像。
IT 之家援引該媒體報導,該工作會分為 3 個步驟:
捕捉音訊 :使用者透過麥克風發言,系統實時記錄並轉化為文字。
處理文字 :分段記錄文字,每段內容透過語言模型進行總結。
生成影像 :根據總結生成的提示,系統建立 AI 生成的影像,並在螢幕上實時顯示。
預計該功能將主要應用於 Microsoft Teams。隨著演講者話題的變化,實時生成的影像也會隨之更新,從而增強視覺溝通的效果。微軟表示,這種影像的使用有助於澄清概念,特別適合透過視覺輔助學習的使用者。(@IT 之家)
4、F5-TTS:上海交大開源超逼真聲音克隆 TTS,告別 ElevenLabs
F5-TTS 是一款基於流匹配的全非自迴歸文字到語音轉換系統。不需要複雜的設計如持續時間模型、文字編碼器和音素對齊,能夠快速訓練並實現實時因素(RTF)0.15 的推理速度,顯著優於當前基於擴散的 TTS 模型。F5-TTS 在公共的 100K 小時多語言資料集上進行訓練,展現出高自然性和表現力的零樣本能力、無縫程式碼切換能力和速度控制效率。專案提出了一種推理時的搖擺取樣策略,顯著提高了模型的效能和效率。
模型特點有:
- 零樣本(Zero-shot)聲音克隆
- 速度控制(基於總時長)
- 可以控制合成語音的情感表現
- 長文字合成
- 支援中文和英文多語言合成
- 在 10 萬小時資料上訓練
- 最重要的是支援商用(@ 開源 AI 專案落地)
5、One-Click Creative Template:創意模型 用一張卡通圖片總結 4 張真實人物照片
FLUX.1-dev-LoRA-One-Click-Creative-Template 是由 Shakker Labs 提供的一個用於 文字生成影像(Text-to-Image)的模板模型,專為創造性照片生成而設計。
模型會根據你的輸入提示詞生成 4 張背景照片,背景部分由 4 張真實照片組成,並在其中央插入一張卡通風格的影像,作為對整個場景的總結。(@ 小互 AI)
02 有態度的觀點
1、Benchmark 合夥人:訓練大模型目前成本遠大於收入;但理論上成功回報極大,所以你仍需不斷加註
David Cahn 在文章《AI's $600B Question》中論述道,鑑於 NVIDIA 預計 2024 年第四季度的收入為 1500 億美元,要收回為訓練和執行大語言模型所投入的鉅額資金,現在 AI 收入需要達到 6000 億美元,而在這方面我們至少還差 5000 億美元。這個數字確實令人震驚……而且只會越來越大。
隨著 LLM 的進步,它將超越程式碼補全(「Copilot」)的功能,進入程式碼創作(「Autopilot」)的領域,價值創造幾乎沒有上限,因為這將極大地擴充套件市場——如果有人成為主導者,這將是一個潛在的數萬億美元的機會。AI 的潛在價值創造和獲取,已經超出了我們現有的思維模型。
挑戰在於,每訓練一個更復雜的 LLM 所需的資金量都會呈數量級增加,而且一旦某個模型被另一個超越,舊模型的定價權會迅速降為零。如今,開發者可選擇的 GPT3.5 等價模型已經多到不值得一一嘗試。當 GPT3.5 在 2022 年 11 月釋出時,它遙遙領先於任何競爭模型,1000 個 tokens 的成本是 0.0200 美元。而現在,這個價格已經降到 0.0005 美元——僅僅 1 年半內價格下降至原來的 2.5%。這種動態使得此時此刻幾乎不可能為任何投資的 LLM 找到合理的投資回報率,因為每一筆投資幾乎都會在下一個版本推出時立刻貶值。然而,我們也無法跳過任何步驟。要實現最終的理想目標,理想化的「AGI」,需要經歷無數看似毫無價值的版本。
最終結果是,在短期內,除非在繼續投資現有 Transformer 架構的基礎設施的邊際價值上達到了一個有效前沿,或者電力資源耗盡,亦或是某個團隊憑藉智慧的演算法工作取得無法超越的領先地位,否則 Meta、Microsoft、Google 這些巨頭在這一領域的投資必將繼續大幅增加,而成本必然會先於收入。理論上,回報是如此之大,如果有一個明確的贏家出現,他們的市場機會幾乎是無上限的,因此必須不斷加大賭注。(@Z Potentials)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 23 款開源的聲音、視覺生產工具視覺
- ChatTTS,語氣韻律媲美真人的開源TTS模型,文字轉語音界的新魁首,對標微軟Azure-ttsTTS模型微軟
- OpenAI:可從15秒的音訊中克隆出聲音OpenAI音訊
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 開源語音合成庫 coqui TTS 使用記錄UITTS
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 國產最強語音大模型誕生,MaskGCT宣佈開源,聲音效果媲美人類大模型GC
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- 殺瘋了!谷歌卷影片到語音,逼真音效讓AI影片告別無聲!谷歌AI
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報