上海交大開源超逼真聲音克隆 TTS；微軟探索音生圖 AI 模型丨 RTE 開發者日報

這裡是 「RTE 開發者日報」，每天和大家一起看新聞、聊八卦。

我們的社群編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@SSN，@ 鮑勃

01 有話題的新聞

1、Adobe 推出全新 AI 影片生成器 Firefly Video Model，完全使用授權內容進行訓練

Adobe 公司今日釋出了全新的人工智慧驅動的文字轉影片工具 Firefly Video Model。該工具能夠根據文字提示生成全新的影片，與競爭對手不同，Adobe 聲稱 Firefly Video Model 完全使用授權內容進行訓練，有望規避其他生成式 AI 工具所面臨的倫理和版權問題。

由於其使用授權內容進行訓練，Adobe 稱 Firefly Video Model 是「第一個公開可用的商業安全影片模型」。然而，Adobe 尚未宣佈其正式釋出日期，並且在測試階段僅向等待名單上的使用者提供訪問許可權。

自至少 2023 年 4 月以來，Adobe 一直在開發這款新模型，其基礎技術源自該公司為 Firefly 影像合成模型所開發的技術。與該公司後來整合到 Photoshop 中的文字轉影像生成器一樣，Adobe 希望將 Firefly Video Model 瞄準媒體專業人士，如影片創作者和編輯。該公司聲稱其模型可以生成與傳統制作的影片內容無縫融合的素材。

雖然 Adobe 尚未透露任何使用其影片工具的客戶，但據路透社報導，一些主要品牌已經使用其影像生成技術。百事可樂旗下的佳得樂計劃使用 Adobe 的影像模型為定製瓶子設計網站提供服務。美泰公司一直在使用 Adobe 工具協助設計芭比產品包裝。（@IT 之家）

2、微軟生成式 AI 研究副總裁 Sebastien Bubeck，加入 OpenAI

路透社訊息，微軟生成式 AI 研究副總裁 Sebastien Bubeck 將離開微軟，加入 OpenAI。

Bubeck 是描述微軟 Phi 模型的主要作者之一，這是一系列超小型語言和視覺模型，旨在推動 AI 應用到邊緣裝置。隨著像 OpenAI 的 GPT-4o 這樣的龐大集中模型在某些市場逐漸被快速、私密且離線工作的裝置模型所取代，這種專業知識變得越來越重要。

微軟發言人表示，Sebastian 已決定離開微軟，進一步開發 AGI。我們期待透過 Bubeck 與 OpenAI 的合作來繼續維持雙方的關係。

Sebastien Bubeck 是微軟一位重要研究人員，其研究涵蓋深度學習、機器學習、最佳化和演算法理論等多個方面。（@AIGC 開發者社群）

3、微軟探索音生圖 AI 模型，實時視覺化會議演講者語音講述的場景

科技媒體 MSPoweruser 稱微軟公司獲得了一項新的專利，描述了基於使用者實時輸入的語音來生成圖片。

根據美國商標和專利局最新公示的清單，該專利共計 20 頁，微軟於2023年4月5日提交申請，於 10 月 10 日獲批。

根據專利描述，該系統可以在會議或講座中實時捕捉音訊，隨後透過語言模型進行總結，並生成相應的 AI 影像。

IT 之家援引該媒體報導，該工作會分為 3 個步驟：

捕捉音訊 ：使用者透過麥克風發言，系統實時記錄並轉化為文字。
處理文字 ：分段記錄文字，每段內容透過語言模型進行總結。
生成影像 ：根據總結生成的提示，系統建立 AI 生成的影像，並在螢幕上實時顯示。

預計該功能將主要應用於 Microsoft Teams。隨著演講者話題的變化，實時生成的影像也會隨之更新，從而增強視覺溝通的效果。微軟表示，這種影像的使用有助於澄清概念，特別適合透過視覺輔助學習的使用者。（@IT 之家）

4、F5-TTS：上海交大開源超逼真聲音克隆 TTS，告別 ElevenLabs

F5-TTS 是一款基於流匹配的全非自迴歸文字到語音轉換系統。不需要複雜的設計如持續時間模型、文字編碼器和音素對齊，能夠快速訓練並實現實時因素（RTF）0.15 的推理速度，顯著優於當前基於擴散的 TTS 模型。F5-TTS 在公共的 100K 小時多語言資料集上進行訓練，展現出高自然性和表現力的零樣本能力、無縫程式碼切換能力和速度控制效率。專案提出了一種推理時的搖擺取樣策略，顯著提高了模型的效能和效率。

模型特點有：

零樣本（Zero-shot）聲音克隆
速度控制（基於總時長）
可以控制合成語音的情感表現
長文字合成
支援中文和英文多語言合成
在 10 萬小時資料上訓練
最重要的是支援商用（@ 開源 AI 專案落地）

5、One-Click Creative Template：創意模型用一張卡通圖片總結 4 張真實人物照片

FLUX.1-dev-LoRA-One-Click-Creative-Template 是由 Shakker Labs 提供的一個用於文字生成影像（Text-to-Image）的模板模型，專為創造性照片生成而設計。

模型會根據你的輸入提示詞生成 4 張背景照片，背景部分由 4 張真實照片組成，並在其中央插入一張卡通風格的影像，作為對整個場景的總結。（@ 小互 AI）

02 有態度的觀點

1、Benchmark 合夥人：訓練大模型目前成本遠大於收入；但理論上成功回報極大，所以你仍需不斷加註

David Cahn 在文章《AI's $600B Question》中論述道，鑑於 NVIDIA 預計 2024 年第四季度的收入為 1500 億美元，要收回為訓練和執行大語言模型所投入的鉅額資金，現在 AI 收入需要達到 6000 億美元，而在這方面我們至少還差 5000 億美元。這個數字確實令人震驚……而且只會越來越大。

隨著 LLM 的進步，它將超越程式碼補全（「Copilot」）的功能，進入程式碼創作（「Autopilot」）的領域，價值創造幾乎沒有上限，因為這將極大地擴充套件市場——如果有人成為主導者，這將是一個潛在的數萬億美元的機會。AI 的潛在價值創造和獲取，已經超出了我們現有的思維模型。

挑戰在於，每訓練一個更復雜的 LLM 所需的資金量都會呈數量級增加，而且一旦某個模型被另一個超越，舊模型的定價權會迅速降為零。如今，開發者可選擇的 GPT3.5 等價模型已經多到不值得一一嘗試。當 GPT3.5 在 2022 年 11 月釋出時，它遙遙領先於任何競爭模型，1000 個 tokens 的成本是 0.0200 美元。而現在，這個價格已經降到 0.0005 美元——僅僅 1 年半內價格下降至原來的 2.5%。這種動態使得此時此刻幾乎不可能為任何投資的 LLM 找到合理的投資回報率，因為每一筆投資幾乎都會在下一個版本推出時立刻貶值。然而，我們也無法跳過任何步驟。要實現最終的理想目標，理想化的「AGI」，需要經歷無數看似毫無價值的版本。

最終結果是，在短期內，除非在繼續投資現有 Transformer 架構的基礎設施的邊際價值上達到了一個有效前沿，或者電力資源耗盡，亦或是某個團隊憑藉智慧的演算法工作取得無法超越的領先地位，否則 Meta、Microsoft、Google 這些巨頭在這一領域的投資必將繼續大幅增加，而成本必然會先於收入。理論上，回報是如此之大，如果有一個明確的贏家出現，他們的市場機會幾乎是無上限的，因此必須不斷加大賭注。(@Z Potentials)

寫在最後：

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請透過開發者社群或公眾號留言聯絡，記得報暗號「共創」。

對於任何反饋（包括但不限於內容上、形式上）我們不勝感激、並有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、專案、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

上海交大開源超逼真聲音克隆 TTS；微軟探索音生圖 AI 模型丨 RTE 開發者日報

01 有話題的新聞

02 有態度的觀點

相關文章