上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報

RTE开发者社区發表於2024-10-15

這裡是 「RTE 開發者日報 」,每天和大家一起看新聞、聊八卦。

我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、Adobe 推出全新 AI 影片生成器 Firefly Video Model,完全使用授權內容進行訓練

Adobe 公司今日釋出了全新的人工智慧驅動的文字轉影片工具 Firefly Video Model。該工具能夠根據文字提示生成全新的影片,與競爭對手不同,Adobe 聲稱 Firefly Video Model 完全使用授權內容進行訓練,有望規避其他生成式 AI 工具所面臨的倫理和版權問題。

由於其使用授權內容進行訓練,Adobe 稱 Firefly Video Model 是「第一個公開可用的商業安全影片模型」。然而,Adobe 尚未宣佈其正式釋出日期,並且在測試階段僅向等待名單上的使用者提供訪問許可權。

自至少 2023 年 4 月以來,Adobe 一直在開發這款新模型,其基礎技術源自該公司為 Firefly 影像合成模型所開發的技術。與該公司後來整合到 Photoshop 中的文字轉影像生成器一樣,Adobe 希望將 Firefly Video Model 瞄準媒體專業人士,如影片創作者和編輯。該公司聲稱其模型可以生成與傳統制作的影片內容無縫融合的素材。

雖然 Adobe 尚未透露任何使用其影片工具的客戶,但據路透社報導,一些主要品牌已經使用其影像生成技術。百事可樂旗下的佳得樂計劃使用 Adobe 的影像模型為定製瓶子設計網站提供服務。美泰公司一直在使用 Adobe 工具協助設計芭比產品包裝。(@IT 之家)

2、微軟生成式 AI 研究副總裁 Sebastien Bubeck,加入 OpenAI

路透社訊息,微軟生成式 AI 研究副總裁 Sebastien Bubeck 將離開微軟,加入 OpenAI。

Bubeck 是描述微軟 Phi 模型的主要作者之一,這是一系列超小型語言和視覺模型,旨在推動 AI 應用到邊緣裝置。隨著像 OpenAI 的 GPT-4o 這樣的龐大集中模型在某些市場逐漸被快速、私密且離線工作的裝置模型所取代,這種專業知識變得越來越重要。

微軟發言人表示,Sebastian 已決定離開微軟,進一步開發 AGI。我們期待透過 Bubeck 與 OpenAI 的合作來繼續維持雙方的關係。

Sebastien Bubeck 是微軟一位重要研究人員,其研究涵蓋深度學習、機器學習、最佳化和演算法理論等多個方面。(@AIGC 開發者社群)

3、微軟探索音生圖 AI 模型,實時視覺化會議演講者語音講述的場景

科技媒體 MSPoweruser 稱微軟公司獲得了一項新的專利,描述了基於使用者實時輸入的語音來生成圖片。

根據美國商標和專利局最新公示的清單,該專利共計 20 頁,微軟於2023年4月5日提交申請,於 10 月 10 日獲批。

根據專利描述,該系統可以在會議或講座中實時捕捉音訊,隨後透過語言模型進行總結,並生成相應的 AI 影像。

IT 之家援引該媒體報導,該工作會分為 3 個步驟:

  • 捕捉音訊 :使用者透過麥克風發言,系統實時記錄並轉化為文字。

  • 處理文字 :分段記錄文字,每段內容透過語言模型進行總結。

  • 生成影像 :根據總結生成的提示,系統建立 AI 生成的影像,並在螢幕上實時顯示。

預計該功能將主要應用於 Microsoft Teams。隨著演講者話題的變化,實時生成的影像也會隨之更新,從而增強視覺溝通的效果。微軟表示,這種影像的使用有助於澄清概念,特別適合透過視覺輔助學習的使用者。(@IT 之家)

4、F5-TTS:上海交大開源超逼真聲音克隆 TTS,告別 ElevenLabs

F5-TTS 是一款基於流匹配的全非自迴歸文字到語音轉換系統。不需要複雜的設計如持續時間模型、文字編碼器和音素對齊,能夠快速訓練並實現實時因素(RTF)0.15 的推理速度,顯著優於當前基於擴散的 TTS 模型。F5-TTS 在公共的 100K 小時多語言資料集上進行訓練,展現出高自然性和表現力的零樣本能力、無縫程式碼切換能力和速度控制效率。專案提出了一種推理時的搖擺取樣策略,顯著提高了模型的效能和效率。

模型特點有:

  • 零樣本(Zero-shot)聲音克隆
  • 速度控制(基於總時長)
  • 可以控制合成語音的情感表現
  • 長文字合成
  • 支援中文和英文多語言合成
  • 在 10 萬小時資料上訓練
  • 最重要的是支援商用(@ 開源 AI 專案落地)

5、One-Click Creative Template:創意模型 用一張卡通圖片總結 4 張真實人物照片


FLUX.1-dev-LoRA-One-Click-Creative-Template 是由 Shakker Labs 提供的一個用於 文字生成影像(Text-to-Image)的模板模型,專為創造性照片生成而設計。

模型會根據你的輸入提示詞生成 4 張背景照片,背景部分由 4 張真實照片組成,並在其中央插入一張卡通風格的影像,作為對整個場景的總結。(@ 小互 AI)

02 有態度的觀點

1、Benchmark 合夥人:訓練大模型目前成本遠大於收入;但理論上成功回報極大,所以你仍需不斷加註

David Cahn 在文章《AI's $600B Question》中論述道,鑑於 NVIDIA 預計 2024 年第四季度的收入為 1500 億美元,要收回為訓練和執行大語言模型所投入的鉅額資金,現在 AI 收入需要達到 6000 億美元,而在這方面我們至少還差 5000 億美元。這個數字確實令人震驚……而且只會越來越大。

隨著 LLM 的進步,它將超越程式碼補全(「Copilot」)的功能,進入程式碼創作(「Autopilot」)的領域,價值創造幾乎沒有上限,因為這將極大地擴充套件市場——如果有人成為主導者,這將是一個潛在的數萬億美元的機會。AI 的潛在價值創造和獲取,已經超出了我們現有的思維模型。

挑戰在於,每訓練一個更復雜的 LLM 所需的資金量都會呈數量級增加,而且一旦某個模型被另一個超越,舊模型的定價權會迅速降為零。如今,開發者可選擇的 GPT3.5 等價模型已經多到不值得一一嘗試。當 GPT3.5 在 2022 年 11 月釋出時,它遙遙領先於任何競爭模型,1000 個 tokens 的成本是 0.0200 美元。而現在,這個價格已經降到 0.0005 美元——僅僅 1 年半內價格下降至原來的 2.5%。這種動態使得此時此刻幾乎不可能為任何投資的 LLM 找到合理的投資回報率,因為每一筆投資幾乎都會在下一個版本推出時立刻貶值。然而,我們也無法跳過任何步驟。要實現最終的理想目標,理想化的「AGI」,需要經歷無數看似毫無價值的版本。

最終結果是,在短期內,除非在繼續投資現有 Transformer 架構的基礎設施的邊際價值上達到了一個有效前沿,或者電力資源耗盡,亦或是某個團隊憑藉智慧的演算法工作取得無法超越的領先地位,否則 Meta、Microsoft、Google 這些巨頭在這一領域的投資必將繼續大幅增加,而成本必然會先於收入。理論上,回報是如此之大,如果有一個明確的贏家出現,他們的市場機會幾乎是無上限的,因此必須不斷加大賭注。(@Z Potentials)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章