Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker

RTE开发者社区發表於2024-12-24

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。 我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、3D-Speaker:阿里通義開源的多模態說話人識別專案,支援說話人識別、語種識別、多模態識別、說話人重疊檢測和日誌記錄

3D-Speaker 是阿里巴巴通義實驗室語音團隊推出的多模態開源專案,旨在透過結合聲學、語義和視覺資訊,實現高精度的說話人識別和語種識別。專案提供了工業級模型、訓練和推理程式碼,以及大規模多裝置、多距離、多方言的資料集,支援高挑戰性的語音研究。

3D-Speaker 的最新更新增強了多說話人日誌功能,提升了識別效率和準確性,適用於大規模對話資料的高效處理。

3D-Speaker 的主要功能

說話人日誌: 將音訊劃分為屬於不同說話人的多個段落,識別出每個說話人的開始和結束時間。

說話人識別: 確定音訊中說話人的身份。

語種識別: 識別音訊中說話人所使用的語言。

多模態識別: 結合聲學、語義、視覺資訊,增強識別能力,尤其是在複雜聲學環境中。

重疊說話人檢測: 能識別出音訊中任意說話人重疊的區域。(@ 蠔油菜花)

2、百川智慧釋出金融大模型 Baichuan4-Finance

百川智慧釋出全鏈路領域增強大模型 Baichuan4-Finance。據介紹, 透過行業首創的領域自約束訓練方案,Baichuan4-Finance 實現了金融能力和通用能力同步提升的效果,極大提高了金融場景的整體可用性。

據媒體報導,內部人士透露,其金融專業能力和場景應用能力大幅領先 GPT-4o,在中國人民大學財政金融學院新近釋出的評測體系 FLAME 以及國內主流開源金融評測基準 FinancelQ 上均登上榜首。

根據評測資料顯示,Baichuan4-Finance 的整體準確率高達 93.62%,在銀行、保險、基金和證券等多個金融領域的準確率均突破了 95%,相較於 GPT-4o 高出近 20%。此外,在 FinanceIQ 等主流開源金融評測基準上,Baichuan4-Finance 的整體準確率也達到了 79.23%,領先 GPT-4o 近 13 個百分點。

值得一提的是,今年五月份,百川智慧釋出基座大模型 Baichuan4,相較 Baichuan3 在各項能力上均有極大提升,當時在國內權威大模型評測機構 SuperCLUE 的評測中,模型能力國內第一。(@AIbase 基地)

3、Adobe 推出新 AI 工具 可讓聲音設計師透過哼唱和模仿聲音來創作音訊

該系統會分析語音輸入的三個關 鍵元素:響度、音色(決定聲音的明亮程度)和音調。然後,系統會將這些特徵與文字描述相結合,生成所需的聲音。

Sketch2Sound 的有趣之處在於它能夠理解上下文。例如,如果有人輸入「森林氛圍」併發出短促的聲音,系統會自動識別出這些聲音應該是鳥叫聲 - 而無需特定指令。

同樣的智慧也適用於音樂。在建立鼓點模式時,使用者可以輸入「低音鼓、小軍鼓」,然後使用低音和高音哼唱節奏。系統會自動將低音鼓放在低音上,將小軍鼓放在高音上。

研究團隊內建了特殊的過濾技術,讓使用者可以調整控制生成聲音的精確度。聲音設計師可以根據自己的需求選擇精確、細緻的控制或更輕鬆、近似的方法。

這種靈活性使得 Sketch2Sound 對於擬音師(為電影和電視節目製作音效的專業人士)來說特別有價值。他們無需操縱物理物件來發出聲音,而是可以透過語音和文字描述更快地建立效果。

研究人員指出,輸入錄音的空間音訊特性有時會以不想要的方式影響生成的聲音,但他們正在努力解決這個問題。Adobe 尚未宣佈 Sketch2Sound 何時或是否會成為商業產品。(@AIbase 基地)

4、Hume AI 釋出全新語音模型 OCTAVE,實現即時語音克隆與個性化定製

核心技術亮點:

語音與個性同步生成: OCTAVE 不僅能根據文字描述生成聲音,還能同時建立與之匹配的個性,包括語言風格、口音、表達方式、潛在性格等。使用者可以透過描述性文字或錄音指定聲音的性別、年齡、情感語調、職業相關的說話風格等多種特徵。例如,模型可以生成「像用熱瀝青漱口的沙啞男聲」,或「溫柔善解人意的治療師的聲音」。

即時語音克隆與個性提取: OCTAVE 僅需一段 5 秒的錄音,即可提取說話者的清晰聲音、口音和個性特徵,並以此生成自然的對話。這使得使用者可以快速複製和使用各種獨特的聲音。

實時互動與多角色對話: OCTAVE 支援實時互動,並且可以生成多個相互作用的 AI 角色,在對話中自由切換。這使得模擬複雜的對話場景成為可能。該模型對說話風格、表達方式和潛在性格的理解,使其在實時互動中產生的語言和聲音更加自然真實。

3B 引數小模型: OCTAVE 在語言理解方面表現出色,其效能與同等規模的前沿大型語言模型(LLM)相當。所有示例均由 30 億引數的 OCTAVE 3B 模型生成,展示了其最小模型的強大實力。

Hume AI 表示,目前 OCTAVE 仍處於改進階段,已向部分合作夥伴提供有限版本,以評估其在各種應用環境中的安全性和有效性。預計未來幾個月內將向更多使用者開放。(@Hume Blog)

02 有亮點的產品

1、GenFuse AI:自動化各種業務流程的無程式碼平臺

GenFuse AI 是一款創新的無程式碼工具,專注於幫助使用者建立和管理 AI 代理,以自動化重複性任務。其核心價值主張在於透過直觀的拖拽式編輯器,使任何人都能輕鬆構建多代理工作流程,而無需具備技術背景。目標使用者包括希望提高工作效率的企業和個人,尤其是那些缺乏程式設計知識但希望利用 AI 技術簡化流程的使用者。GenFuse AI 解決了傳統自動化工具複雜、難以使用的問題,為使用者提供了一個友好的解決方案。(@Z potentials)

2、解決 AI 語音代理評估和管理痛點,Hamming.ai 獲 380 萬美元種子輪融資

隨著 AI 語音代理在電話溝通中日益普及,其可靠性問題日益凸顯。Hamming.ai 獲得 380 萬美元種子輪融資,旨在解決這一行業痛點。傳統的人工測試效率低下,且難以覆蓋所有場景,導致 AI 語音系統成本高昂,並存在潛在風險。

Hamming.ai 透過自動化測試、監控和管理 AI 語音代理,高效解決上述問題。他們利用自主研發的 AI 語音代理進行大規模測試,併為企業提供 LLM 提示管理、自動化紅隊測試以及通話分析等服務。據稱,其測試速度比人工快 20 倍,成本降低 10 倍。

該公司由 Sumanyu Sharma 和 Marius Buleandra 聯合創立,兩人均擁有在構建信任和安全基礎設施方面的豐富經驗。Sharma 曾任 Citizen 資料主管,並曾在特斯拉負責 AI 驅動的銷售專案;Buleandra 則在 Anduril、Square 和微軟等公司積累了豐富的資料基礎設施和 AI 工程經驗。(@AIbase 基地)

03 有態度的觀點

1、圖靈獎得主:AI 將成為超級智慧,堪比新的文藝復興

近日,2018 年圖靈獎得主楊立昆(Yann LeCun)受邀,在聯合國進行了最新演講,並且表示 AI 將成為超級智慧,堪比新的文藝復興,人類新的啟蒙。

楊立昆認為,基礎模型必須是自由和開源的,訓練也必須以協作和分散式的方式在全球多個資料中心進行,這樣才能才能讓全球都能參與,避免少數公司控制。並且楊立昆表示,從歷史上看,開源平臺比專有平臺更安全。

楊立昆預測, 未來的 AI 將具備推理、計劃、和理解現實世界的能力,最終會匹配甚至超越人類智力。他表示,上述可能將在未來一、二十年內發生。同時他還指出,人工智慧不僅可能帶來一場新的工業革命,還可能帶來一場新的文藝復興,人類的一個新的啟蒙時期。

最後,楊立昆建議國際合作方向,應該收集文化材料並建立分散式 AI 超算中心,統一監管,避免阻礙開源 AI 發展。(@APPSO)

2、前谷歌 CEO 談中美 AI 競爭:中國憑藉市場與製造優勢恐在長期中趕超美國,國內至少有兩三家 GPT-4 勁敵

前谷歌 CEO Eric Schmidt 在不久前與華盛頓郵報專欄作者 Bina Venkataraman 的對話中透露了對中美科技競爭以及 AI 發展的最新觀點。

Schmidt 表示,中國在 AI 領域具備一些獨特的優勢,能夠透過更低成本的硬體(例如來自中國的機器人和 AI 晶片)進行大規模的應用,而這些硬體在功能上與美國的高階產品相當,甚至在一些情況下更具靈活性和適應性。

他還提到,儘管美國在 AI 技術的基礎研究上可能處於領先地位,但中國可能會透過快速的市場採用和大規模生產,在長期內趕超美國。(@ 有新 Newin)

更多 Voice Agent 學習筆記:

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章