Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。 我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、3D-Speaker:阿里通義開源的多模態說話人識別專案,支援說話人識別、語種識別、多模態識別、說話人重疊檢測和日誌記錄
3D-Speaker 是阿里巴巴通義實驗室語音團隊推出的多模態開源專案,旨在透過結合聲學、語義和視覺資訊,實現高精度的說話人識別和語種識別。專案提供了工業級模型、訓練和推理程式碼,以及大規模多裝置、多距離、多方言的資料集,支援高挑戰性的語音研究。
3D-Speaker 的最新更新增強了多說話人日誌功能,提升了識別效率和準確性,適用於大規模對話資料的高效處理。
3D-Speaker 的主要功能
說話人日誌: 將音訊劃分為屬於不同說話人的多個段落,識別出每個說話人的開始和結束時間。
說話人識別: 確定音訊中說話人的身份。
語種識別: 識別音訊中說話人所使用的語言。
多模態識別: 結合聲學、語義、視覺資訊,增強識別能力,尤其是在複雜聲學環境中。
重疊說話人檢測: 能識別出音訊中任意說話人重疊的區域。(@ 蠔油菜花)
2、百川智慧釋出金融大模型 Baichuan4-Finance
百川智慧釋出全鏈路領域增強大模型 Baichuan4-Finance。據介紹, 透過行業首創的領域自約束訓練方案,Baichuan4-Finance 實現了金融能力和通用能力同步提升的效果,極大提高了金融場景的整體可用性。
據媒體報導,內部人士透露,其金融專業能力和場景應用能力大幅領先 GPT-4o,在中國人民大學財政金融學院新近釋出的評測體系 FLAME 以及國內主流開源金融評測基準 FinancelQ 上均登上榜首。
根據評測資料顯示,Baichuan4-Finance 的整體準確率高達 93.62%,在銀行、保險、基金和證券等多個金融領域的準確率均突破了 95%,相較於 GPT-4o 高出近 20%。此外,在 FinanceIQ 等主流開源金融評測基準上,Baichuan4-Finance 的整體準確率也達到了 79.23%,領先 GPT-4o 近 13 個百分點。
值得一提的是,今年五月份,百川智慧釋出基座大模型 Baichuan4,相較 Baichuan3 在各項能力上均有極大提升,當時在國內權威大模型評測機構 SuperCLUE 的評測中,模型能力國內第一。(@AIbase 基地)
3、Adobe 推出新 AI 工具 可讓聲音設計師透過哼唱和模仿聲音來創作音訊
該系統會分析語音輸入的三個關 鍵元素:響度、音色(決定聲音的明亮程度)和音調。然後,系統會將這些特徵與文字描述相結合,生成所需的聲音。
Sketch2Sound 的有趣之處在於它能夠理解上下文。例如,如果有人輸入「森林氛圍」併發出短促的聲音,系統會自動識別出這些聲音應該是鳥叫聲 - 而無需特定指令。
同樣的智慧也適用於音樂。在建立鼓點模式時,使用者可以輸入「低音鼓、小軍鼓」,然後使用低音和高音哼唱節奏。系統會自動將低音鼓放在低音上,將小軍鼓放在高音上。
研究團隊內建了特殊的過濾技術,讓使用者可以調整控制生成聲音的精確度。聲音設計師可以根據自己的需求選擇精確、細緻的控制或更輕鬆、近似的方法。
這種靈活性使得 Sketch2Sound 對於擬音師(為電影和電視節目製作音效的專業人士)來說特別有價值。他們無需操縱物理物件來發出聲音,而是可以透過語音和文字描述更快地建立效果。
研究人員指出,輸入錄音的空間音訊特性有時會以不想要的方式影響生成的聲音,但他們正在努力解決這個問題。Adobe 尚未宣佈 Sketch2Sound 何時或是否會成為商業產品。(@AIbase 基地)
4、Hume AI 釋出全新語音模型 OCTAVE,實現即時語音克隆與個性化定製
核心技術亮點:
語音與個性同步生成: OCTAVE 不僅能根據文字描述生成聲音,還能同時建立與之匹配的個性,包括語言風格、口音、表達方式、潛在性格等。使用者可以透過描述性文字或錄音指定聲音的性別、年齡、情感語調、職業相關的說話風格等多種特徵。例如,模型可以生成「像用熱瀝青漱口的沙啞男聲」,或「溫柔善解人意的治療師的聲音」。
即時語音克隆與個性提取: OCTAVE 僅需一段 5 秒的錄音,即可提取說話者的清晰聲音、口音和個性特徵,並以此生成自然的對話。這使得使用者可以快速複製和使用各種獨特的聲音。
實時互動與多角色對話: OCTAVE 支援實時互動,並且可以生成多個相互作用的 AI 角色,在對話中自由切換。這使得模擬複雜的對話場景成為可能。該模型對說話風格、表達方式和潛在性格的理解,使其在實時互動中產生的語言和聲音更加自然真實。
3B 引數小模型: OCTAVE 在語言理解方面表現出色,其效能與同等規模的前沿大型語言模型(LLM)相當。所有示例均由 30 億引數的 OCTAVE 3B 模型生成,展示了其最小模型的強大實力。
Hume AI 表示,目前 OCTAVE 仍處於改進階段,已向部分合作夥伴提供有限版本,以評估其在各種應用環境中的安全性和有效性。預計未來幾個月內將向更多使用者開放。(@Hume Blog)
02 有亮點的產品
1、GenFuse AI:自動化各種業務流程的無程式碼平臺
GenFuse AI 是一款創新的無程式碼工具,專注於幫助使用者建立和管理 AI 代理,以自動化重複性任務。其核心價值主張在於透過直觀的拖拽式編輯器,使任何人都能輕鬆構建多代理工作流程,而無需具備技術背景。目標使用者包括希望提高工作效率的企業和個人,尤其是那些缺乏程式設計知識但希望利用 AI 技術簡化流程的使用者。GenFuse AI 解決了傳統自動化工具複雜、難以使用的問題,為使用者提供了一個友好的解決方案。(@Z potentials)
2、解決 AI 語音代理評估和管理痛點,Hamming.ai 獲 380 萬美元種子輪融資
隨著 AI 語音代理在電話溝通中日益普及,其可靠性問題日益凸顯。Hamming.ai 獲得 380 萬美元種子輪融資,旨在解決這一行業痛點。傳統的人工測試效率低下,且難以覆蓋所有場景,導致 AI 語音系統成本高昂,並存在潛在風險。
Hamming.ai 透過自動化測試、監控和管理 AI 語音代理,高效解決上述問題。他們利用自主研發的 AI 語音代理進行大規模測試,併為企業提供 LLM 提示管理、自動化紅隊測試以及通話分析等服務。據稱,其測試速度比人工快 20 倍,成本降低 10 倍。
該公司由 Sumanyu Sharma 和 Marius Buleandra 聯合創立,兩人均擁有在構建信任和安全基礎設施方面的豐富經驗。Sharma 曾任 Citizen 資料主管,並曾在特斯拉負責 AI 驅動的銷售專案;Buleandra 則在 Anduril、Square 和微軟等公司積累了豐富的資料基礎設施和 AI 工程經驗。(@AIbase 基地)
03 有態度的觀點
1、圖靈獎得主:AI 將成為超級智慧,堪比新的文藝復興
近日,2018 年圖靈獎得主楊立昆(Yann LeCun)受邀,在聯合國進行了最新演講,並且表示 AI 將成為超級智慧,堪比新的文藝復興,人類新的啟蒙。
楊立昆認為,基礎模型必須是自由和開源的,訓練也必須以協作和分散式的方式在全球多個資料中心進行,這樣才能才能讓全球都能參與,避免少數公司控制。並且楊立昆表示,從歷史上看,開源平臺比專有平臺更安全。
楊立昆預測, 未來的 AI 將具備推理、計劃、和理解現實世界的能力,最終會匹配甚至超越人類智力。他表示,上述可能將在未來一、二十年內發生。同時他還指出,人工智慧不僅可能帶來一場新的工業革命,還可能帶來一場新的文藝復興,人類的一個新的啟蒙時期。
最後,楊立昆建議國際合作方向,應該收集文化材料並建立分散式 AI 超算中心,統一監管,避免阻礙開源 AI 發展。(@APPSO)
2、前谷歌 CEO 談中美 AI 競爭:中國憑藉市場與製造優勢恐在長期中趕超美國,國內至少有兩三家 GPT-4 勁敵
前谷歌 CEO Eric Schmidt 在不久前與華盛頓郵報專欄作者 Bina Venkataraman 的對話中透露了對中美科技競爭以及 AI 發展的最新觀點。
Schmidt 表示,中國在 AI 領域具備一些獨特的優勢,能夠透過更低成本的硬體(例如來自中國的機器人和 AI 晶片)進行大規模的應用,而這些硬體在功能上與美國的高階產品相當,甚至在一些情況下更具靈活性和適應性。
他還提到,儘管美國在 AI 技術的基礎研究上可能處於領先地位,但中國可能會透過快速的市場採用和大規模生產,在長期內趕超美國。(@ 有新 Newin)
更多 Voice Agent 學習筆記:
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- CosyVoice多語言、音色和情感控制模型,one-shot零樣本語音克隆模型本地部署(Win/Mac),通義實驗室開源模型Mac
- 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類谷歌
- 海南話語音識別模型——模型訓練(一)模型
- 語音情感識別--RNNRNN
- 基於函式計算部署GPT-Sovits語音生成模型實現AI克隆聲音函式GPT模型AI
- 語音識別模型模型
- 語音的關鍵聲學特徵(語音情感特徵提取)特徵
- iphone通話聲音的解決方法 iphone通話聲音特別小怎樣解決?iPhone
- 在 Unity 多人遊戲中實現語音對話Unity遊戲
- 聲網Agora Lipsync 技術揭祕:通過實時語音驅動人像模擬真人說話Go
- CosyVoice: 多語言大規模語音生成模型的全棧解決方案模型全棧
- 新一代 Kaldi: 支援 JavaScript 進行本地語音識別和語音合成啦!JavaScript
- 怎麼錄製QQ語音通話 QQ通話錄音軟體哪個好?
- Web 端語音對話 AI 示例:使用 Whisper 和 llama.cpp 構建語音聊天機器人WebAI機器人
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆 + 多語言WebOpenAITTS模型
- WebRTC 作者加入 OpenAI 主導實時 AI 專案;TTS 小模型 OuteTTS v0.2 釋出:聲音克隆+多語言WebOpenAITTS模型
- GPT-SoVITS語音合成模型實踐GPT模型
- 基於環信實現實時視訊語音通話功能
- 5 款不錯的開源語音識別/語音文字轉換系統
- win10語音通話時麥克風有雜音怎麼回事_win10電腦語音通話麥克風有雜音解決教程Win10
- 正式開源!網易有道上線“易魔聲”語音合成引擎
- WebRTC – Agora (聲網)簡介與實現音視訊通話WebGo
- 論文筆記:語音情感識別(五)語音特徵集之eGeMAPS,ComParE,09IS,BoAW筆記特徵
- 如何用Python語音合成,以及文字轉語音~Python
- 如何基於實時聲紋變聲實現對聲音的“克隆”
- Coqui TTS合成語音UITTS
- 智慧語音電話機器人的優勢機器人
- lol內建語音win10不能說話怎麼辦_lol內建語音win10不能說話修復方法Win10
- 開源語音合成庫 coqui TTS 使用記錄UITTS
- OpenAI 推出嵌入式硬體 SDK,支援 ESP32 語音開發;INFP:音訊驅動的雙人對話頭像生成,自動區分說話者和傾聽者OpenAI音訊
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- 讓大模型能聽會說,國內機構開源全球首個端到端語音對話模型Mini-Omni大模型
- 微信小程式使用同聲傳譯實現語音識別功能微信小程式
- JavaScript的語音識別JavaScript
- 語音識別技術
- 是誰在說話?谷歌多人語音識別新系統錯誤率降至2%谷歌
- 樹莓派語音互動--語音輸入識別樹莓派
- 30分鐘實現小程式語音識別