Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、李飛飛 World Labs 推出首個 AI 系統—— 生成從圖片到可互動的 3D 場景
李飛飛創立的 World Labs 推出了首個專案 —— 一個能從單張照片生成類似遊戲 3D 場景的 AI 系統,其獨特性在於支援互動且可以修改。
World Labs 的系統能為場景提供互動效果和動畫,例如更改物體的顏色和動態調整背景燈光。該系統屬於一個新興的 AI 類別——「世界模型」(World Models),許多此類模型可以模擬遊戲和 3D 環境,但通常存在偽影和一致性問題。
World Labs 在官方部落格中提到,目前的大多數生成式 AI 工具生成的是 2D 內容,比如影像或影片,而生成 3D 內容則提升了控制力和一致性。這將改變我們製作電影、遊戲、模擬器以及其他物理世界數字表現形式的方式。
World Labs 的系統將圖片轉換為可互動和探索的 3D 場景。使用者可以透過使用箭頭鍵或 WASD 移動,然後單擊並拖動滑鼠來探索這些 AI 生成的場景。
這些場景在瀏覽器中實時渲染,並配備可調的模擬景深效果(DoF)。官網上提供了一個調節景深的滑塊,景深效果越強,背景物體就越模糊。
World Labs 還提到,大多數生成模型預測的是畫素,而預測 3D 場景則具有許多優勢:
持久的現實感 一旦生成了一個世界,它會保持穩定。如果你暫時離開視線,然後再回來,場景不會發生變化。這種永續性提供了更連貫的體驗,避免了傳統生成模型中場景不一致的情況。
實時控制 在生成場景後,使用者可以實時在場景中自由移動。例如,你可以停下來仔細觀察一朵花的細節,或者繞過一個角落,看看背後隱藏了什麼。這種實時互動使場景更具沉浸感和探索性。
正確的幾何結構 World Labs 生成的世界遵循 3D 幾何的基本物理規則。這些場景具有實體感和深度感,與某些 AI 生成影片的夢幻性質形成對比,更貼近現實體驗。
透過這些特性,World Labs 的技術為生成式 AI 3D 場景奠定了堅實基礎,並大幅提升了內容的互動性、真實性和一致性。(@ 有新 Newin)
2、英特爾宣佈 CEO 帕特·基辛格退休
晶片製造商英特爾週一表示,執行長帕特·基辛格(Pat Gelsinger)從 12 月 1 日起退休,並從董事會辭職。
帕特·基辛格已經在英特爾工作了 40 多年,他說,「領導英特爾是我一生的榮幸——這群人是業內最優秀、最聰明的人之一,我很榮幸能稱他們為同事。當然,今天是苦樂參半的一天,因為這家公司是我職業生涯大部分時間的生活。我可以自豪地回顧我們共同取得的成就。對我們所有人來說,這是充滿挑戰的一年,因為我們做出了艱難但必要的決定,讓英特爾適應當前的市場動態。」
英特爾已任命首席財務官大衛·津斯納(David Zinsner)和高階執行官米歇爾·約翰斯頓·霍爾索斯(Michelle Johnston Holthaus)為臨時聯席執行長,同時董事會正在尋找新任執行長。
截至北京時間今日早間收盤,英特爾股價為 24.05 美元,市值為 1037 億美元。基辛格退休的訊息宣佈後,英特爾盤前股價上漲超過 4%。(@ 極客公園)
3、Cohere 推新的搜尋模型 Rerank 3.5:可處理 100 多種語言精準查詢
人工智慧公司 Cohere 近日釋出了一款全新的搜尋模型 Rerank3.5,旨在徹底改變全球企業如何查詢和利用資料。
該模型最顯著的特點是能夠處理超過 100 種語言的查詢,尤其在阿拉伯語、日語和韓語等主要商業語言中表現突出。這一能力不僅突破了語言障礙,還可能幫助跨國公司更有效地管理資訊檢索。在當前資料孤島和語言障礙依然存在的背景下,Rerank3.5 或許能為非英語市場的企業提供平等的競爭機會,加快全球業務的運營效率。
根據 Cohere 內部測試,Rerank3.5 在金融服務資料集上的表現相較於混合搜尋系統提高了 23.4%,與傳統 BM25 搜尋演算法相比提高了 30.8%。這種精確的資訊檢索能力在金融、醫療和製造等行業尤為關鍵,能夠為這些受監管行業節省數百萬的成本並降低風險。
此外,Rerank3.5 還具備更強的推理能力,採用「交叉編碼」技術,使其能夠更好地理解包含多個約束的查詢。這一進步意味著從簡單的關鍵詞匹配轉向對上下文和意圖的真實理解,從而減少了企業搜尋中常見的試錯過程。
Cohere 推出 Rerank3.5 的時機也非常關鍵。隨著企業人工智慧從試驗階段轉向生產階段,智慧搜尋市場的競爭愈發激烈。Cohere 在實際應用中的關注點,允許企業以最小的程式碼變更和極小的延遲影響進行部署,顯示了其對企業痛點的深刻理解。(@AIbase 基地)
02 有亮點的產品
1、告別語音克隆侵權!Hume AI 推出語音控制功能,可建立個性化 AI 語音
Hume AI,這家專注於情感智慧語音介面的初創公司,近日推出了一項名為「語音控制」的實驗性功能。
這個新工具旨在幫助開發者和使用者無需任何編碼、AI 提示工程或音效設計技能,就能創造出個性化的 AI 聲音。使用者可以透過精確調節聲音特徵,輕鬆定製符合需求的聲音。
這項新功能建立在公司之前推出的「共情語音介面 2」(EVI2)的基礎上,EVI2 增強了語音的自然性、情感反應能力和可定製性。與傳統的語音克隆技術不同,Hume 的產品專注於提供獨特且富有表現力的聲音,以滿足客戶服務聊天機器人、數字助手、教師、導遊以及無障礙功能等多種應用的需求。
語音控制功能允許開發者在十個不同的維度上調整聲音特徵,包括性別、果斷性、興奮度、自信心等。
使用者可以透過虛擬滑塊實時微調這些屬性,讓定製變得簡單明瞭。該功能目前在 Hume 的虛擬平臺中提供,使用者只需免費註冊即可訪問。
語音控制目前已推出測試版本,並與 Hume 的 Empathic Voice Interface(EVI)整合,使其可用於廣泛的應用程式。開發人員可以選擇基本語音,調整其特性,並實時預覽結果。此過程可確保會話間的可重複性和穩定性,這是客戶服務機器人或虛擬助手等實時應用程式的關鍵功能。(@AIbase 基地)
2、商湯辦公小浣熊升級 2.0 版本 整合分析、寫作等多種 AI 辦公工具
商湯科技近日宣佈其辦公工具小浣熊升級至 2.0 版本,進化為「AI 原生一站式創作空間」,整合了多種 AI 功能以提高辦公效率。新版本的核心功能圍繞「浣熊三步法(PAW)」展開,即規劃(Plan)、分析(Analyze)、寫作(Write),旨在覆蓋工作和學習的多個方面。辦公小浣熊 2.0 在資料分析能力上進行了增強,並新增了文件解析能力,能夠化繁為簡,省時高效。
升級後的版本支援使用者構建個人知識庫,整合檔案、文件、資料,形成第二大腦,並在執行任務中實現快速精準的資訊檢索。對話中產生的資訊可以一鍵轉換成文件並進行編輯,無需切換空間,實現對話到文件的一站式轉換。小浣熊 AI 還能聯網搜尋世界資訊,幫助使用者高效分解任務,制定計劃。例如,分析師可以透過小浣熊 AI 的推理能力,從使用者行為、商品表現到營銷模型分析,將複雜問題分解成可行的規劃。
在分析方面,辦公小浣熊 2.0 無需程式設計或表格技巧即可獲得資料洞察,自動提煉並完成留存率計算、頻率分析、趨勢變化等任務。基於商湯的「日日新」基座大模型,小浣熊能夠自動解析並檢索關鍵詞,提煉要點、資料視覺化、總結歸納。此外,升級後的資料視覺化能力能夠滿足複雜需求,如時序圖、雙 Y 軸圖等。
在寫作方面,辦公小浣熊 2.0 是一款超好用的文件編輯工具,可以透過對話生成文件,並在文件中進行對話,開啟「喚熊一下」功能。使用者可以在編輯介面中召喚 AI 輔助、AI 內容編輯、AI 生成等十幾種 AI 文字能力,包括翻譯、找靈感、擴寫、糾錯等。編輯介面的成果可以一鍵匯出,方便使用者隨時潤色、查詢、寫作。(@AIbase 基地)
3、亞馬遜釋出 AI 提示詞自動最佳化工具,開發者迎來效率革命
亞馬遜正在徹底改變人工智慧應用開發的遊戲規則。透過為 Bedrock AI 服務推出自動提示詞最佳化功能,這家科技巨頭承諾用最小的使用者成本,顯著提升 AI 任務的效能。
這一創新工具允許開發者透過單次 API 呼叫或在 Amazon Bedrock 控制檯點選按鈕,輕鬆最佳化多個 AI 模型的提示詞。目前,該系統已支援包括 Anthropic 的 Claude3、Meta 的 Llama3、Mistral Large 和亞馬遜自身的 Titan Text Premier 在內的多種領先 AI 模型。
在開源資料集上的測試結果令人印象深刻。亞馬遜宣佈,這一最佳化工具在不同 AI 任務中取得了顯著進步:
- 文字摘要任務效能提升 18%
- 基於檢索增強生成(RAG)的對話連續性提升 8%
- 函式呼叫能力提升 22%
這一功能的實際應用場景包括聊天記錄或通話日誌的分類。系統能夠自動精煉原始提示詞,使其更加精確,並簡化新增和測試變數的流程。
對於開發者而言,這意味著過去需要耗費數月時間進行手動提示詞工程的繁瑣過程,如今有望大幅縮短。開發者可以更快速地為不同模型和任務找到最優提示詞。
然而,亞馬遜也坦誠這一工具並非萬能。業內專家指出,自動最佳化系統在處理複雜的多示例提示詞時仍存在侷限。儘管可以幫助新增結構和細節,但人類專業判斷在理解任務需求和設計有效提示詞方面仍然不可替代。(@AIbase 基地)
03 有態度的觀點
1、AI 教父 Hinton:AI 系統已經具備了主觀體驗
近期,加拿大 AI 研究機構 Vector Institute,公開了深度學習和人工神經網路的創始人之一、Vector Institute 聯合創始人 Geoffrey Hinton 的演講影片。
在演講中他提出了一個觀點:他認為人工智慧系統已經具備了主觀體驗。
在演講開始時,他指出,大多數人仍然相信這些系統和人類之間存在巨大的差異。人是有意識的、有主觀體驗的,而這些東西只是執行在計算機上的程式,沒有主觀體驗。他認為這種觀點完全是錯誤的,這種誤解源於對主觀體驗的本質的錯誤理解。
他指出,多模態聊天機器人感知系統出錯時表達方式類似人類,表明 AI 與人類無本質區別,只是數字化且更聰明或即將更聰明,因此也能證明人工智慧系統已經具備了主觀體驗。(@APPSO)
更多 Voice Agent 學習筆記:
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場
下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》
Voice-first,閉關做一款語音產品的思考|社群來稿
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 剛剛,李飛飛創業首個專案引圍觀:單圖生成互動3D場景,空間智慧來了創業3D
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- 蘋果挖走大量谷歌人才,建立神秘人工智慧實驗室;李飛飛創業成立「空間智慧」公司丨 RTE 開發者日報 Vol.197蘋果谷歌人工智慧創業開發者日報
- 李飛飛創業之後首個專訪:視覺空間智慧與語言一樣根本創業視覺
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨RTE 開發者日報AI開發者日報
- ElevenLabs Voice Design:文字生成個性化語音;科學家用 AI 解讀豬叫聲背後情緒和壓力丨 RTE 開發者日報AI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 李飛飛「空間智慧」之後,上交、智源、北大等提出空間大模型SpatialBot大模型
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 首個被人類騙錢的 AI 誕生;微信公眾號後臺新增「AI 配圖」功能丨 RTE 開發者日報AI開發者日報
- 李飛飛:World Labs這樣實現「空間智慧」
- 谷歌釋出世界模型,能生成可互動虛擬世界;華為釋出全球首個 5.5G 智慧核心網丨 RTE 開發者日報 Vol.152谷歌世界模型虛擬世界開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報模型AIGoUX音訊開發者日報
- 簡單剖析智慧語音互動技術
- 李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界創業AI
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 基於訊飛語音,百度語音,圖靈機器人樹莓派的智慧語音機器人mic圖靈機器人樹莓派
- 百度地圖行業首發語音定製功能,20分鐘即可為使用者定製個人語音包地圖行業
- AI語音+金融:一場智慧化變革在發酵AI
- 科大訊飛,不只是智慧語音識別
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 語音控制智慧插座
- 我用飛槳Parakeet僅六步實現了一個語音合成模型模型