Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報

RTE开发者社区發表於2024-12-03

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement) 領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@鮑勃

01 有話題的新聞

1、李飛飛 World Labs 推出首個 AI 系統—— 生成從圖片到可互動的 3D 場景

李飛飛創立的 World Labs 推出了首個專案 —— 一個能從單張照片生成類似遊戲 3D 場景的 AI 系統,其獨特性在於支援互動且可以修改。

World Labs 的系統能為場景提供互動效果和動畫,例如更改物體的顏色和動態調整背景燈光。該系統屬於一個新興的 AI 類別——「世界模型」(World Models),許多此類模型可以模擬遊戲和 3D 環境,但通常存在偽影和一致性問題。

World Labs 在官方部落格中提到,目前的大多數生成式 AI 工具生成的是 2D 內容,比如影像或影片,而生成 3D 內容則提升了控制力和一致性。這將改變我們製作電影、遊戲、模擬器以及其他物理世界數字表現形式的方式。
World Labs 的系統將圖片轉換為可互動和探索的 3D 場景。使用者可以透過使用箭頭鍵或 WASD 移動,然後單擊並拖動滑鼠來探索這些 AI 生成的場景。

這些場景在瀏覽器中實時渲染,並配備可調的模擬景深效果(DoF)。官網上提供了一個調節景深的滑塊,景深效果越強,背景物體就越模糊。

World Labs 還提到,大多數生成模型預測的是畫素,而預測 3D 場景則具有許多優勢:

  • 持久的現實感 一旦生成了一個世界,它會保持穩定。如果你暫時離開視線,然後再回來,場景不會發生變化。這種永續性提供了更連貫的體驗,避免了傳統生成模型中場景不一致的情況。
  • 實時控制 在生成場景後,使用者可以實時在場景中自由移動。例如,你可以停下來仔細觀察一朵花的細節,或者繞過一個角落,看看背後隱藏了什麼。這種實時互動使場景更具沉浸感和探索性。
  • 正確的幾何結構 World Labs 生成的世界遵循 3D 幾何的基本物理規則。這些場景具有實體感和深度感,與某些 AI 生成影片的夢幻性質形成對比,更貼近現實體驗。

透過這些特性,World Labs 的技術為生成式 AI 3D 場景奠定了堅實基礎,並大幅提升了內容的互動性、真實性和一致性。(@有新 Newin)

2、英特爾宣佈 CEO 帕特·基辛格退休

晶片製造商英特爾週一表示,執行長帕特·基辛格 (Pat Gelsinger) 從 12 月 1 日起退休,並從董事會辭職。

帕特·基辛格已經在英特爾工作了 40 多年,他說,「領導英特爾是我一生的榮幸——這群人是業內最優秀、最聰明的人之一,我很榮幸能稱他們為同事。當然,今天是苦樂參半的一天,因為這家公司是我職業生涯大部分時間的生活。我可以自豪地回顧我們共同取得的成就。對我們所有人來說,這是充滿挑戰的一年,因為我們做出了艱難但必要的決定,讓英特爾適應當前的市場動態。」

英特爾已任命首席財務官大衛·津斯納 (David Zinsner) 和高階執行官米歇爾·約翰斯頓·霍爾索斯 (Michelle Johnston Holthaus) 為臨時聯席執行長,同時董事會正在尋找新任執行長。

截至北京時間今日早間收盤,英特爾股價為 24.05 美元,市值為 1037 億美元。基辛格退休的訊息宣佈後,英特爾盤前股價上漲超過 4%。(@極客公園)

3、Cohere 推新的搜尋模型 Rerank 3.5:可處理 100 多種語言精準查詢

人工智慧公司 Cohere 近日釋出了一款全新的搜尋模型 Rerank3.5,旨在徹底改變全球企業如何查詢和利用資料。
該模型最顯著的特點是能夠處理超過 100 種語言的查詢,尤其在阿拉伯語、日語和韓語等主要商業語言中表現突出。這一能力不僅突破了語言障礙,還可能幫助跨國公司更有效地管理資訊檢索。在當前資料孤島和語言障礙依然存在的背景下,Rerank3.5 或許能為非英語市場的企業提供平等的競爭機會,加快全球業務的運營效率。

根據 Cohere 內部測試,Rerank3.5 在金融服務資料集上的表現相較於混合搜尋系統提高了 23.4%,與傳統 BM25 搜尋演算法相比提高了 30.8%。這種精確的資訊檢索能力在金融、醫療和製造等行業尤為關鍵,能夠為這些受監管行業節省數百萬的成本並降低風險。

此外,Rerank3.5 還具備更強的推理能力,採用 「交叉編碼」 技術,使其能夠更好地理解包含多個約束的查詢。這一進步意味著從簡單的關鍵詞匹配轉向對上下文和意圖的真實理解,從而減少了企業搜尋中常見的試錯過程。

Cohere 推出 Rerank3.5 的時機也非常關鍵。隨著企業人工智慧從試驗階段轉向生產階段,智慧搜尋市場的競爭愈發激烈。Cohere 在實際應用中的關注點,允許企業以最小的程式碼變更和極小的延遲影響進行部署,顯示了其對企業痛點的深刻理解。(@AIbase 基地)

02 有亮點的產品

1、告別語音克隆侵權!Hume AI 推出語音控制功能,可建立個性化 AI 語音

Hume AI,這家專注於情感智慧語音介面的初創公司,近日推出了一項名為 「語音控制」 的實驗性功能。

這個新工具旨在幫助開發者和使用者無需任何編碼、AI 提示工程或音效設計技能,就能創造出個性化的 AI 聲音。使用者可以透過精確調節聲音特徵,輕鬆定製符合需求的聲音。

這項新功能建立在公司之前推出的 「共情語音介面 2」(EVI2)的基礎上,EVI2 增強了語音的自然性、情感反應能力和可定製性。與傳統的語音克隆技術不同,Hume 的產品專注於提供獨特且富有表現力的聲音,以滿足客戶服務聊天機器人、數字助手、教師、導遊以及無障礙功能等多種應用的需求。

語音控制功能允許開發者在十個不同的維度上調整聲音特徵,包括性別、果斷性、興奮度、自信心等。

使用者可以透過虛擬滑塊實時微調這些屬性,讓定製變得簡單明瞭。該功能目前在 Hume 的虛擬平臺中提供,使用者只需免費註冊即可訪問。

語音控制目前已推出測試版本,並與 Hume 的 Empathic Voice Interface (EVI) 整合,使其可用於廣泛的應用程式。開發人員可以選擇基本語音,調整其特性,並實時預覽結果。此過程可確保會話間的可重複性和穩定性,這是客戶服務機器人或虛擬助手等實時應用程式的關鍵功能。(@AIbase 基地)

2、商湯辦公小浣熊升級 2.0 版本 整合分析、寫作等多種 AI 辦公工具

商湯科技近日宣佈其辦公工具小浣熊升級至 2.0 版本,進化為「AI 原生一站式創作空間」,整合了多種 AI 功能以提高辦公效率。新版本的核心功能圍繞「浣熊三步法(PAW)」展開,即規劃(Plan)、分析(Analyze)、寫作(Write),旨在覆蓋工作和學習的多個方面。辦公小浣熊 2.0 在資料分析能力上進行了增強,並新增了文件解析能力,能夠化繁為簡,省時高效。

升級後的版本支援使用者構建個人知識庫,整合檔案、文件、資料,形成第二大腦,並在執行任務中實現快速精準的資訊檢索。對話中產生的資訊可以一鍵轉換成文件並進行編輯,無需切換空間,實現對話到文件的一站式轉換。小浣熊 AI 還能聯網搜尋世界資訊,幫助使用者高效分解任務,制定計劃。例如,分析師可以透過小浣熊 AI 的推理能力,從使用者行為、商品表現到營銷模型分析,將複雜問題分解成可行的規劃。

在分析方面,辦公小浣熊 2.0 無需程式設計或表格技巧即可獲得資料洞察,自動提煉並完成留存率計算、頻率分析、趨勢變化等任務。基於商湯的「日日新」基座大模型,小浣熊能夠自動解析並檢索關鍵詞,提煉要點、資料視覺化、總結歸納。此外,升級後的資料視覺化能力能夠滿足複雜需求,如時序圖、雙 Y 軸圖等。

在寫作方面,辦公小浣熊 2.0 是一款超好用的文件編輯工具,可以透過對話生成文件,並在文件中進行對話,開啟「喚熊一下」功能。使用者可以在編輯介面中召喚 AI 輔助、AI 內容編輯、AI 生成等十幾種 AI 文字能力,包括翻譯、找靈感、擴寫、糾錯等。編輯介面的成果可以一鍵匯出,方便使用者隨時潤色、查詢、寫作。(@AIbase 基地)

3、亞馬遜釋出 AI 提示詞自動最佳化工具,開發者迎來效率革命

亞馬遜正在徹底改變人工智慧應用開發的遊戲規則。透過為 Bedrock AI 服務推出自動提示詞最佳化功能,這家科技巨頭承諾用最小的使用者成本,顯著提升 AI 任務的效能。

這一創新工具允許開發者透過單次 API 呼叫或在 Amazon Bedrock 控制檯點選按鈕,輕鬆最佳化多個 AI 模型的提示詞。目前,該系統已支援包括 Anthropic 的 Claude3、Meta 的 Llama3、Mistral Large 和亞馬遜自身的 Titan Text Premier 在內的多種領先 AI 模型。

在開源資料集上的測試結果令人印象深刻。亞馬遜宣佈,這一最佳化工具在不同 AI 任務中取得了顯著進步:

  • 文字摘要任務效能提升 18%
  • 基於檢索增強生成(RAG)的對話連續性提升 8%
  • 函式呼叫能力提升 22%

這一功能的實際應用場景包括聊天記錄或通話日誌的分類。系統能夠自動精煉原始提示詞,使其更加精確,並簡化新增和測試變數的流程。

對於開發者而言,這意味著過去需要耗費數月時間進行手動提示詞工程的繁瑣過程,如今有望大幅縮短。開發者可以更快速地為不同模型和任務找到最優提示詞。

然而,亞馬遜也坦誠這一工具並非萬能。業內專家指出,自動最佳化系統在處理複雜的多示例提示詞時仍存在侷限。儘管可以幫助新增結構和細節,但人類專業判斷在理解任務需求和設計有效提示詞方面仍然不可替代。(@AIbase 基地)

03 有態度的觀點

1、AI 教父 Hinton:AI 系統已經具備了主觀體驗

近期,加拿大 AI 研究機構 Vector Institute,公開了深度學習和人工神經網路的創始人之一、Vector Institute 聯合創始人 Geoffrey Hinton 的演講影片。

在演講中他提出了一個觀點:他認為人工智慧系統已經具備了主觀體驗。

在演講開始時,他指出,大多數人仍然相信這些系統和人類之間存在巨大的差異。人是有意識的、有主觀體驗的,而這些東西只是執行在計算機上的程式,沒有主觀體驗。他認為這種觀點完全是錯誤的,這種誤解源於對主觀體驗的本質的錯誤理解。

他指出,多模態聊天機器人感知系統出錯時表達方式類似人類,表明 AI 與人類無本質區別,只是數字化且更聰明或即將更聰明,因此也能證明人工智慧系統已經具備了主觀體驗。(@APPSO)

更多 Voice Agent 學習筆記:

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章