騰訊 StereoCrafter:2D 影片轉 3D 影片效果;支付寶推出新 AI 視覺搜尋產品「探一下」丨 RTE 開發者日報

RTE开发者社区發表於2024-12-30

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、理想汽車釋出理想同學 App 官方問答

12 月 29 日,理想汽車釋出了理想同學 App「十問十答」文章。在文章中,官方針對使用者的高頻問題做出瞭解答。官方表示,理想同學 App 是理想汽車基於 Mind GPT 大模型精心打造的一款 AI 助手,把陪伴從車上延續到手機上。除了可以回答各種問題外,理想同學還有不斷成長的視覺感知能力,可以幫助使用者識別路上的汽車、動物和植物,邊看邊學。官方還在文章中介紹了理想同學 App 的功能:

知識問答: 提供汽車、出行、財經、科技等領域的專業解答。

視覺問答: 識別並解釋你可能不認識的動物、植物、汽車以及通用物品。

聯網搜尋: 幫你在全網尋找資訊,進行總結和提煉,並提供可信賴的參考資料。

文字處理: 處理各種型別的文字,如寫文章、文字翻譯等。

提供建議: 根據你的需求,為你的生活和工作提供建議,比如旅行規劃和飲食建議等。(@IT 之家)

2、AI 明年有望迎「突破性進展」:「破解」動物叫聲背後的溝通模式與結構

據 Munich Eye 當地時間 22 日報導,2025 年,人工智慧(AI)和機器學習領域的突破有望推動我們理解動物交流的程序,解開動物發聲背後的長期謎題。近期,設立的 Coller-Dolittle 獎項為解碼動物聲音的研究提供了可觀獎金,體現了科學界對此的樂觀情緒。

目前已有多個研究專案正致力於開發能夠解讀動物聲音的演算法。其中,Ceti 計劃一直在破解抹香鯨特有的點選聲和座頭鯨的歌聲。現代的機器學習方法依賴大量的資料集,但高質量的動物聲音資料一直難以獲得,限制了研究進展。

譬如,包括 ChatGPT 在內的大型語言模型就使用了來自網際網路的大量文字資料進行訓練,而與之形成鮮明對比的是,動物交流研究可用的資料集仍然有限。雖然 LLMs 的訓練資料量超過 500GB 的文字資訊,但 Ceti 計劃在研究抹香鯨的聲音時,僅獲得了不到 8000 個錄音樣本。這一差距也凸顯了研究人員在理解動物交流方面的難題。

此外,人類語言的解釋依賴於共同的語法和語義規則,而解讀動物的叫聲卻充滿了不確定性 —— 區分狼的不同嚎叫所代表的意義,仍然是一個巨大的挑戰。

一旦這些龐大的資料集完成收集,深度神經網路等先進的分析技術將能夠揭示動物聲音背後的規律和結構,或許能發現一些與人類語言類似的模式。

儘管研究取得了很大進展,關於解碼動物聲音的最終目標仍然是一個亟待解答的問題。像 Interspecies.io 這樣的組織,明確表示希望將跨物種的交流轉化為人類能夠理解的訊號,甚至提出要將動物的叫聲翻譯成人類語言。不過,科學界普遍認為,非人類動物並不具備類似人類語言那樣的結構化語言。(@IT 之家)

3、谷歌 DeepMind 最佳化 AI 模型新思路,計算效率與推理能力兼得

谷歌 DeepMind 團隊最新推出了「可微快取增強」(Differentiable Cache Augmentation)的新方法,在不明顯額外增加計算負擔的情況下,可以顯著提升大語言模型的推理效能。

「可微快取增強」(Differentiable Cache Augmentation)採用一個經過訓練的協處理器,透過潛在嵌入來增強 LLM 的鍵值(kv)快取,豐富模型的內部記憶,關鍵在於保持基礎 LLM 凍結,同時訓練非同步執行的協處理器。

整個流程分為 3 個階段,凍結的 LLM 從輸入序列生成 kv 快取;協處理器使用可訓練軟令牌處理 kv 快取,生成潛在嵌入;增強的 kv 快取反饋到 LLM,生成更豐富的輸出。

在 Gemma-2 2B 模型上進行測試,該方法在多個基準測試中取得了顯著成果。例如,在 GSM8K 資料集上,準確率提高了 10.05%;在 MMLU 上,效能提升了 4.70%。此外,該方法還降低了模型在多個標記位置的困惑度。(@IT 之家)

4、騰訊出品!StereoCrafter:輸入 2D 影片轉 3D 影片效果

近日,騰訊 AI 實驗室與騰訊 PCG 的 ARC 實驗室聯合推出了一種名為 StereoCrafter 的新框架,該框架可以將普通的 2D 影片轉換為高保真的立體 3D 影片。

這一創新響應了對 3D 內容日益增長的需求,尤其是在沉浸式體驗領域。StereoCrafter 充分利用了基礎模型的優勢,克服了傳統轉換方法的侷限,顯著提升了生成效果,確保生成內容能夠滿足各種顯示裝置的高保真要求。

該系統的核心分為兩個主要步驟。第一步是基於深度資訊的影片重新貼圖,提取遮擋資訊的同時進行影片變換;第二步則是立體影片的修復。系統採用了經過預訓練的穩定影片擴散模型作為基礎,並引入了針對立體影片修復任務的微調協議。為了處理不同長度和解析度的影片輸入,團隊還探索了自迴歸策略和切片處理技術,確保系統能夠靈活適應各種輸入條件。

為了支援訓練,該團隊建立了一條複雜的資料處理流水線,生成了大規模、高質量的資料集。在資料集構建過程中,研究團隊從大量的立體影片中進行挑選,並生成相應的影片深度、變換後的影片和遮擋資訊,確保右側影片作為真實的基準。這些創新方法為將 2D 影片轉化為 3D 影片提供了切實可行的解決方案,使得 Apple Vision Pro 和其他 3D 顯示裝置能夠呈現更為精彩的沉浸體驗。(@AIbase基地)

02 有亮點的產品

1、支付寶「掃一掃」推出新一代 AI 視覺搜尋產品「探一下」

支付寶今日推出新一代 AI 視覺搜尋產品「探一下」,基於自研的多模態大模型技術,可「用 AI 之眼探索萬物」,提供生成式搜尋服務。

據悉,該產品可以便於使用者透過攝像頭,識別花草寵物和潮玩、做旅遊的隨身講解、查詢商品藥品詳情等,還能趣味解讀萌寵照、寶寶照等,曬圖不愁配文案。

目前該產品已上線支付寶,在首頁點選「掃一掃」後左劃即可找到,在支小寶 App 也能快速訪問。(@IT 之家)

2、TemPolor:音樂生成平臺,能夠根據影片或文字輸入自動生成版權免費的音樂

TemPolor 是一款創新的 AI 音樂生成工具,旨在為內容創作者提供個性化的音樂解決方案。其核心價值主張在於透過分析使用者提供的影片或文字內容,自動生成高質量的音樂和歌詞,幫助使用者輕鬆提升其作品的音效表現。目標使用者包括影片製作者、社交媒體內容創作者以及需要背景音樂的個人和專業人士。TemPolor 解決了傳統音樂創作中版權問題和專業知識門檻高的痛點,為使用者提供了一種便捷且經濟的音樂創作方式。

TemPolor 團隊由 Geoffrey Jia 和 Leyne Lin 組成。Leyne Lin 是 TemPolor 的產品負責人,擁有豐富的產品管理和市場營銷背景。Leyne 畢業於南加州大學(University of Southern California)和西北大學(Northwestern University),這為她在產品開發和管理領域奠定了堅實的基礎。(@Z potentials)

03 有態度的觀點

1、劍橋大學研究揭示:AI 可能操縱你的線上決策

根據劍橋大學的研究,人工智慧(AI)工具有可能被用來操縱線上使用者的決策,從購買商品到選擇投票物件,AI 都可能發揮作用。該研究指出,未來可能出現一個新的市場,稱為「意圖經濟」,在這個市場中,AI 助手可以理解、預測和操縱人類的意圖,並將這些資訊出售給能從中獲利的公司。

研究團隊來自劍橋大學的未來智慧研究中心(LCFI),他們將意圖經濟視為注意力經濟的繼承者。在注意力經濟中,社交網路透過吸引使用者注意力並投放廣告來維持經濟運轉。而在意圖經濟中,懂得 AI 的科技公司會把他們掌握的使用者動機資訊,比如使用者預訂酒店的計劃或對某位政治候選人的看法,賣給出價最高的公司。

LCFI 的技術歷史學家喬尼・佩恩博士表示:「幾十年來,注意力一直是網際網路的貨幣。使用者在社交媒體平臺如 Facebook 和 Instagram 上分享他們的注意力,從而推動了線上經濟的發展。」他指出,若不加以監管,意圖經濟將把使用者的動機視為新的貨幣,將引發一場針對人類意圖的「淘金熱」。

該研究指出,支撐如 ChatGPT 等 AI 工具的大型語言模型(LLMs)將被用於「預測和引導」使用者的行為,這些模型將透過「意圖、行為和心理資料」進行分析。研究稱,注意力經濟允許廣告商透過實時競價獲得使用者的注意力,而在意圖經濟中,LLMs 將能夠實時訪問使用者的意圖,例如詢問使用者是否考慮去看某部電影,或者詢問是否要幫他們預訂電影票。

在這個新興的意圖經濟中,廣告商將能夠利用生成式 AI 工具創造個性化的線上廣告。此外,研究還提到了馬克・祖克伯的 Meta 公司開發的一種 AI 模型 Cicero,該模型在玩桌遊《外交》時已達到了「人類水平」的能力,這種遊戲依賴於推測和預測對手的意圖。(@AIbase 基地)

2、AI 教父:AI 有 10% 到 20% 的機率導致人類滅亡

據 The Guardian 報導,今年的諾貝爾物理獎獲得者 Geoffrey Hinton 表示,人工智慧在未來三十年內導致人類滅絕的可能性為 10% 到 20% 。

Geoffrey Hinton 此前曾在 X 平臺發文,表示 AI 會有 10% 的可能性導致人類滅亡。而在 BBC 的一檔節目中,當被問及是否改變了對潛在 AI 世界末日及其發生可能性的分析時, Hinton 表示這一可能性上升至 10% 到 20%。

Hinton 認為,與強大的 AI 系統的智慧相比,人類就像蹣跚學步的孩子。

Hinton 聲稱,AI 的發展速度「非常非常快,比我預期的要快得多」,並呼籲政府對這項技術進行監管。他還警告到,「AI 領域的大多數專家都認為,在未來 20 年內,我們將開發出比人類更聰明的人工智慧。這是一個非常可怕的想法。」( @APPSO)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章