騰訊 StereoCrafter:2D 影片轉 3D 影片效果;支付寶推出新 AI 視覺搜尋產品「探一下」丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、理想汽車釋出理想同學 App 官方問答
12 月 29 日,理想汽車釋出了理想同學 App「十問十答」文章。在文章中,官方針對使用者的高頻問題做出瞭解答。官方表示,理想同學 App 是理想汽車基於 Mind GPT 大模型精心打造的一款 AI 助手,把陪伴從車上延續到手機上。除了可以回答各種問題外,理想同學還有不斷成長的視覺感知能力,可以幫助使用者識別路上的汽車、動物和植物,邊看邊學。官方還在文章中介紹了理想同學 App 的功能:
知識問答: 提供汽車、出行、財經、科技等領域的專業解答。
視覺問答: 識別並解釋你可能不認識的動物、植物、汽車以及通用物品。
聯網搜尋: 幫你在全網尋找資訊,進行總結和提煉,並提供可信賴的參考資料。
文字處理: 處理各種型別的文字,如寫文章、文字翻譯等。
提供建議: 根據你的需求,為你的生活和工作提供建議,比如旅行規劃和飲食建議等。(@IT 之家)
2、AI 明年有望迎「突破性進展」:「破解」動物叫聲背後的溝通模式與結構
據 Munich Eye 當地時間 22 日報導,2025 年,人工智慧(AI)和機器學習領域的突破有望推動我們理解動物交流的程序,解開動物發聲背後的長期謎題。近期,設立的 Coller-Dolittle 獎項為解碼動物聲音的研究提供了可觀獎金,體現了科學界對此的樂觀情緒。
目前已有多個研究專案正致力於開發能夠解讀動物聲音的演算法。其中,Ceti 計劃一直在破解抹香鯨特有的點選聲和座頭鯨的歌聲。現代的機器學習方法依賴大量的資料集,但高質量的動物聲音資料一直難以獲得,限制了研究進展。
譬如,包括 ChatGPT 在內的大型語言模型就使用了來自網際網路的大量文字資料進行訓練,而與之形成鮮明對比的是,動物交流研究可用的資料集仍然有限。雖然 LLMs 的訓練資料量超過 500GB 的文字資訊,但 Ceti 計劃在研究抹香鯨的聲音時,僅獲得了不到 8000 個錄音樣本。這一差距也凸顯了研究人員在理解動物交流方面的難題。
此外,人類語言的解釋依賴於共同的語法和語義規則,而解讀動物的叫聲卻充滿了不確定性 —— 區分狼的不同嚎叫所代表的意義,仍然是一個巨大的挑戰。
一旦這些龐大的資料集完成收集,深度神經網路等先進的分析技術將能夠揭示動物聲音背後的規律和結構,或許能發現一些與人類語言類似的模式。
儘管研究取得了很大進展,關於解碼動物聲音的最終目標仍然是一個亟待解答的問題。像 Interspecies.io 這樣的組織,明確表示希望將跨物種的交流轉化為人類能夠理解的訊號,甚至提出要將動物的叫聲翻譯成人類語言。不過,科學界普遍認為,非人類動物並不具備類似人類語言那樣的結構化語言。(@IT 之家)
3、谷歌 DeepMind 最佳化 AI 模型新思路,計算效率與推理能力兼得
谷歌 DeepMind 團隊最新推出了「可微快取增強」(Differentiable Cache Augmentation)的新方法,在不明顯額外增加計算負擔的情況下,可以顯著提升大語言模型的推理效能。
「可微快取增強」(Differentiable Cache Augmentation)採用一個經過訓練的協處理器,透過潛在嵌入來增強 LLM 的鍵值(kv)快取,豐富模型的內部記憶,關鍵在於保持基礎 LLM 凍結,同時訓練非同步執行的協處理器。
整個流程分為 3 個階段,凍結的 LLM 從輸入序列生成 kv 快取;協處理器使用可訓練軟令牌處理 kv 快取,生成潛在嵌入;增強的 kv 快取反饋到 LLM,生成更豐富的輸出。
在 Gemma-2 2B 模型上進行測試,該方法在多個基準測試中取得了顯著成果。例如,在 GSM8K 資料集上,準確率提高了 10.05%;在 MMLU 上,效能提升了 4.70%。此外,該方法還降低了模型在多個標記位置的困惑度。(@IT 之家)
4、騰訊出品!StereoCrafter:輸入 2D 影片轉 3D 影片效果
近日,騰訊 AI 實驗室與騰訊 PCG 的 ARC 實驗室聯合推出了一種名為 StereoCrafter 的新框架,該框架可以將普通的 2D 影片轉換為高保真的立體 3D 影片。
這一創新響應了對 3D 內容日益增長的需求,尤其是在沉浸式體驗領域。StereoCrafter 充分利用了基礎模型的優勢,克服了傳統轉換方法的侷限,顯著提升了生成效果,確保生成內容能夠滿足各種顯示裝置的高保真要求。
該系統的核心分為兩個主要步驟。第一步是基於深度資訊的影片重新貼圖,提取遮擋資訊的同時進行影片變換;第二步則是立體影片的修復。系統採用了經過預訓練的穩定影片擴散模型作為基礎,並引入了針對立體影片修復任務的微調協議。為了處理不同長度和解析度的影片輸入,團隊還探索了自迴歸策略和切片處理技術,確保系統能夠靈活適應各種輸入條件。
為了支援訓練,該團隊建立了一條複雜的資料處理流水線,生成了大規模、高質量的資料集。在資料集構建過程中,研究團隊從大量的立體影片中進行挑選,並生成相應的影片深度、變換後的影片和遮擋資訊,確保右側影片作為真實的基準。這些創新方法為將 2D 影片轉化為 3D 影片提供了切實可行的解決方案,使得 Apple Vision Pro 和其他 3D 顯示裝置能夠呈現更為精彩的沉浸體驗。(@AIbase基地)
02 有亮點的產品
1、支付寶「掃一掃」推出新一代 AI 視覺搜尋產品「探一下」
支付寶今日推出新一代 AI 視覺搜尋產品「探一下」,基於自研的多模態大模型技術,可「用 AI 之眼探索萬物」,提供生成式搜尋服務。
據悉,該產品可以便於使用者透過攝像頭,識別花草寵物和潮玩、做旅遊的隨身講解、查詢商品藥品詳情等,還能趣味解讀萌寵照、寶寶照等,曬圖不愁配文案。
目前該產品已上線支付寶,在首頁點選「掃一掃」後左劃即可找到,在支小寶 App 也能快速訪問。(@IT 之家)
2、TemPolor:音樂生成平臺,能夠根據影片或文字輸入自動生成版權免費的音樂
TemPolor 是一款創新的 AI 音樂生成工具,旨在為內容創作者提供個性化的音樂解決方案。其核心價值主張在於透過分析使用者提供的影片或文字內容,自動生成高質量的音樂和歌詞,幫助使用者輕鬆提升其作品的音效表現。目標使用者包括影片製作者、社交媒體內容創作者以及需要背景音樂的個人和專業人士。TemPolor 解決了傳統音樂創作中版權問題和專業知識門檻高的痛點,為使用者提供了一種便捷且經濟的音樂創作方式。
TemPolor 團隊由 Geoffrey Jia 和 Leyne Lin 組成。Leyne Lin 是 TemPolor 的產品負責人,擁有豐富的產品管理和市場營銷背景。Leyne 畢業於南加州大學(University of Southern California)和西北大學(Northwestern University),這為她在產品開發和管理領域奠定了堅實的基礎。(@Z potentials)
03 有態度的觀點
1、劍橋大學研究揭示:AI 可能操縱你的線上決策
根據劍橋大學的研究,人工智慧(AI)工具有可能被用來操縱線上使用者的決策,從購買商品到選擇投票物件,AI 都可能發揮作用。該研究指出,未來可能出現一個新的市場,稱為「意圖經濟」,在這個市場中,AI 助手可以理解、預測和操縱人類的意圖,並將這些資訊出售給能從中獲利的公司。
研究團隊來自劍橋大學的未來智慧研究中心(LCFI),他們將意圖經濟視為注意力經濟的繼承者。在注意力經濟中,社交網路透過吸引使用者注意力並投放廣告來維持經濟運轉。而在意圖經濟中,懂得 AI 的科技公司會把他們掌握的使用者動機資訊,比如使用者預訂酒店的計劃或對某位政治候選人的看法,賣給出價最高的公司。
LCFI 的技術歷史學家喬尼・佩恩博士表示:「幾十年來,注意力一直是網際網路的貨幣。使用者在社交媒體平臺如 Facebook 和 Instagram 上分享他們的注意力,從而推動了線上經濟的發展。」他指出,若不加以監管,意圖經濟將把使用者的動機視為新的貨幣,將引發一場針對人類意圖的「淘金熱」。
該研究指出,支撐如 ChatGPT 等 AI 工具的大型語言模型(LLMs)將被用於「預測和引導」使用者的行為,這些模型將透過「意圖、行為和心理資料」進行分析。研究稱,注意力經濟允許廣告商透過實時競價獲得使用者的注意力,而在意圖經濟中,LLMs 將能夠實時訪問使用者的意圖,例如詢問使用者是否考慮去看某部電影,或者詢問是否要幫他們預訂電影票。
在這個新興的意圖經濟中,廣告商將能夠利用生成式 AI 工具創造個性化的線上廣告。此外,研究還提到了馬克・祖克伯的 Meta 公司開發的一種 AI 模型 Cicero,該模型在玩桌遊《外交》時已達到了「人類水平」的能力,這種遊戲依賴於推測和預測對手的意圖。(@AIbase 基地)
2、AI 教父:AI 有 10% 到 20% 的機率導致人類滅亡
據 The Guardian 報導,今年的諾貝爾物理獎獲得者 Geoffrey Hinton 表示,人工智慧在未來三十年內導致人類滅絕的可能性為 10% 到 20% 。
Geoffrey Hinton 此前曾在 X 平臺發文,表示 AI 會有 10% 的可能性導致人類滅亡。而在 BBC 的一檔節目中,當被問及是否改變了對潛在 AI 世界末日及其發生可能性的分析時, Hinton 表示這一可能性上升至 10% 到 20%。
Hinton 認為,與強大的 AI 系統的智慧相比,人類就像蹣跚學步的孩子。
Hinton 聲稱,AI 的發展速度「非常非常快,比我預期的要快得多」,並呼籲政府對這項技術進行監管。他還警告到,「AI 領域的大多數專家都認為,在未來 20 年內,我們將開發出比人類更聰明的人工智慧。這是一個非常可怕的想法。」( @APPSO)
更多 Voice Agent 學習筆記:
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- ChatGPT 支援語音實時搜尋;Meta Ray-Ban 智慧眼鏡新增影片識別與實時語音翻譯功能丨 RTE 開發者日報ChatGPT開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- Runway 新增影片擴充套件畫面功能;Anthropic 再獲亞馬遜投資 40 億美元,聚焦 AI 晶片研發丨 RTE 開發者日報套件亞馬遜AI晶片開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 2D影片轉換成3D格式的Mac影片轉換軟體:Tipard Mac 3D Converter for Mac3DMac
- 「人眼視覺不再是影片消費的唯一形式」丨智慧編解碼和 AI 影片生成專場回顧 @RTE2024視覺AI
- Pi 母公司將開發情感 AI 商業機器人;Meta 科學家:Sora 不是影片生成唯一方向丨 RTE 開發者日報 Vol.214AI機器人Sora開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- AutoGLM:一句話控制手機電腦;英偉達新視覺壓縮工具:Cosmos Tokenizer 丨 RTE 開發者日報視覺開發者日報
- 騰訊影片怎麼錄屏,騰訊影片怎麼截長影片
- RTE 大會報名丨智慧編解碼和 AI 生成影片 ,RTE2024 技術專場第五彈!AI
- 3d視覺化產品定製3D視覺化
- 公告丨騰訊安全產品更名通知
- Bitmovin:2021年影片開發者報告
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨 RTE 開發者日報AI3D開發者日報
- Rokid Glasses AR 眼鏡釋出,搭載通義 AI;3D 社交平臺 SEELE 完成千萬美元融資丨RTE 開發者日報AI3D開發者日報
- 中國教育 AI 產品正在成為百萬美國學生的輔導老師;李飛飛:大模型不存在主觀感覺能力丨 RTE 開發者日報 Vol.213AI大模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 蘋果頭顯產品年內中國上市;「美版貼吧」Reddit 苦熬 19 年終上市丨 RTE 開發者日報 Vol.170蘋果開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- GTC 2024 開幕,英偉達釋出新一代 GPU 架構;Apple ID 或將淘汰丨 RTE 開發者日報 Vol.168GPU架構APP開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- SpaceX 星艦發射「成功一半」;首位具身 AI 機器人面世丨 RTE 開發者日報 Vol.166AI機器人開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- YouTube 上線「用相機拍攝」標籤為真實影片「驗明正身」;美國被曝考慮限制向中東國家出口 AI 晶片丨 RTE 開發者日報AI晶片開發者日報
- 史丹佛 AI 團隊被曝抄襲中國大模型開源成果;Zoom 創始人談視訊會議未來丨 RTE 開發者日報 Vol.218AI大模型OOM開發者日報
- 奇樂短影片開發系統丨奇樂社交短影片技術開發案例丨DAPPAPP
- 騰訊雲相關產品推薦
- 開發者實踐丨Agora Home AI 音視訊的未來GoAI