羅永浩 AI 智慧助理 J1 Assistant 上線;位元組開源 LatentSync ,精準控制唇形同步丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、位元組跳動開源全新 AI 模型 LatentSync 精準控制唇形同步
位元組跳動近日開源了一項名為 LatentSync 的創新技術,該技術是一種基於音訊條件的潛在擴散模型的端到端唇同步框架。這項技術無需任何中間運動表示,即可實現影片中人物唇部動作與音訊的精準同步。與以往基於畫素空間擴散或兩階段生成的唇同步方法不同,LatentSync 直接利用了 Stable Diffusion 的強大功能,能更有效地建模複雜的視聽關聯。
研究發現,基於擴散的唇同步方法在時間一致性方面表現不佳,因為不同幀之間的擴散過程存在不一致性。為了解決這個問題,LatentSync 引入了時間表示對齊(TREPA)技術。TREPA 利用大型自監督影片模型提取的時間表示,使生成的幀與真實幀對齊,從而增強時間一致性,同時保持唇同步的準確性。
此外,研究團隊還深入研究了 SyncNet 的收斂問題,並透過大量的實證研究,確定了影響 SyncNet 收斂的關鍵因素,包括模型架構、訓練超引數和資料預處理方法。透過最佳化這些因素,SyncNet 在 HDTF 測試集上的準確率從 91% 顯著提升至 94%。由於沒有改變 SyncNet 的整體訓練框架,這項經驗也可應用於其他利用 SyncNet 的唇同步和音訊驅動的人像動畫方法。(@AIbase 基地)
2、阿里釋出 Qwen-Agent 框架,賦能開發者構建複雜 AI 智慧體
阿里通義千問 Qwen 推出全新 AI 框架 Qwen-Agent,基於現有 Qwen 語言模型,支援智慧體執行復雜任務,並提供多種高階功能,賦能開發者構建更強大的 AI 智慧體。
該框架基於 Qwen 現有語言模型,賦予智慧體執行詳細指令、使用工具、規劃任務和維護對話上下文等核心能力,還整合了 RAG(檢索增強生成)、程式碼直譯器和基於 Qwen2.5-Math 的專用數學推理等高階功能。
在架構方面,Qwen-Agent 採用兩層架構。底層提供語言模型和基礎工具,頂層提供現成的智慧體元件。開發者可以靈活組合這些元件,構建能夠執行復雜任務的智慧體,例如閱讀 PDF、操作現有工具以及執行自定義功能。
開發者可以透過阿里巴巴的 DashScope 雲服務或自行部署 Qwen 模型,阿里巴巴近期下調了 API AI 服務價格,進一步降低了使用門檻。此外,框架還提供 GUI 介面,方便開發者使用 Gradio 框架建立互動式網頁演示。(@IT 之家)
3、Autodesk 內測 AI 大模型 Bernini 生成式 CAD 要來了
近日,全球知名 CAD 軟體巨頭 Autodesk 宣佈正在內部測試一款名為 Bernini 的生成式 AI 大模型。
Bernini 這一名稱源於 17 世紀義大利著名雕塑家和建築師 Gian Lorenzo Bernini,充分體現了其創造力與藝術性的結合。與其他生成式 AI 模型不同,Bernini 具備獨特的功能:它不僅能將文字和手繪草圖轉化為實用的 3D 檔案,還具備生成中空功能性結構的能力,避免了僅生成外觀模型的問題。使用者可以自由調整生成的形狀和紋理,實現個性化設計。
為了訓練這一模型,Autodesk 與香港中文大學合作,利用了 1000 萬種公開可用的 3D 形狀進行資料訓練。Autodesk 執行副總裁兼技術長 Raji Arasu 在公開活動中表示,Bernini 能夠從單一輸入生成多個功能性 3D 形狀變體,顯著提升設計師的創作效率。
不過,Bernini 的推出並不意味著它已具備商業化能力。根據 Autodesk 的 CEO Andrew Anagnost 透露,目前該模型仍在測試階段,尚未正式投入商業應用。未來,客戶將能夠使用自己的資料來最佳化模型,從而進一步提升其效能。
在技術層面,Autodesk 選擇了 Amazon DynamoDB 作為資料儲存解決方案,確保能夠高效處理 PB 級別的資料。此外,結合 Amazon SageMaker 等雲服務,Autodesk 的模型訓練流程得以高效管理,從而在保持成本穩定的同時,實現了 AI 生產力的提升。(@AIbase 基地)
02 有亮點的產品
1、羅永浩重返科技行業:AI 智慧助理 J1 Assistant 上線
羅永浩旗下的 AI 新興企業 Jarvis 低調推出了新款 AI 智慧助理——J1 Assistant。這款軟體已在官網上線,目前是 Beta 版本,支援三星 Galaxy S24 系列、Galaxy S23 系列、Galaxy S22 系列、谷歌 Pixel 9 系列、谷歌 Pixel 8 系列以及谷歌 Pixel 7 系列。
根據官方公佈的演示影片,開啟 J1 Assistant 後,主介面會顯示一個麥克風圖示。長按並輸入語音,語音內容會自動轉換成文字,你可以將這些語音內容發給谷歌搜尋或者 ChatGPT,也可以發給 J1 Assistant,它會聆聽、理解你的語義內容並給出對應的答案。
官方表示,J1 Assistant 是一款更智慧、更高效、設計更優雅的 AI 助手,它能真正理解使用者,並完成複雜的語音指令,比如建立待辦事項、執行高效搜尋等等,目前該應用還處於測試階段。(@ 極客公園)
2、陪伴型機器人「Mirumi」問世,模仿嬰兒的好奇心
Yukai Engineering 在 CES 2025 展覽會上釋出了一款特別的新產品 —— 看起來毛茸茸的小型「陪伴型」機器人 Mirumi,官方稱其能夠模仿嬰兒的好奇心。其內建感測器,可探測到周圍的環境,並完成轉頭與附近的人或物互動,可謂「憨態可掬」。
當有人突然接近或觸控它時,它會羞澀地低下頭,模擬出一副害羞的模樣。公司計劃透過眾籌活動,於 2025 年中期推出 Mirumi,提供粉色和灰色等毛髮顏色,售價預計在 70 美元左右。
Mirumi 通常被掛在手提包的帶子上。然而,Mirumi 並不能獨立行走,功能上也僅限於轉動頭部。透過結合距離感測器和慣性測量單元來感知周圍的運動,Mirumi 會根據所感應到的情況做出不同反應。當包包開始移動時,Mirumi 會開始四處張望,發現人或物後,它會專注地盯著目標。
如果有陌生人突然接近或觸控它,Mirumi 會做出相反的動作,轉過頭來表現出嬰兒般的羞澀反應。甚至在被搖動時,它也會像在表示「不」一樣搖頭,表現出它的「不喜歡」。如果一段時間內沒有互動,它就會恢復「天真無邪」的環顧四周的行為。
Mirumi 不僅僅是一個伴侶機器人,它還能夠給他人帶來歡樂。「人們常常透過與他人分享自己的喜悅來獲得滿足,Mirumi 正是讓你做到這一點的機器人。」Yukai Engineering 的執行長青木俊介表示。「無論你是在擁擠的地鐵裡,還是在商店排隊,Mirumi 總能用它那天真無邪的目光觸動人心,促使他人不由自主地向它揮手或做出搞笑的表情回應。」(@IT 之家)
3、馬斯克宣佈 Grok 3 預訓練已完成
1 月 4 日,X CEO 馬斯克宣佈,xAI 旗下 AI 聊天機器人 Grok 3 即將推出,並表示預訓練已經完成。
馬斯克表示,計算量將會是 Grok 2 的 10 倍。2024 年 7 月,馬斯克曾透露,Grok 3 使用了 10 萬塊英偉達 H100 晶片進行訓練,並相信 Grok 3 將會「十分特別」。同時,馬斯克預計 2024 年底釋出 Grok 3,但並未如期而至。
據悉,2024 年 12 月,xAI 宣佈向所有 X 平臺使用者免費推送新版本的 Grok 2。據官方介紹,Grok 利用 X 平臺實時瞭解世界正在發生的事情。此前,Grok 推出了兩個額外功能—網頁搜尋和引用,從而增強了 Grok 的使用體驗。(@ APPSO)
03 有態度的觀點
1、OpenAI 研究員:資料集的選擇決定 AI 好不好
近日,OpenAI 研究員 Jason Wei 在個人社交賬號釋出推文,並表示資料集的選擇決定 AI 好不好。
文中,Jason Wei 提到,當前 AI 研究中一項被低估但卻能決定成敗的技能:找到真正能體現新方法有效性的資料集。同時他提及,這項技能在十年前還不存在,但如今卻可能成為一項研究成敗的關鍵。
Jason Wei 舉例「思維鏈(Chain of Thought, CoT)在哪些資料集上能提升效能?」,同時他引用了一篇「認為 CoT 主要對數學和邏輯任務有幫助」的論文。但 Jason Wei 認為這種觀點是缺乏想象力和多樣化評估的表現。
Jason Wei 強調,要確保用於測試的資料集確實能夠檢驗該方法,並且他認為人為設計的資料集可能無法代表使用者查詢的大部分內容。(@ APPSO)
更多 Voice Agent 學習筆記:
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 位元組預熱智慧硬體 Ola Friend,預計為智慧耳機;鴻蒙 NEXT 公測正式開啟,微信邀請內測丨 RTE 開發者日報鴻蒙開發者日報
- 微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報微軟AIUI開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報
- ChatGPT 人工智慧助理 AssistantChatGPT人工智慧
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- “仍有 5 億人堅持用 QQ”;馬斯克:本週開源 xAI 人工智慧助手丨 RTE 開發者日報 Vol.162馬斯克AI人工智慧開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- 美眾議院透過強制要求 TikTok 剝離的法案; 首個 AI 軟體工程師上線丨 RTE 開發者日報 Vol.165AI軟體工程工程師開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- SpaceX 星艦發射「成功一半」;首位具身 AI 機器人面世丨 RTE 開發者日報 Vol.166AI機器人開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- 首個被人類騙錢的 AI 誕生;微信公眾號後臺新增「AI 配圖」功能丨 RTE 開發者日報AI開發者日報
- 前 OpenAI 首席科學家建「安全超級智慧」實驗室;Meta 重組元宇宙團隊丨 RTE 開發者日報 Vol.228OpenAI元宇宙開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 比特幣暴漲逼近歷史最高點;阿里雲全線降價 20% 丨 RTE 開發者日報 Vol.155比特幣阿里開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- 羅永浩萬字求職信求職
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- AutoGLM:一句話控制手機電腦;英偉達新視覺壓縮工具:Cosmos Tokenizer 丨 RTE 開發者日報視覺開發者日報