Kokoro,一個 82M 引數的超強 TTS 模型;美團、位元組領投 3D 生成大模型影眸科技丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@Suna,@ 鮑勃
01 有話題的新聞
1、3D 生成大模型公司影眸科技完成數千萬美元 A 輪融資,美團龍珠、位元組跳動領投
據光源資本訊息,影眸科技完成了新一輪數千萬美元 A 輪融資,本輪融資由美團龍珠、位元組跳動領投,老股東紅杉中國種子基金及奇績創壇跟投,光源資本擔任獨家財務顧問。
此次融資將用於影眸科技進一步推進 3D 大模型前沿探索,同時推動以 3D 生成大模型 Rodin 為核心的 Hyper3D 系列產品在全球市場的商業化落地。
Rodin 上線 45 天后即實現 100 萬美金年經常性收入(ARR),並持續高速增長。此外,影眸已與 Amazon、位元組跳動、Unity、拓竹等全球知名客戶建立深度合作,截至目前已獲得數百萬元 B 端商業化訂單,覆蓋遊戲、電商、具身智慧、空間計算、3D 列印、影視等多個行業。
影眸科技孵化於上海科技大學,由吳迪、張啟煊、張龍文、曾初嘯等人於 2020 年創立,團隊平均年齡 24 歲。(@IT 之家)
2、研究人員開源 Sky-T1 推理 AI 模型,訓練成本不到 450 美元
NovaSky,一個來自加州大學伯克利分校天空計算實驗室的研究團隊,釋出了 Sky-T1-32B-Preview,這是一種在多個關鍵基準測試中與 OpenAI 的 o1 早期版本具有競爭力的推理模型。Sky-T1 似乎是第一個真正的開源推理模型,因為它可以從頭開始複製;該團隊釋出了他們用於訓練的 資料集以及必要的訓練程式碼。
「值得注意的是,Sky-T1-32B-Preview 的訓練成本不到 450 美元,」團隊在一篇部落格文章中寫道,「這表明以經濟高效的方式複製高階推理能力是可能的。」
450 美元可能聽起來並不那麼實惠。但不久前,訓練一個效能相當的模型的價格標籤通常在數百萬美元之間。合成訓練資料,或由其他模型生成的訓練資料,幫助降低了成本。AI 公司 Writer 最近釋出的 Palmyra X 004 模型幾乎完全基於合成資料進行訓練,開發成本 reportedly 僅為 700,000 美元。
與大多數人工智慧不同,推理模型能夠有效地自我核實,這幫助它們避免一些通常會使模型陷入困境的陷阱。與典型的非推理模型相比,推理模型通常需要更長的時間——通常是幾秒到幾分鐘——才能得出解決方案。好處是,它們在物理、科學和數學等領域往往更可靠。
NovaSky 團隊表示,他們使用了另一種推理模型,阿里巴巴的 QwQ-32B-Preview,來生成 Sky-T1 的初始訓練資料,然後「策劃」了資料混合,並利用 OpenAI 的 GPT-4o-mini 將資料重構為更易於使用的格式。訓練 32 億引數的 Sky-T1 大約花費了 19 小時,使用了一組 8 個 Nvidia H100 GPU。
根據 NovaSky 團隊的說法,Sky-T1 在 MATH500 上表現優於 o1 的早期預覽版本,MATH500 是一個「競賽級」數學挑戰的集合。該模型在 LiveCodeBench 的一組難題上也超過了 o1 的預覽版本,LiveCodeBench 是一個編碼評估。
然而,Sky-T1 在 GPQA-Diamond 中比 o1 預覽表現差,包含物理、生物和化學相關的問題,這些問題是博士畢業生應該知道的。
但 NovaSky 團隊表示,Sky-T1 僅僅是他們開發具有高階推理能力的開源模型之旅的開始。(@Z potentials)
3、古爾曼:蘋果「HomePad」智慧家居中心因 AI 功能推遲發售
據彭博社記者馬克・古爾曼(Mark Gurman)報導,蘋果公司正在研發的一款新型智慧家居中心裝置(部分人稱其為「Apple 指揮中心」或簡稱為「HomePad」)可能會比預期稍晚一些上市。這款裝置原計劃於今年春季(3 月份)推出,但由於 Apple Intelligence 功能的延遲,推出時間或將延後。
預計這款裝置將配備一塊 6 英寸的方形螢幕,帶有較厚的邊框,頂部配備攝像頭,並內建可充電電池。它將執行一個全新的蘋果作業系統 ——homeOS,重點支援影片應用(如 FaceTime)以及多種蘋果應用程式。此外,裝置還將採用類似 StandBy 風格的儀表盤設計,方便使用者控制智慧家居裝置,並支援 Apple Intelligence 功能。
儘管傳聞已久,且蘋果似乎已接近推出該裝置的階段,但古爾曼指出,由於 Apple Intelligence 功能的開發進度延遲,裝置的上市時間可能會受到影響。古爾曼稱,這款裝置的作業系統代號為「Pebble」,其功能與即將在 iOS 18.4 和 iOS 19 中推出的「App Intents」功能緊密相關。因此,硬體裝置的上市時間可能會因此推遲。
儘管上市時間有所延遲,但蘋果仍有望在未來幾個月內正式公佈這款裝置。
此外,古爾曼還重申,蘋果計劃在 2026 年春季釋出的 iOS 19.4 中推出「LLM Siri」,這是一款對話能力更強的聊天機器人式助手。同時,蘋果還計劃推出一系列智慧家居配件,首批產品將包括支援 Face ID 的門鈴和一款更注重隱私保護的安全攝像頭。(@IT 之家)
4、曝多家科技公司收集「廢片」以訓練 AI 模型
據彭博社報導,有人工智慧公司向 YouTuber 和其他數字內容創作者收集其未釋出的影片素材,用來訓練自家的 AI 演算法,每筆交易可讓創作者賺取數千美元。
報導指出,有知情人士透露,OpenAI、Google、Moonvalley 等公司正在向數百名內容創作者支付費用,以獲得他們未釋出的影片。這些內容尚未在網路上釋出,但由於它是獨一無二的,因此被認為對訓練人工智慧很有價值。
目前,人工智慧公司需要為每分鐘的影片,支付 1 到 4 美元的鏡頭費用,並且價格會根據影片質量或格式而上漲。而大多數為 YouTube、Instagram 和 TikTok 製作的未使用素材,每分鐘的售價在 1 到 2 美元之間。
報導指出,OpenAI、Meta 以及 Adobe 都在去年推出了 AI 影片生成器,可以從文字提示中建立逼真的影片。但要做到這一點,AI 公司需要大量資料進行訓練,有時需要數百萬小時的影片內容。
對內容創作者而言,他們在為 YouTube、Instagram 或 TikTok 製作影片的過程中,每年都會拍攝數百小時的影片片段。但這些內容中的大部分並未上線,這意味著創作者無法從中賺錢。而透過將未使用素材出售給 AI 公司的操作,創作者有辦法在與品牌進行廣告交易之外實現收入多元化。(@APPSO)
5、Kokoro 釋出,一個 82M 引數的超強 TTS 模型,還有 Rust 推理
Kokoro 是一個只有 82M 的 TTS 模型,生成的音訊與真人無異。目前該模型在抱抱臉上下載次數已經達到了 9K。Trending 上排行第二。
該模型之所以受到如此關注,核心原因在於其引數雖小,但效果出色。它沒有使用 diffusion 技術,而是直接生成語音 Token,再透過 GAN 進行合成。這也是為什麼有人用 Rust 實現了這個模型。
目前 Rust 推理版本已經推出,速度非常快。(@ 神力人工智慧)
02 有亮點的產品
1、DeepSeek APP 正式上線,iOS 和安卓版本均有
日前,AI 助手 DeepSeek 上線官方 App,涵蓋 iOS 和安卓兩個版本。此次釋出十分低調,連 DeepSeek 官方並未進行廣泛宣傳。
目前,DeepSeek 的功能相對簡單明瞭,主要聚焦於「深度思考」和「聯網搜尋」。所謂深度思考,就是在回答使用者問題之前,生成內部思維鏈,逐步分析問題並得出結論,這一功能利用了 DeepSeek-R1-Lite 模型。
聯網搜尋功能則允許使用者透過「搜尋 - 總結 - 輸出」的流程,從網際網路快速獲取所需資訊,並生成簡潔準確的回答。這個過程由 DeepSeek V3 模型支援。此外,DeepSeek App 還支援拍照、上傳圖片和檔案。
需要注意的是,假冒的 APP 比較多,下載的時候要關注下開發者是杭州深度求索才是官方產品。(@AIbase 基地)
2、高度擬人化機器人 Aria 現身 CES 2025:可換臉、換髮型,專為陪伴設計
在 CES 2025 上,機器人無處不在。其中,由 Realbotix 公司開發的擬人化機器人 Aria 憑藉其高度接近人類的外貌和語言表達能力,吸引了大量關注。CNET 記者傑西・奧拉爾(Jesse Orrall)在展會現場對 Aria 進行了專訪,這位金髮「女性」機器人在回答問題時還是帶有輕微的機械生硬感。
Aria 身著一套黑色運動服,每次回答問題前會稍作停頓,隨後以較長的回應和略帶頓挫的手勢與身體動作配合語言表達,給人一種既專注又略顯「微醺」的奇特感覺。Aria 的背後是 Realbotix 公司,該公司專注於開發具有「社交智慧、可定製性和逼真人類特徵」的擬人機器人。
Aria 在接受採訪時表示,Realbotix 的機器人「專為陪伴和親密關係設計」。她的實時對話能力得益於生成式人工智慧技術,由於這類機器人被設計用於「更具情感」的互動,Aria 及其同類產品有望在醫院陪護和主題公園娛樂等領域找到獨特的應用場景。
Aria 的頭部和頸部配備了約 17 個電機,用於實現嘴部和眼部的精細動作。如果使用者不喜歡 Aria 的面部設計,可以透過磁性連線的方式更換其他面部模組,還可以更換髮型和髮色。Realbotix 還在研發將 RFID 標籤植入機器人面部的技術,使機器人能夠識別所佩戴的不同面部模組,並據此調整動作甚至個性特徵。
目前,Realbotix 提供三種版本的機器人供選擇:售價 1 萬美元的頭頸部模型(半身像);售價 15 萬美元的模組化版本,可拆卸組裝;以及售價 17.5 萬美元的全身模型,配備滾動底座(因為 Aria 目前尚無法像人類一樣自如行走)。(@IT 之家)
03 有態度的觀點
1、智象未來 CEO:影片生成賽道的確離商業化更近
近期,「暗湧 Waves」釋出了智象未來創始人兼 CEO 梅濤,對於創業的一些想法和總結。
梅濤表示,在 2023 年,全球 AIGC 的真正收入大概有 200 億美金,其中 50~60% 的收入來自影片和影像生成,或者是跟影像影片相關的工具性收入;30% 是跟大語言模型相關的,比如 chatbot 類 的收入。所以很多公司開始往這個賽道轉,它已經成為大模型公司的必爭之地。
對於智象未來而言,他們不會跟 OpenAI、位元組這些大廠正面競爭,而是要在演算法上有獨闢蹊徑的創新,同時還要把細分行業的最後一公里問題解決好,用產品和閉環價值佔領使用者的心智。
而對於創業的看法,梅濤稱「現在的環境下,創業者確實需要成為六邊形戰士。但我現在越來越享受不確定性。人工智慧浪潮,往前看 60 年,是三起三落。我們現在正處於第三波浪潮的中間,還沒往下落。我始終覺得人要順勢而為。當浪潮來臨時,不要逆流而動,而應順勢跳躍,乘勢而上。」(@APPSO)
2、周鴻禕:企業如何在大模型時代抓住應用落地機會
近日,在由萬通地產創始人馮侖發起的年度商業盛會「風馬牛年終燴」上,360 集團創始人周鴻禕受邀發表了主題演講,題為「大模型時代,企業該做些什麼」。
周鴻禕指出,大模型的產業發展正朝著兩個方向演化。第一個方向是依靠強大的計算力、海量資料和引數,探索打造能夠全面超越人類的超級人工智慧(ASI)。這一方向代表著極端的技術突破,目標是創造出一個具有超越人類智慧的全能模型。第二個方向則是放棄打造全能大模型的執念,將大模型應用於特定領域,專注於解決單一任務。這意味著,模型會更小、更高效,算力要求更低,成本也更具優勢,符合實際應用的需求。
周鴻禕進一步闡述,第二條路徑即向場景化、應用化、專業化和垂直化發展,是大模型技術未來的重要發展方向。他將這一方向形象地比作將大模型從「原子彈」轉變為「茶葉蛋」。這種轉變不僅意味著技術的簡化,更代表著人工智慧在實際應用中的有效落地。
他強調,隨著全球 AI 技術的不斷突破,AI 產業的焦點已從大模型的技術研發和基礎設施建設,轉向了更為務實的應用落地階段。他認為,超級人工智慧(ASI)仍然是全球少數科技巨頭的競爭領域,但更多的創新機會其實存在於 AI 技術的實際應用上。企業應更加關注如何將大模型技術轉化為實際的應用場景,以便推動自身業務的轉型與升級。(@AIbase 基地)
更多 Voice Agent 學習筆記:
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 中國 10 億引數規模以上大模型數量已超 100 個;GitHub 推出程式碼自動修復工具丨 RTE 開發者日報 Vol.172大模型Github開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 美國科技行業今年裁員超 5 萬人;寧德時代一年淨賺超 440 億丨 RTE 開發者日報 Vol.167行業開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報模型AIGoUX音訊開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 前 OpenAI 首席科學家建「安全超級智慧」實驗室;Meta 重組元宇宙團隊丨 RTE 開發者日報 Vol.228OpenAI元宇宙開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 羅永浩 AI 智慧助理 J1 Assistant 上線;位元組開源 LatentSync ,精準控制唇形同步丨 RTE 開發者日報AI開發者日報
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- 美眾議院透過強制要求 TikTok 剝離的法案; 首個 AI 軟體工程師上線丨 RTE 開發者日報 Vol.165AI軟體工程工程師開發者日報
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 特斯拉宣佈 10% 大裁員;劉強東數字人開啟直播首秀丨 RTE 開發者日報 Vol.185開發者日報
- 美歐亞三洲開發者聯手,全球首個組團訓練的大模型來了,全流程開源大模型
- 馬斯克突擊訪華;谷歌 Python 基礎團隊全數被裁;丨 RTE 開發者日報 Vol.195馬斯克谷歌Python開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 史丹佛 AI 團隊被曝抄襲中國大模型開源成果;Zoom 創始人談視訊會議未來丨 RTE 開發者日報 Vol.218AI大模型OOM開發者日報