Kokoro,一個 82M 引數的超強 TTS 模型;美團、位元組領投 3D 生成大模型影眸科技丨 RTE 開發者日報

RTE开发者社区發表於2025-01-13

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@Suna,@ 鮑勃

01 有話題的新聞

1、3D 生成大模型公司影眸科技完成數千萬美元 A 輪融資,美團龍珠、位元組跳動領投

據光源資本訊息,影眸科技完成了新一輪數千萬美元 A 輪融資,本輪融資由美團龍珠、位元組跳動領投,老股東紅杉中國種子基金及奇績創壇跟投,光源資本擔任獨家財務顧問。

此次融資將用於影眸科技進一步推進 3D 大模型前沿探索,同時推動以 3D 生成大模型 Rodin 為核心的 Hyper3D 系列產品在全球市場的商業化落地。

Rodin 上線 45 天后即實現 100 萬美金年經常性收入(ARR),並持續高速增長。此外,影眸已與 Amazon、位元組跳動、Unity、拓竹等全球知名客戶建立深度合作,截至目前已獲得數百萬元 B 端商業化訂單,覆蓋遊戲、電商、具身智慧、空間計算、3D 列印、影視等多個行業。

影眸科技孵化於上海科技大學,由吳迪、張啟煊、張龍文、曾初嘯等人於 2020 年創立,團隊平均年齡 24 歲。(@IT 之家)

2、研究人員開源 Sky-T1 推理 AI 模型,訓練成本不到 450 美元

NovaSky,一個來自加州大學伯克利分校天空計算實驗室的研究團隊,釋出了 Sky-T1-32B-Preview,這是一種在多個關鍵基準測試中與 OpenAI 的 o1 早期版本具有競爭力的推理模型。Sky-T1 似乎是第一個真正的開源推理模型,因為它可以從頭開始複製;該團隊釋出了他們用於訓練的 資料集以及必要的訓練程式碼。

「值得注意的是,Sky-T1-32B-Preview 的訓練成本不到 450 美元,」團隊在一篇部落格文章中寫道,「這表明以經濟高效的方式複製高階推理能力是可能的。」
450 美元可能聽起來並不那麼實惠。但不久前,訓練一個效能相當的模型的價格標籤通常在數百萬美元之間。合成訓練資料,或由其他模型生成的訓練資料,幫助降低了成本。AI 公司 Writer 最近釋出的 Palmyra X 004 模型幾乎完全基於合成資料進行訓練,開發成本 reportedly 僅為 700,000 美元。

與大多數人工智慧不同,推理模型能夠有效地自我核實,這幫助它們避免一些通常會使模型陷入困境的陷阱。與典型的非推理模型相比,推理模型通常需要更長的時間——通常是幾秒到幾分鐘——才能得出解決方案。好處是,它們在物理、科學和數學等領域往往更可靠。

NovaSky 團隊表示,他們使用了另一種推理模型,阿里巴巴的 QwQ-32B-Preview,來生成 Sky-T1 的初始訓練資料,然後「策劃」了資料混合,並利用 OpenAI 的 GPT-4o-mini 將資料重構為更易於使用的格式。訓練 32 億引數的 Sky-T1 大約花費了 19 小時,使用了一組 8 個 Nvidia H100 GPU。

根據 NovaSky 團隊的說法,Sky-T1 在 MATH500 上表現優於 o1 的早期預覽版本,MATH500 是一個「競賽級」數學挑戰的集合。該模型在 LiveCodeBench 的一組難題上也超過了 o1 的預覽版本,LiveCodeBench 是一個編碼評估。

然而,Sky-T1 在 GPQA-Diamond 中比 o1 預覽表現差,包含物理、生物和化學相關的問題,這些問題是博士畢業生應該知道的。

但 NovaSky 團隊表示,Sky-T1 僅僅是他們開發具有高階推理能力的開源模型之旅的開始。(@Z potentials)

3、古爾曼:蘋果「HomePad」智慧家居中心因 AI 功能推遲發售

據彭博社記者馬克・古爾曼(Mark Gurman)報導,蘋果公司正在研發的一款新型智慧家居中心裝置(部分人稱其為「Apple 指揮中心」或簡稱為「HomePad」)可能會比預期稍晚一些上市。這款裝置原計劃於今年春季(3 月份)推出,但由於 Apple Intelligence 功能的延遲,推出時間或將延後。

預計這款裝置將配備一塊 6 英寸的方形螢幕,帶有較厚的邊框,頂部配備攝像頭,並內建可充電電池。它將執行一個全新的蘋果作業系統 ——homeOS,重點支援影片應用(如 FaceTime)以及多種蘋果應用程式。此外,裝置還將採用類似 StandBy 風格的儀表盤設計,方便使用者控制智慧家居裝置,並支援 Apple Intelligence 功能。

儘管傳聞已久,且蘋果似乎已接近推出該裝置的階段,但古爾曼指出,由於 Apple Intelligence 功能的開發進度延遲,裝置的上市時間可能會受到影響。古爾曼稱,這款裝置的作業系統代號為「Pebble」,其功能與即將在 iOS 18.4 和 iOS 19 中推出的「App Intents」功能緊密相關。因此,硬體裝置的上市時間可能會因此推遲。

儘管上市時間有所延遲,但蘋果仍有望在未來幾個月內正式公佈這款裝置。

此外,古爾曼還重申,蘋果計劃在 2026 年春季釋出的 iOS 19.4 中推出「LLM Siri」,這是一款對話能力更強的聊天機器人式助手。同時,蘋果還計劃推出一系列智慧家居配件,首批產品將包括支援 Face ID 的門鈴和一款更注重隱私保護的安全攝像頭。(@IT 之家)

4、曝多家科技公司收集「廢片」以訓練 AI 模型

據彭博社報導,有人工智慧公司向 YouTuber 和其他數字內容創作者收集其未釋出的影片素材,用來訓練自家的 AI 演算法,每筆交易可讓創作者賺取數千美元。

報導指出,有知情人士透露,OpenAI、Google、Moonvalley 等公司正在向數百名內容創作者支付費用,以獲得他們未釋出的影片。這些內容尚未在網路上釋出,但由於它是獨一無二的,因此被認為對訓練人工智慧很有價值。

目前,人工智慧公司需要為每分鐘的影片,支付 1 到 4 美元的鏡頭費用,並且價格會根據影片質量或格式而上漲。而大多數為 YouTube、Instagram 和 TikTok 製作的未使用素材,每分鐘的售價在 1 到 2 美元之間。

報導指出,OpenAI、Meta 以及 Adobe 都在去年推出了 AI 影片生成器,可以從文字提示中建立逼真的影片。但要做到這一點,AI 公司需要大量資料進行訓練,有時需要數百萬小時的影片內容。

對內容創作者而言,他們在為 YouTube、Instagram 或 TikTok 製作影片的過程中,每年都會拍攝數百小時的影片片段。但這些內容中的大部分並未上線,這意味著創作者無法從中賺錢。而透過將未使用素材出售給 AI 公司的操作,創作者有辦法在與品牌進行廣告交易之外實現收入多元化。(@APPSO)

5、Kokoro 釋出,一個 82M 引數的超強 TTS 模型,還有 Rust 推理

Kokoro 是一個只有 82M 的 TTS 模型,生成的音訊與真人無異。目前該模型在抱抱臉上下載次數已經達到了 9K。Trending 上排行第二。

該模型之所以受到如此關注,核心原因在於其引數雖小,但效果出色。它沒有使用 diffusion 技術,而是直接生成語音 Token,再透過 GAN 進行合成。這也是為什麼有人用 Rust 實現了這個模型。

目前 Rust 推理版本已經推出,速度非常快。(@ 神力人工智慧)

02 有亮點的產品

1、DeepSeek APP 正式上線,iOS 和安卓版本均有

日前,AI 助手 DeepSeek 上線官方 App,涵蓋 iOS 和安卓兩個版本。此次釋出十分低調,連 DeepSeek 官方並未進行廣泛宣傳。

目前,DeepSeek 的功能相對簡單明瞭,主要聚焦於「深度思考」和「聯網搜尋」。所謂深度思考,就是在回答使用者問題之前,生成內部思維鏈,逐步分析問題並得出結論,這一功能利用了 DeepSeek-R1-Lite 模型。

聯網搜尋功能則允許使用者透過「搜尋 - 總結 - 輸出」的流程,從網際網路快速獲取所需資訊,並生成簡潔準確的回答。這個過程由 DeepSeek V3 模型支援。此外,DeepSeek App 還支援拍照、上傳圖片和檔案。

需要注意的是,假冒的 APP 比較多,下載的時候要關注下開發者是杭州深度求索才是官方產品。(@AIbase 基地)

2、高度擬人化機器人 Aria 現身 CES 2025:可換臉、換髮型,專為陪伴設計

在 CES 2025 上,機器人無處不在。其中,由 Realbotix 公司開發的擬人化機器人 Aria 憑藉其高度接近人類的外貌和語言表達能力,吸引了大量關注。CNET 記者傑西・奧拉爾(Jesse Orrall)在展會現場對 Aria 進行了專訪,這位金髮「女性」機器人在回答問題時還是帶有輕微的機械生硬感。

Aria 身著一套黑色運動服,每次回答問題前會稍作停頓,隨後以較長的回應和略帶頓挫的手勢與身體動作配合語言表達,給人一種既專注又略顯「微醺」的奇特感覺。Aria 的背後是 Realbotix 公司,該公司專注於開發具有「社交智慧、可定製性和逼真人類特徵」的擬人機器人。

Aria 在接受採訪時表示,Realbotix 的機器人「專為陪伴和親密關係設計」。她的實時對話能力得益於生成式人工智慧技術,由於這類機器人被設計用於「更具情感」的互動,Aria 及其同類產品有望在醫院陪護和主題公園娛樂等領域找到獨特的應用場景。

Aria 的頭部和頸部配備了約 17 個電機,用於實現嘴部和眼部的精細動作。如果使用者不喜歡 Aria 的面部設計,可以透過磁性連線的方式更換其他面部模組,還可以更換髮型和髮色。Realbotix 還在研發將 RFID 標籤植入機器人面部的技術,使機器人能夠識別所佩戴的不同面部模組,並據此調整動作甚至個性特徵。

目前,Realbotix 提供三種版本的機器人供選擇:售價 1 萬美元的頭頸部模型(半身像);售價 15 萬美元的模組化版本,可拆卸組裝;以及售價 17.5 萬美元的全身模型,配備滾動底座(因為 Aria 目前尚無法像人類一樣自如行走)。(@IT 之家)

03 有態度的觀點

1、智象未來 CEO:影片生成賽道的確離商業化更近

近期,「暗湧 Waves」釋出了智象未來創始人兼 CEO 梅濤,對於創業的一些想法和總結。

梅濤表示,在 2023 年,全球 AIGC 的真正收入大概有 200 億美金,其中 50~60% 的收入來自影片和影像生成,或者是跟影像影片相關的工具性收入;30% 是跟大語言模型相關的,比如 chatbot 類 的收入。所以很多公司開始往這個賽道轉,它已經成為大模型公司的必爭之地。

對於智象未來而言,他們不會跟 OpenAI、位元組這些大廠正面競爭,而是要在演算法上有獨闢蹊徑的創新,同時還要把細分行業的最後一公里問題解決好,用產品和閉環價值佔領使用者的心智。

而對於創業的看法,梅濤稱「現在的環境下,創業者確實需要成為六邊形戰士。但我現在越來越享受不確定性。人工智慧浪潮,往前看 60 年,是三起三落。我們現在正處於第三波浪潮的中間,還沒往下落。我始終覺得人要順勢而為。當浪潮來臨時,不要逆流而動,而應順勢跳躍,乘勢而上。」(@APPSO)

2、周鴻禕:企業如何在大模型時代抓住應用落地機會

近日,在由萬通地產創始人馮侖發起的年度商業盛會「風馬牛年終燴」上,360 集團創始人周鴻禕受邀發表了主題演講,題為「大模型時代,企業該做些什麼」。

周鴻禕指出,大模型的產業發展正朝著兩個方向演化。第一個方向是依靠強大的計算力、海量資料和引數,探索打造能夠全面超越人類的超級人工智慧(ASI)。這一方向代表著極端的技術突破,目標是創造出一個具有超越人類智慧的全能模型。第二個方向則是放棄打造全能大模型的執念,將大模型應用於特定領域,專注於解決單一任務。這意味著,模型會更小、更高效,算力要求更低,成本也更具優勢,符合實際應用的需求。

周鴻禕進一步闡述,第二條路徑即向場景化、應用化、專業化和垂直化發展,是大模型技術未來的重要發展方向。他將這一方向形象地比作將大模型從「原子彈」轉變為「茶葉蛋」。這種轉變不僅意味著技術的簡化,更代表著人工智慧在實際應用中的有效落地。

他強調,隨著全球 AI 技術的不斷突破,AI 產業的焦點已從大模型的技術研發和基礎設施建設,轉向了更為務實的應用落地階段。他認為,超級人工智慧(ASI)仍然是全球少數科技巨頭的競爭領域,但更多的創新機會其實存在於 AI 技術的實際應用上。企業應更加關注如何將大模型技術轉化為實際的應用場景,以便推動自身業務的轉型與升級。(@AIbase 基地)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章