WebGPU 版 Kokoro:瀏覽器端零成本使用高質量 TTS;蘋果 ELEGNT 檯燈機器人:賦予非人形機器人「情感」
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@qqq,@ 鮑勃
01 有話題的技術
1、DeepSeek GitHub 平臺熱門專案星數超 OpenAI 最熱門專案
截至 2 月 7 日下午,DeepSeek 在 GitHub 平臺的熱門專案「DeepSeek -V3」的點星數已達到 7 萬加,超過了 GitHub 上 OpenAI 最熱門專案 Whisper。DeepSeek-V3 模型於2024年12月26日釋出,官方表示,DeepSeek-V3 為自研 MoE 模型,671B 引數,啟用 37B,在 14.8T token 上進行了預訓練。該模型的多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,並在效能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
此外,官方表示,透過演算法和工程上的創新,DeepSeek-V3 的生成吐字速度從 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型實現了 3 倍的提升,為使用者帶來更加迅速流暢的使用體驗。(@APPSO)
2、谷歌推出 Imagen 3 API,價格 0.03 美元/張
近日,谷歌正式推出其最新的影像生成模型 ——Imagen3,現已在 Gemini API 上可供開發者使用。該模型在視覺效果上表現出色,能夠生成各種風格的高質量影像,包括超現實主義作品、印象派風景、抽象作品以及動漫角色。Imagen3 不僅提升了影像的清晰度和構圖能力,還透過簡化的文字提示,幫助使用者更輕鬆地將創意轉化為影像。
初期,Imagen3 將只對付費使用者開放,預計不久後將向免費使用者逐步推出。 根據官方介紹,使用者只需支付每幅影像 0.03 美元,就可以享受 Imagen3 的強大功能。 同時,使用者在生成影像時,可以自由控制影像的寬高比以及生成的選項數量,滿足不同的需求。
為了打擊虛假資訊和不當歸屬,Imagen3 生成的所有影像都帶有不可見的數字水印 SynthID,這個水印可識別影像為人工智慧生成的作品。此外,開發者還可以透過 Python 程式碼輕鬆實現影像生成,具體的程式碼示例也已在官方文件中提供。使用者只需簡單地設定 API 金鑰、輸入提示詞,就能生成想要的影像,體驗這一新技術的便利。
為了讓使用者更好地瞭解 Imagen3 的能力,官方還展示了一系列生成的影像樣本,涵蓋了多種風格與主題。隨著技術的不斷進步,谷歌計劃在不久的將來將更多的生成媒體模型整合到 Gemini API 中,進一步推動生成媒體與語言模型的結合,助力開發者創造更多有趣的應用。(@AIbase 基地)
3、Meta 釋出全新 AI 模型 SeamlessM4T,支援 101 種語言即時翻譯,邁向「巴別魚」時代
(圖片來源:MIT Technology Review)
近日,Meta 推出了一款名為 SeamlessM4T 的 AI 模型,能夠實現 101 種語言的語音和文字即時翻譯。這一模型不僅支援語音到語音的直接翻譯,還涵蓋了語音到文字、文字到語音等多種翻譯模式。SeamlessM4T 在翻譯準確性上較現有系統提升了 23%,並能夠有效過濾背景噪音,適應不同說話者的語調和特點。
該模型的核心技術包括深度學習和神經網路,結合生成對抗網路和變分自編碼器等前沿演算法,能夠高效處理大量語言資料。與傳統翻譯系統相比,SeamlessM4T 省略了從語音到文字再到語音的繁瑣步驟,直接實現語音到語音的翻譯,大大提升了使用者體驗。
SeamlessM4T 的推出有望在商務、旅遊、教育等多個領域帶來革命性影響,讓語言不再成為溝通的壁壘。然而,該模型在某些低資源語言上的翻譯效果仍有待最佳化,研究團隊也在探索應對語言資源不均衡的策略。(@ 麻省理工科技評論 APP)
2、使用 WebGPU 在瀏覽器執行 Kokoro v1.0,本地零成本實現高質量文字轉語音
由 WebGPU 提供支援的 Kokoro v1.0 已經發布,這是一款僅有 82M 引數的多語言文字轉語音(TTS)模型,採用 Apache 2.0 許可,完全由瀏覽器中的 WebGPU 提供支援。
Kokoro v1.0 實現了完全離線執行,100% 本地處理,並支援英語、西班牙語、法語、義大利語、日語和普通話六種語言。
得益於 ONNXRuntimeWeb 的支援,Kokoro v1.0 能夠在瀏覽器中直接工作,並提供超快的推理速度。
開發者只需透過 npm i kokoro-js 即可輕鬆整合 Kokoro。(@Vaibhav (VB) Srivastav@X)
02 有亮點的產品
1、蘋果展示 ELEGNT 檯燈機器人:賦予非人形機器人「情感」
近日,蘋果在其機器學習網站公佈了一項名為 ELEGNT 的機器人研究成果,並展示了一款具備情感表達能力的檯燈形態裝置。ELEGNT 的全稱為「Expressive and functionaL movEment desiGn for Non-anthropomorphic robot」,即「用於非擬人化機器人的表達性和功能性運動設計框架」。其核心技術在於讓非人形機器人透過「肢體語言」展現情感,使人機互動更具生命感。
ELEGNT 如何「賦予」機器人情感?
與傳統機器人精準執行指令的機械方式不同,ELEGNT 採用更自然的「曲線式」互動模式,增強機器人表達意圖、顯示注意力、展示態度和表達情緒的能力。例如:
在使用者發出指令時,ELEGNT 會「看著」使用者,並透過點頭或歪頭等動作表現出「認真聆聽」的姿態。
當使用者詢問天氣時,它會 先探頭「看向」窗戶 ,然後再給出答案,儘管實際上它只是從網際網路獲取資料。
若識別不到某個物體,它會低頭並搖頭,表現出一種「遺憾」或「困惑」的情緒。
在播放音樂時,它還能隨節奏搖擺,展現出「跟著音樂舞動」的趣味性。
這些自然的動態細節,讓 ELEGNT 機器人比普通機器人更具互動性和親和力,也讓科技產品不再只是冷冰冰的執行工具,而更像一個「有性格」的夥伴。
ELEGNT 的智慧互動得益於 大語言模型 和 人機互動最佳化技術 ,能夠根據不同的場景調整動作,甚至在互動中學習並最佳化自身行為。目前,該技術已能生成 10 種不同的肢體語言序列 ,並能 在情感表達和任務完成效率之間找到平衡 。(@ 愛範兒)
2、GitHub Copilot 重磅更新:新增 AI Agent,實現超強自動化程式設計
全球最大開源平臺 GitHub 宣佈,其 AI 程式設計助手 Copilot 迎來重大更新,新增 AI Agent 模式,可自動迭代程式碼、識別並修復 BUG。同時,GitHub 還發布了 Project Padawan 預覽版,協助開發人員自動執行重複繁瑣的開發流程,如設定開發環境、執行測試、合併程式碼等。
此外,去年 10 月推出的 Copilot Edits 功能正式上線,其內聯聊天功能可直接在程式碼編輯器中顯示 Copilot 的回覆,極大提升開發和除錯效率。開發者可在 Agent 模式下,讓 Copilot 自動識別程式碼問題並提出解決方案,甚至直接修改程式碼。例如,要求 Copilot 構建 Web 應用程式時,Agent 模式不僅生成初始程式碼,還會檢查邏輯、修復漏洞並重構程式碼。
Project Padawan 則可自主完成從程式碼生成到審查的全流程。例如,為電商購物車功能新增錯誤處理模組時,Padawan 會自動設定開發環境、生成程式碼、進行測試和程式碼檢查,並建立拉取請求供開發者審查。同時,開發者還可透過「人機協作開發模式」全程指導 Padawan。
Copilot Edits 還支援跨檔案內聯修改功能,開發者可透過自然語言指令讓其修改多個檔案中的程式碼,甚至修復複雜程式碼邏輯中的漏洞,極大提升了大型專案開發的效率和準確性。(@AIGC 開放社群)
3、PromptLayer:為非技術使用者打造的 AI 應用開發新工具
隨著生成式人工智慧(GenAI)的快速崛起,PromptLayer 作為一家位於紐約的初創公司,迅速進入了提示工程這一新興領域。提示工程是指為 AI 聊天機器人提供精確指令,以獲取有用的輸出。PromptLayer 的創始人賈裡德・佐內拉赫(Jared Zoneraich)和喬納森・佩多恩(Jonathan Pedoeem)最初開發了一個工具,用於跟蹤他們自己使用 AI 聊天機器人的提示,意外獲得了市場的熱烈反響。經過兩年的發展,PromptLayer 已成功推出一款完整的提示管理平臺,幫助企業更有效地利用大型語言模型(LLMs)。
PromptLayer 的核心產品是一個「提示註冊中心」,它相當於一個內容管理系統(CMS),提供版本控制功能,幫助使用者管理不同版本的提示,並進行對比測試。這使得即使是非技術使用者,也能輕鬆地評估和最佳化他們的提示,從而在各種應用場景中取得最佳效果。
與許多技術工具製造商不同,PromptLayer 將目光投向了非技術使用者。賈裡德表示,他們的目標是讓各個領域的專業人士 —— 如醫療、法律和教育 —— 在應用開發中佔據主導地位,利用其領域知識來進行提示工程。PromptLayer 希望透過其直觀的介面和工具,幫助這些領域的專家與工程師進行有效合作。(@AIbase 基地)
03 有態度的觀點
1、朱嘯虎:DeepSeek 讓我見到 iPhone 3 時刻
2 月 7 日,騰訊新聞釋出了與金沙江創投主管合夥人朱嘯虎的對話。在一年前的訪談中,朱嘯虎表態絕不會投資 6 家中國大模型創業公司中的任何一家。而在時隔一年之後,朱嘯虎在訪談中反反覆覆用「太優美了」、「非常有深度」來評價 DeepSeek 與自己的互動,他表示「DeepSeek 快讓我相信 AGI 了。」朱嘯虎在談話中表示,「DeepSeek 是 App 增速全球歷史第一,不需要任何限定語。如果真的是建立一個全球類似安卓的開源生態的話,那絕對是一個很大的機會。」另外,他還表示,DeepSeek 讓他見到了 AI 時代的 iPhone 3 時刻 :「我從 DeepSeek 的回覆上,看到這麼優美的文字,這麼深刻的想法——確實已經見到 iPhone 3 時刻,見到讓人驚豔的時刻了。」(@APPSO)
2、Greylock:我們處於 DeepSeek 時刻
(圖片來源:Greylock)
Greylock Partners 在其最新報告中指出,DeepSeek-R1 的釋出標誌著人工智慧領域的一個關鍵轉折點。DeepSeek-R1 透過強化學習技術顯著提升了推理能力,其效能在關鍵基準測試中與 OpenAI 的最新模型相當,但佔用空間更小。這一進展被認為縮小了開源模型與閉源模型之間的差距,為開源 AI 的發展帶來了新的機遇。
Greylock 投資組合中的多位 AI 基礎設施公司創始人對 DeepSeek-R1 的釋出表示高度關注。Predibase 創始人 Devvret Rishi 認為,DeepSeek-R1 是開源 AI 的分水嶺,標誌著開源模型開始商品化模型層的拐點。Baseten 創始人 Tuhin Srivastava 指出,DeepSeek 改變了 AI 基礎設施的競爭格局,使得企業可以在完全控制模型的情況下獲得前沿的模型效能。Braintrust 創始人 Ankur Goyal 則認為,DeepSeek 的釋出將推動大模型市場的競爭,為企業提供更多的選擇和靈活性。Snorkel AI 創始人 Alex Ratner 強調,DeepSeek 將加速企業 AI 的專門化趨勢,使企業能夠根據自身資料和專業知識評估和最佳化高效能的 LLM 選項。
此外,DeepSeek-R1 的改進還開啟了大規模人工智慧推理的新應用,包括自主 AI 代理、高度專業化的規劃系統以及企業人工智慧助手等。LlamaIndex 創始人 Jerry Liu 指出,儘管 DeepSeek 的出現不會減少對 GPU 算力的需求,但其更高效、更低成本的特性將加速自主應用的開發和採用。
在生成式人工智慧的經濟學方面,DeepSeek 推動了更便宜、更高效的推理和後訓練趨勢,顯著降低了部署成本。這使得企業能夠更廣泛地使用 AI,微調和部署多個特定領域的模型,從而解鎖更多以前在財務上不可行的用例。(@Z Potentials)
04 社群專案推薦
1、Felo iOS 應用釋出新功能「語音備忘錄」:會議記錄與實時翻譯更高效
近日,Felo 應用推出了全新的「語音備忘錄」功能,旨在提升會議、授課和講座中的溝通效率。該功能具備以下亮點:
實時文字轉寫: Felo 能夠將會議中的語音內容即時轉換為文字,生成高精度的實時字幕,方便使用者快速記錄和回顧會議內容。
即時提問應答: 在會議過程中,使用者可以隨時提問,Felo 會實時回答問題,且文字轉寫不會中斷,確保會議記錄的連貫性。
會議內容快速摘要: Felo 可以自動總結髮言內容,快速提取要點,幫助使用者製作會議記錄,節省時間和精力。
Felo 的「語音備忘錄」功能特別適用於國際會議、學術講座和多語言環境下的溝通場景,能夠幫助使用者跨越語言障礙,實現高效溝通。(@Felo@X)
更多 Voice Agent 學習筆記:
對話式 AI 硬體開發者都關心什麼?低延遲語音、視覺理解、Always-on、端側智慧、低功耗……丨 RTE Meetup 回顧
2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 人形機器人也要服“軟”機器人
- 蘋果手機如何更改預設瀏覽器蘋果瀏覽器
- 具身智慧賦能機器人,「AI+人形機器人」論壇在浦東新區成功舉行機器人AI
- 瀏覽器快取機制個人理解瀏覽器快取
- 從ALOHA邁向Humanplus,史丹佛開源人形機器人,「高配版人類」上線機器人
- 如何遮蔽蘋果Safari瀏覽器上那些煩人的廣告蘋果瀏覽器
- 再見!波士頓動力人形機器人Atlas機器人
- 清華趙明國:智慧人形機器人≠智慧+人形 | 智者訪談機器人
- 智慧咖啡廳助手:人形機器人 +融合大模型,行為驅動的智慧咖啡廳機器人機器人大模型
- Cyan青心意創震撼釋出“全面擬人”機器人OrcaⅠ,機器人開始懂情感、有溫度機器人
- 人形機器人:影片裡性感,現實中孤獨機器人
- “人形機器人”,新產業還是舊思維?機器人產業
- 在機器人頂會 RSS 2024 上,中國的人形機器人研究斬獲最佳論文獎機器人
- PC端瀏覽器手機模擬器滑屏dome瀏覽器
- 語音機器人教學:用Android語音玩樂高機器人機器人Android
- 「RPA機器人」民宿AI管家機器人機器人AI
- 「RPA客服機器人」千手客服機器人機器人
- 瀏覽器渲染機制瀏覽器
- 開普勒人形機器人正式釋出 硬核技術加持開啟共創機器人新紀元機器人
- 從扭秧歌到單腳跳,HugWBC讓人形機器人運動天賦覺醒了機器人
- RBR50 2024:OpenAI上榜,人形機器人勢不可擋OpenAI機器人
- Min瀏覽器: 更快更輕量瀏覽器瀏覽器
- 安川機器人零點標定機器人
- 37 機器人機器人
- 電話機器人能降低成本嗎?機器人
- 機器人4.0白皮書:雲-邊-端融合的機器人系統和架構機器人架構
- 小米智慧機器人:擁有三維情感模型與人類互動機器人模型
- 瀏覽器快取機制瀏覽器快取
- 瀏覽器相關機制瀏覽器
- OpenAI與人形機器人Figure合作:智慧與身體結合OpenAI機器人
- 用蘋果Vision Pro隔空操控機器人,英偉達:「人機合一」也不難嘛蘋果機器人
- Ts + React + Mobx 實現移動端瀏覽器控制檯React瀏覽器
- 手機瀏覽器通過Scheme跳轉APP,相容各種手機瀏覽器瀏覽器SchemeAPP
- 瀏覽器中的機器學習:使用預訓練模型瀏覽器機器學習模型
- 「RPA機器人」PDF批次轉換成圖片機器人機器人
- 新火種AI|人形機器人敲響上市羅,首日市值高達390億港元AI機器人
- IFR:2023年協作機器人佔全球工業機器人安裝量的10.5%機器人
- 史丹佛機器人制造者吳恩達:生活中的機器人,將是專用機器人機器人吳恩達