DeepL Voice:會議、對話實時語音翻譯工具;吳佳俊團隊:場景語言,智慧補全文字到 3D 的場景理解
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、一句話爆改三維場景!史丹佛吳佳俊團隊新作:場景語言,智慧補全文字到 3D 的場景理解
史丹佛的研究團隊提出了一個創新性解決方案:就像人類使用自然語言(natural language)進行交流,三維場景的構建需要場景語言(Scene Language)。
這個新語言不僅能讓 AI 理解我們的需求,更讓它能夠細緻地將人類的描述轉化為三維世界的場景。同時,它還具備編輯功能,一句簡單指令就能改變場景中的元素!物的位置、風格,現在都可以隨意調整。
比如,輸入「初始狀態的國際象棋盤」,模型可以自動識別並生成如下特徵:
- 64 個黑白相間的格子
- 按規則排列的 32 個棋子
- 每個棋子的獨特造型
最終生成的 3D 場景完美還原了這些細節。
這個方法支援多種渲染方式,能適應不同的應用場景,更具吸引力的是其編輯能力:只需一句指令,就能調整場景中的元素。
Scene Language 支援圖片輸入,還能生成動態場景,讓 3D 世界生動起來。
Scene Language 的核心在於三大元件的融合:
- 程式語言(program):用於精確描述場景結構,包括物體間的重複、層次關係;
- 自然語言(word):定義場景中的物體類別,提供語義層面的資訊;
- 神經網路表徵(embedding):捕捉物體的內在視覺細節。
這種組合就像給 AI 配備了一套完整的「建築工具」,既能整體規劃,又能雕琢細節。
與現有技術相比,Scene Language 展現出顯著優勢:
使用者偏好測試中獲得 85.65% 的偏好,相比現有方法提高了近 7 倍;在物體數量控制方面,測試集中的準確率達到 100%,而現有方法只有 11%。(@ 機器之心)
2、位元組有望在 Sora 正式釋出前上線影片生成模型
11 月 14 日,介面新聞從多個知情人士處獲悉,位元組跳動影片生成模型 PixelDance 將很快在即夢 AI 上線,面向公眾開放使用,具體的上線時間將會早於 Sora 正式釋出的時間。
Runway 聯合創始人曾在 11 月 9 日稱,OpenAI 計劃在大約兩週內釋出 Sora。而 OpenAI 也公佈了一條聯合倫敦藝術家 Jon Uriarte 創作的短片,似乎是在為 Sora 的正式釋出預熱。這意味著,PixelDance 很可能會在最近幾天內釋出。
位元組跳動在大模型領域一直動作頻頻。9 月 24 日,該公司一口氣釋出了豆包影片生成 PixelDance、豆包影片生成 Seaweed 兩款大模型,並透過即夢 AI 和火山引擎面向創作者和企業客戶小範圍邀測。據知情人士透露,PixelDance 除了即將在即夢 AI 上線之外,還將於近期在豆包開啟內測。(@ 極客公園)
3、DeepL 上線語音翻譯工具 DeepL Voice:會議、對話實時多語言交流
DeepL 作為全球語言人工智慧的領導者,近日推出了全新的實時語音翻譯工具 ——DeepL Voice,旨在促進不同語言之間的無縫溝通。
DeepL Voice 是該公司首款專注於語音翻譯的產品,超越了其著名的文字翻譯服務,能夠實時翻譯,實現面對面或虛擬場景下的多語言互動。
該工具支援多種語言,包括英語、德語、日語、韓語、法語、西班牙語等,並提供 DeepL 翻譯支援的所有 33 種語言的字幕。藉助這些功能,DeepL Voice 旨在透過消除經常阻礙全球業務互動的語言障礙來提高生產力和包容性。
DeepL Voice 分為兩個專用模型 —— 會議語音(Voice for Meetings)和對話語音(Voice for Conversations)。
在虛擬會議中,參與者可以使用自己熟悉的語言進行交流,同時其他人會實時看到翻譯後的字幕。此功能旨在提升全球團隊的溝通效率,讓所有與會者無論語言能力如何,都能充分理解和參與。
在面對面交流中,對話語音能夠在移動裝置上實時翻譯,適用於客戶服務和一線工作人員。該工具有助於消除語言障礙,提升客戶互動的質量和員工的工作效率。
為了應對實時翻譯的技術挑戰,DeepL 的工程師們經過多年資料和人工智慧的積累,解決了包括不完整輸入、發音差異和延遲等問題。DeepL 的執行長賈雷克・庫蒂洛夫斯基(Jarek Kutylowski)表示,實時語音翻譯的複雜性需要建立在深入的 AI 和語言學知識之上,確保企業能夠在全球範圍內高效溝通。(@AIbase 基地)
4、OpenAI CEO 闢謠 AI 發展「撞牆」論
昨日下午,OpenAI CEO Sam Altman 在 X 平臺闢謠 AI 發展「撞牆」論:there is no wall 。
這一則闢謠源自近日有多家媒體報導稱,OpenAI、Anthropic 等多家大模型公司下一代前沿模型訓練表現不佳,這也導致 Scaling Laws 疑似「撞牆」的訊息不脛而走。
此前,OpenAI 前首席科學家 Ilya Sutskever 在接受路透社採訪時表示,「透過擴大預訓練階段——即使用大量未經標註的資料來訓練 AI 模型,使其理解語言模式和結構——所取得的成果已經停滯不前。」
圖靈獎得主 Yann Lecun、Ilya、Anthropic 創始人 Dario Amodei 也就此事紛紛展開唇槍舌戰。爭論的核心在於,隨著模型規模的不斷擴大,其效能提升是否會遇到天花板。
作為補充,在這場辯論的背景下,彭博社在近期也披露了一條引人注目的訊息。OpenAI 計劃在明年一月份推出一款名為「Operator」的 AI Agent(智慧體),這個 Agent 能夠使用計算機代替使用者執行任務,如編寫程式碼或預訂旅行。( @APPSO)
5、訊飛星火多模態互動大模型上線,數字人、語音、視覺支援一鍵呼叫
「訊飛開放平臺」公眾號昨日(11 月 14 日)傍晚宣佈,訊飛星火多模態互動大模型正式上線,其實現從語音互動擴充到音影片流實時多模互動,新增「多模態、超擬人和個性化」能力,實現語音、視覺、數字人互動三合一,支援一鍵呼叫。
據介紹,訊飛星火多模態互動大模型首發超擬人數字人技術,數字人軀幹和四肢動作能夠精準匹配語音內容,快速生成表情和動作,令 AI「栩栩如生」。透過統一文字、語音和表情,能夠實現跨模態的語義一致性,從而使大模型情感表達真實連貫。
其支援超擬人極速互動,採用統一神經網路直接實現語音到語音的端到端建模,響應更快速、流暢,可敏銳感知情緒變化,也可根據指令自由變換聲音的節奏、大小和人設。
其支援多模態視覺互動,能夠「聽懂世界」「認清萬物」,更全面感知具體背景場景、物流狀態等資訊,對任務的理解更加精準,並透過語音、手勢、行為、情緒等進行綜合判斷,作出合適的回覆。
據此前報導,使用者可與數字人進行語音、視訊通話,數字人可實現與使用者的自然語音對話,人物表情等也能夠匹配說話的語句。星火超擬人數字人還支援多模態互動,可讓數字人識別攝像頭中的內容,比如孫悟空和奧特曼站在一起、面霜的品牌和作用、花的品類等。(@IT 之家)
6、宇樹科技開源機器人運算元據集
宇樹科技日前宣佈開源其明星產品 G1 機器人的運算元據集,這一舉措在業內引發廣泛關注。該資料集涵蓋了資料採集方法、學習演算法、訓練資料以及相關模型,為機器人研究領域注入了新的活力。
值得注意的是,宇樹選擇基於知名的 LeRobot 開源框架進行訓練和測試。這一決策獲得了 Hugging Face CEO 的積極響應,他表示這充分體現了開源技術在機器人領域的重要性與日俱增。
目前,該資料集已收錄五類基礎操作能力,包括擰瓶蓋倒水、堆疊三色積木、攝像頭裝盒、物品收納儲存,以及雙臂抓取定向放置等場景。在資料採集環節,宇樹創新性地運用了蘋果 Vision Pro 進行 G1 的遙操作控制,相關程式碼倉庫已獲得超過 400 個星標認可。
從技術細節來看,該資料集採用 640x480 解析度的影像,並記錄了機器人手臂和靈巧手的七維狀態和動作資料。宇樹不僅開源了遙操作控制的完整程式碼,還提供了詳盡的硬體配置說明和安裝指南,以及資料格式轉換教程。
作為資料來源的 G1 機器人,是宇樹科技今年 5 月推出的重磅產品,起售價 9.9 萬元。這款機器人配備三指靈巧手,採用力位混合控制技術,能夠勝任擰瓶蓋、砸核桃和焊接等精細操作。其搭載的 Intel RealSense D435 和 LIVOX-MID3603D 鐳射雷達,賦予了其 360 度全方位感知能力。
到 8 月份,G1 已實現規模化量產。透過深度強化學習和模擬訓練,G1 的功能持續升級,不僅能夠完成單腿跳躍,還能實現 360 度轉身等高難度動作,展現出強勁的技術實力。(@AIbase 基地)
02 有態度的觀點
1、a16z 基金創始人透露,川普上臺將徹底改變科技初創公司格局!
a16z 兩位創始人 Marc Andreessen 和 Ben Horowitz 近日針對川普再次當選對科技和政策的影響表達了幾個核心觀點:
Marc 和 Ben 強調科技是美國未來的一級政策議題,直接影響國家競爭力和全球地位。他們認為,作為科技強國的美國,必須保持技術領先地位,否則可能在未來的全球競爭中落後,尤其是在與中國的科技競爭中。
他們對川普政府減少科技領域監管的計劃表示支援,認為過度的監管會限制創新能力。特別是在 AI 和加密貨幣領域,過度的監管可能會扼殺企業發展。他們指出,川普政府有望減少繁瑣的政策規定,為技術公司創造更有利的創新環境。
AI 發展的能源需求不斷增加,Marc 和 Ben 強調需要清潔、廉價的能源供應來支援科技發展。川普政府對清潔核能等能源創新的支援有望幫助美國滿足未來科技需求,確保在能源和科技上的雙重領先地位。
此外,Ben 特別提到加密貨幣是為經濟平等提供機會的重要工具,尤其對沒有傳統資產的群體而言。川普政府可能更寬鬆的加密貨幣政策為該行業提供了發展機會,有助於美國在金融科技領域保持競爭力。(@ 有新 Newin)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 一句話爆改三維場景!史丹佛吳佳俊團隊新作:場景語言,智慧補全文字到3D的場景理解3D
- VoxFromer:單目3D語義場景補全3D
- DeepL翻譯工具,讓你的跨語言交流更加順暢
- 語音助手鏖戰「全雙工」,車載會是一個好場景嗎?
- 語音標註的具體應用場景
- go語言reflect包使用的幾個場景Go
- 影片場景下的自然語言處理應用自然語言處理
- IOS技術分享| 快對講2.0會議場景實現iOS
- 從金融街往事到全場景智慧金融未來
- 詳解ASR語音轉寫場景下的應用
- 金山AI團隊:從理論突破到應用場景落地AI
- 超全面的語音互動知識:從原理、場景到趨勢
- 語音識別技術有哪些應用場景?
- 視訊場景下的自然語言處理應用自然語言處理
- 人工智慧解讀唇語 不止能解碼語音和語言翻譯人工智慧
- 耳機的全場景智慧時代:華為登場,鴻蒙將開鴻蒙
- 【通用文字識別OCR】多場景、多語種、高精度
- 【十問十答】對話Go語言開發團隊Go
- 快速實現語音轉文字,還自帶翻譯
- 低延遲流式語音識別技術在人機語音互動場景中的實踐
- 語音翻譯軟體怎麼用?怎麼實現語音的翻譯
- 硬核觀察 #795 首個可以翻譯無文字語言的口語翻譯 AIAI
- 說說對WebSocket的理解?應用場景?Web
- 舉例:透過3D列印場景話安全3D
- 總結一些開發語言對應的技術應用場景
- CTPN/CRNN的OCR自然場景文字識別理解(一)RNN
- 白翔:複雜開放場景中的文字理解
- 三問智慧體,華為如何落地全場景智慧智慧體
- Easy Translator語言翻譯類工具R語言
- 基於語義感知SBST的API場景測試智慧生成API
- 從實時音視訊的微場景看混音技術
- 理解 Fragment 的應用場景Fragment
- 說說你對堆的理解?如何實現?應用場景?
- 基於Flink構建全場景實時數倉
- Translatium Mac(多語言線上翻譯工具)Mac
- 理解JWT鑑權的應用場景及使用建議JWT
- 關於3d場景重建3D
- python語言的應用場景有哪些?六大領域!Python