Sense 對話語音 AI:自動電話呼叫加快招聘流程;靈初智慧釋出端到端強化學習具身模型,實現長程任務泛化
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、愛詩科技 PixVerse V3.5 版上線:最快 5 秒生成影片 動漫效果提升
愛詩科技宣佈其核心產品 PixVerse 的 V3.5 版本正式上線,此版本帶來了顯著的效能提升和新功能。
新版本的 PixVerse 能夠在最快 5 秒內生成影片,顯著增強了運動控制力,為使用者提供了更加流暢和精確的影片生成體驗。此外,V3.5 版本在動漫效果上實現了大幅提升,支援多種風格隨意切換,滿足不同使用者的個性化需求。
在影片質量方面,PixVerse V3.5 版本現在支援 1080p 高畫質畫質,使得生成的影片更加細膩和生動。此外,新版本還支援首尾幀生成,實現了影片之間的絲滑過渡,進一步提升了影片的整體觀感和專業度。
此前,愛詩科技宣佈完成了近 3 億元人民幣的 A+ 輪融資。所得資金將主要用於提升技術研發能力、擴充套件算力資源以及建設人才團隊,以加速產品功能迭代與市場覆蓋,持續推動 AI 影片生成技術的普惠發展。(@AIbase 基地)
2、中國開源首個百萬級機器人資料集,具身智慧迎來 ImageNet 時刻
智元機器人攜手上海人工智慧實驗室等機構,重磅釋出 AgiBot World 資料集,這是全球首個基於真實場景的百萬級機器人資料集。相較谷歌的 Open X-Embodiment,其長程資料規模提升 10 倍,場景覆蓋擴大 100 倍,資料質量達到工業級標準。
這個被譽為具身智慧領域「ImageNet 時刻」的開源專案展現了令人驚歎的機器人能力。從客廳插花到廚房做飯,從超市收銀到工廠分揀,AgiBot World 涵蓋了家居、餐飲、工業、商超和辦公五大核心場景,收錄了八十餘種日常生活技能。
在硬體配置上,機器人配備了 360 度環繞式攝像頭、六自由度靈巧手和高精度觸覺感測器,全身最高可達 32 個自由度。這些先進的硬體設施使機器人能夠完成從簡單的抓取放置到複雜的雙臂協同操作等多樣化任務。
資料質量控制方面,AgiBot World 建立了嚴格的標準體系:
任務設計邀請多方專家把關
採集過程全程專業團隊監管
資料稽核採用端雲雙重篩選
所有動作都經過逐幀人工稽核
透過演算法驗證確保資料可用性
智元還透露了 2025 年的規劃藍圖,包括開源全量資料、釋出模擬資料集、推出具身基座大模型、釋出完整工具鏈,並將舉辦一系列挑戰賽。這一系列舉措有望加速具身智慧的發展,推動機器人技術在現實生活中的廣泛應用。(@AIbase 基地)
3、ModernBERT 模型公佈,接任「Hugging Face 下載榜第二」2018 年經典原版
Hugging Face、英偉達和約翰霍普金斯大學研究人員聯手為 Hugging Face 上的熱門編碼器模型 BERT 推出了全新版本 ModernBERT,號稱在滿足效率的同時新增支援處理長達 8192 個 Token 的上下文。
開發團隊表示,儘管 BERT 模型自 2018 年釋出以來仍被業界廣泛使用,並且是 Hugging Face 上下載量第二大的模型(僅次於 RoBERTa),每月下載量超 6800 萬次,但這款模型如今已有些落後。
在 BERT 模型首次釋出 6 年後的今天,Hugging Face 和其他團隊借鑑了近年來業界 LLM 的進展,對 BERT 模型架構和訓練過程進行改進,最終公佈了 ModernBERT 模型以接替原版 BERT 模型。
據悉,相關開發團隊使用了 2 萬億個 Token 來訓練 ModernBERT,使得該模型在多種分類測試和向量檢索測試中都達到了目前業界領先水平,目前開發團隊共計公佈了兩個版本的模型,分別是 1.39 億引數和 3.95 億引數版本。(@IT 之家)
4、靈初智慧釋出首個基於強化學習的端到端具身模型 Psi R0,雙靈巧手協同進行復雜操作
靈初智慧釋出首個基於強化學習(RL)的端到端具身模型 Psi R0,該模型支援雙靈巧手協同進行復雜操作,將多個技能串聯混訓,生成具有推理能力的智慧體,從而完成並閉環長程靈巧操作任務。並且,Psi R0 還可以實現跨物品、跨場景級別的泛化。
以電商場景為例,商品打包是典型的長程任務作業,需對上萬件商品進行抓取,掃碼,放置,塑膠袋打結等多個操作。Psi R0 能夠使用雙靈巧手流暢地完成這一系列動作(官方稱此係列動作在客戶現場可以取代一個完整工位),成為首個基於強化學習訓練完成長程靈巧操作任務的具身機器人。
官方表示,基於 RL 的 Psi R0 模型,使用海量模擬資料訓練出雙手操作的智慧體,並透過雙向訓練框架串聯多技能,在業界率先完成開放環境中的長程任務,具備較強的泛化能力與較高的魯棒性(robustness)。
這一技能訓練框架從物體時空軌跡抽象出關鍵資訊以構建通用目標函式,從而解決獎勵函式難設計的問題。在後訓練階段,透過少量高質量真機資料對齊,進一步提升長程任務的成功率。
除此之外,雙向訓練框架中的轉移可行性函式發揮著重要作用,它能夠微調技能以提高串聯的成功率與泛化性,同時賦予模型自主切換技能的能力,使其在遭遇操作失敗時能夠迅速調整策略,確保高成功率。(@IT 之家)
02 有亮點的產品
1、Sense 釋出對話語音 AI,透過自動電話呼叫轉變候選人互動
Sense 對話語音 AI 簡化了招聘、篩選和安排流程,使招聘人員能夠擴大外聯並提升候選人體驗。
人工智慧驅動的人才招聘解決方案的領先創新者 Sense 隆重推出了 Sense Conversational Voice AI,這是一款開創性的產品,透過智慧對話式 AI 實現了候選人電話對話的自動化。這項先進的技術為 Sense 平臺增加了一個強大的語音渠道,為招聘人員提供了一個全面的解決方案,可自動完成尋源、篩選、日程安排等工作,同時提供卓越的候選人體驗。
「現代招聘人員的任務是同時填補多個職位,同時為每位候選人提供快速和個性化的體驗,」Sense 執行長 Anil Dharni 說。「藉助 Sense 對話語音人工智慧,招聘團隊現在可以每天與數千名候選人互動,加快招聘流程,併為每位候選人提供卓越的體驗。」
Sense 對話語音 AI 與 Sense 強大的招聘自動化、聊天機器人和訊息產品整合。這個無縫連線使招聘人員能夠透過動態語音互動來補充他們的外展和溝通工作。
- Sense 對話語音 AI 的功能:
- 人工智慧驅動的招聘和匹配 - 自動將合格候選人與可用職位匹配,並透過自動電話聯絡。
- 預篩選和排程自動化 - 進行預篩選對話並協調面試,節省招聘人員數小時的手動工作。
- 品牌化的上下文電話 - 電話來自組織的電話號碼,並在來電顯示上顯示公司的名稱,從而提高轉化率和接聽率。
- 語言適應性 - 自動檢測並以候選人首選語言進行溝通,支援全球招聘計劃和多語言推廣。
- 智慧招聘人員洞察 - 將成績單、對話摘要和參與評分匯入 Sense CRM 和/或整合的 ATS,以便招聘人員在未來的對話中有背景資訊。
- 自動化參考檢查 - 聯絡參考以驗證過去的就業情況並收集對候選人的反饋。
Sense 今年早些時候向包括 TSR 諮詢服務在內的部分客戶釋出了對話語音人工智慧的試點專案。作為一家以提供優質服務而自豪的頂級人力資源公司,TSR 利用對話語音人工智慧在大規模上提供個性化的候選人互動。(@ yahoo finance)
2、X-ORIGIN-AI 完成數千萬融資,打造 AI 陪伴機器人
近日,X-ORIGIN-AI 宣佈成功完成數千萬元人民幣的天使輪融資,此輪融資由阿爾法公社領投,多名產業投資者參與跟投,仁辰資本則擔任獨家財務顧問。此次融資所得資金將主要用於技術研發、人才招聘及市場擴充,旨在進一步推動其全場景消費級 AI 機器人產品的研發與落地。
X-ORIGIN-AI 專注於開發伴隨人類生命週期的全場景消費級 AI 機器人產品,其首款產品主要面向兒童,旨在透過智慧互動技術為兒童提供情感陪伴與學習支援。這款 AI 陪伴機器人符合現代家庭對智慧化育兒工具的需求,預計將為家庭教育帶來新的變革。
作為此次融資的領投方,阿爾法公社對 X-ORIGIN-AI 在 AI 機器人領域的創新潛力表示樂觀,並期待該公司未來推出更多具有市場影響力的產品。X-ORIGIN-AI 團隊表示,將持續加大技術研發力度,加速產品迭代,為消費者提供更智慧、更貼心的 AI 機器人體驗。(@AIbase 基地)
03 有態度的觀點
1、谷歌 CEO 皮查伊:明年風險高、賭注大,推廣 Gemini 是首要任務
據美媒 CNBC 今日報導,谷歌 CEO 皮查伊上週告訴員工 2025 年「風險高、賭注大」,因為公司面臨著日益激烈的競爭、監管障礙以及 AI 的快速發展。
皮查伊表示,「我認為 2025 年將是關鍵的一年。我們需要深刻認識到當前的緊迫性,並加快公司步伐。這是一個具有顛覆性影響的時刻,我們必須專注於推動技術帶來的變革,解決使用者的實際問題。」
他還認為,打造包括 Gemini 應用的「大型新業務」是重中之重。高管們表示,他們認為 Gemini 將成為谷歌下一個達到 5 億使用者的應用(該公司目前有 15 款應用達到了這一里程碑)。「Gemini 應用發展勢頭強勁,尤其是在過去幾個月。但我們在 2025 年還需要做一些工作來縮小差距,並確立領先地位。」
他後來補充道:「明年,在消費者端推廣 Gemini 將是我們的首要任務。」此外,皮查伊展示了一張大語言模型圖表,其中 Gemini1.5 領先於 OpenAI 的 GPT 和其他競爭對手。「我預計 2025 年會有一些來回拉鋸。我認為我們將達到最先進的水平。歷史上,你並不總是需要成為第一,但你必須執行得很好,成為同類產品中最好的。我認為這就是 2025 年的意義所在。」
根據其規劃,明年穀歌將最關注 Gemini 在消費者端的擴充套件。(@IT 之家)
更多 Voice Agent 學習筆記:
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 高瓴、藍馳領投靈初智慧,強化學習開啟具身智慧初紀元強化學習
- 人工智慧電話機器人是否真正實現了電話銷售的AI化人工智慧機器人AI
- 對接網易雲信音視訊2.0呼叫元件整合到vue中,實現web端呼叫app,視訊語音通話。元件VueWebAPP
- 《白話強化學習與Pytorch》強化學習PyTorch
- 讓大模型能聽會說,國內機構開源全球首個端到端語音對話模型Mini-Omni大模型
- 什麼是任務自動化與流程自動化? - infoworld
- 語音識別新正規化:完全的“端到端”模型,優勢在哪裡?模型
- 全新TextGrad框架:用GPT-4o作引擎,自動最佳化端到端任務框架GPT
- 【強化學習篇】--強化學習從初識到應用強化學習
- 端到端最佳化所有能力,位元組跳動提出強化學習LLM Agent框架AGILE強化學習框架
- Web 端語音對話 AI 示例:使用 Whisper 和 llama.cpp 構建語音聊天機器人WebAI機器人
- 趣味AI語音電話——鼠年拜年新姿勢AI
- 【大話雲原生】kubernetes灰度釋出篇-從步行到坐纜車的自動化服務升級
- 在 Unity 多人遊戲中實現語音對話Unity遊戲
- 讀懂智慧對話系統(1)任務導向型對話系統
- 巔峰對話——圖靈獎得主共話機器學習圖靈機器學習
- 在對話中理解蘇大強們:語音互動的未來會是老齡化+個性化嗎?
- 端側版GPT-4o問世,面壁小鋼炮實現端到端、全模態實時對話GPT
- 端到端智慧音響
- AI語音電話,打給異鄉的自己AI
- 任務型對話系統
- 帶你讀論文 | 端到端語音識別模型模型
- 智慧語音電話機器人的優勢機器人
- python學習-fabric(高效遠端自動化部署工具)Python
- vue透過ollama介面呼叫開源模型實現人機對話Vue模型
- 電話機器人是如何實現對話的?機器人
- 利用非對話語料來豐富對話生成模型模型
- uniapp 實現打電話錄音功能APP
- 利用AI智慧體實現自動化公開課AI智慧體
- WebSocket實現服務端推送訊息和聊天會話Web服務端會話
- 一鍵實現自動化部署(灰度釋出)實踐
- 專案管理軟體設定任務流程自動化專案管理
- Git + Jenkins 自動化 NGINX 釋出簡易實現GitJenkinsNginx
- asp.net core + jenkins 實現自動化釋出ASP.NETJenkins
- OpenAI推出ChatGPT對話式AI模型OpenAIChatGPT模型
- 如何學習自動化測試?從手工測試到自動化測試的過程…
- redis自學(47)服務端最佳化Redis服務端
- 鼠年福利!AI語音小叮噹,電話拜年免費玩AI