阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、位元組開源 Midscene.js:AI 驅動的 E2E 測試框架迎來突破
隨著人工智慧技術的進步,E2E(端到端)測試領域迎來新一輪創新浪潮。位元組跳動 web-infra 團隊最新開源的 Midscene.js 和獨立開發者推出的 Shortest 等工具,正在改變傳統的測試方式。
Midscene.js 採用多模態大語言模型,能夠直觀「理解」使用者介面並執行相應操作。該框架最大的特點是提供了一個便捷的瀏覽器外掛,讓使用者無需編寫程式碼就能透過自然語言與網頁進行互動。該外掛支援三種核心功能:互動、提取和斷言,顯著簡化了測試流程。
與此同時,創業團隊開發的 Shortest 同樣展示了 AI 在測試領域的潛力。透過結合自然語言處理和介面截圖分析,Shortest 能夠直接生成 E2E 測試用例,大幅減少團隊在重複性測試工作上的時間投入。
業內專家指出,隨著 AI 的編碼和多模態能力日益成熟,基礎 E2E 測試場景的自動化水平已達到相當完善的程度。這些創新工具的出現,不僅提高了測試效率,更推動了整個軟體開發流程的最佳化。(@AIbase 基地)
2、阿里釋出多模態推理模型 QVQ-72B!視覺、語言能力雙提升
阿里巴巴最近推出的 QVQ-72B 多模態推理模型在語言和視覺能力上實現了顯著提升,能夠處理複雜的推理和分析任務,尤其在多步推理和數學推理方面表現突出。該模型的出現標誌著阿里巴巴在多模態 AI 領域的重大突破,提供了新的工具和思路來解決複雜問題,推動各行業的智慧化升級。(@AIbase 基地)
3、OpenAI 正在研發實體機器人
近日,據 The Information 報導,OpenAI 正在研發實體智慧機器人,並且重新啟動了解散 4 年的內部機器人開發團隊。
據悉,目前 OpenAI 已經投資了 Figure AI、1X、Physical Intelligence 三家實體機器人公司,在軟體方面也為其提供 GPT 系列模型支援,足以看出其對領域的興趣。
FigureAI 成立於 2020 年,旨在開發自主通用型人形機器人,目標是解決勞動力短缺,代替人類做不受歡迎或危險的工作。最新發布的 Figure 02 實體機器人,已經在倉庫領域進行應用。
1X 為一家挪威實體機器人公司,主要應用領域在家庭服務。而今年其釋出的機器人由於過於逼真引起了巨大轟動。
PhysicalIntelligence 是一家專注通用人工智慧的實體機器人公司,總部位於舊金山。主要用於執行各種繁瑣的業務流程。
前不久,OpenAI 剛剛釋出了最新旗艦模型 o3,在推理、理解方面都是目前最強模型,甚至在 AGI 測試方面也首次超過了人類。(@APPSO)
02 有亮點的產品
1、MixedVoices :為語音助手打造的分析平臺
https://www.mixedvoices.xyz/
MixedVoices 是一個為語音助手打造的分析平臺,幫助你追蹤、視覺化並最佳化語音助手的效能,透過分析對話流程、識別瓶頸並衡量不同版本間的成功率。(@NLP 工程化)
2、DinoPal:整合 Gemini 多模態能力的 Mac 狀態列 App
DinoPal 是一個 Mac 狀態列 App,整合了 Gemini 的多模態能力,意味著你不需要開啟任何頁面,就可以實現跟 AI 的實時語音、實時影片、實時影片共享。
3、NewOaks AI Phone Agent:人性化的 AI 電話助手,自動處理來電和去電
NewOaks AI Phone Agent 是一款創新的 AI 驅動工具,旨在透過人性化的語音互動來自動化電話溝通。其核心價值主張在於利用先進的 AI 技術,使使用者能夠透過虛擬助手進行高效的電話交流。目標使用者包括需要高效管理電話溝通的企業和個人,特別是那些希望減少人工干預、提高客戶服務效率的使用者。該產品解決了傳統電話溝通中人力成本高、響應時間慢等關鍵痛點,為使用者提供了一個智慧化的解決方案。
Ray Luan 是 NewOaks AI 的執行長。在加入 NewOaks AI 之前,Ray Luan 曾擔任 TikTok 的二手車電子商務部門總經理,在短短兩年內將該業務發展到年收入 2 億美元。他的職業生涯還包括在中國的 Autohome Inc 和 Che101 等公司擔任高管,積累了豐富的管理和市場營銷經驗。Ray Luan 擁有上海交通大學的學士學位,以及德克薩斯大學阿靈頓分校和達特茅斯學院的碩士學位。他的團隊專注於利用先進的 AI 技術為客戶提供智慧解決方案,幫助企業自動化和簡化業務流程,以適應競爭激烈的數字環境。(@Z potentials)
03 有態度的觀點
1、Sam Altman 談中美 AI 軍備賽:希望中美合作避免軍備賽,美國需要在晶片以及供應鏈方面保持領先
本月初,馬斯克曾向法院申請禁令阻止 OpenAI 轉型營利性組織;於此同時,一貫與馬斯克不對付的祖克伯也選擇站隊馬斯克,透過 Meta 向加州總檢察長髮信阻止 OpenAI「營利」。
面對前紐約時報作者 Bari Weiss 關於 Altman 與馬斯克之間恩怨糾紛的疑問 ,Sam Altman 表示:「他是一個傳奇的企業家。但他顯然是個霸道的人,而且喜歡爭鬥。現在是針對我,以前是 Bezos、Gates、Zuckerberg,還有很多其他人」。
Altman 指出,AI 技術正在以超出預期的速度發展,未來 18 個月的變化可能會比過去一年半更加顯著。
他預測,超級智慧可能會在未來幾年內出現,並將其定義為一種顯著提升全球科學進步速度的技術能力,比如過去需要十年完成的技術進步將在一年內實現。
關於中美 AI 軍備賽,Altman 的立場展現出清晰的戰略平衡:一方面,確保美國技術領先是首要目標;另一方面,他對中美合作的可能性持謹慎樂觀態度,希望 AI 能推動世界和平,而非加劇對抗。(@ 有新 Newin)
更多 Voice Agent 學習筆記:
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報模型OpenAIChatGPT開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 量化交易機器人開發程式碼丨量化機器人功能系統開發(python多語言)機器人Python
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- AutoGLM:一句話控制手機電腦;英偉達新視覺壓縮工具:Cosmos Tokenizer 丨 RTE 開發者日報視覺開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- AI 口語學習應用 Speak 新一輪融資估值 10 億美元;YouTube 推出 AI 多語言配音丨 RTE 開發者日報AI開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- Meta AR 眼鏡團隊前負責人加入 OpenAI;visionOS 2.2 Beta 引入超寬屏投屏模式丨 RTE 開發者日報OpenAI模式開發者日報
- Meta 向第三方開放 MR 作業系統;黃仁勳:人形機器人成本可能比人們預期要低得多丨 RTE 開發者日報 Vol.190作業系統機器人開發者日報
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- SpaceX 星艦發射「成功一半」;首位具身 AI 機器人面世丨 RTE 開發者日報 Vol.166AI機器人開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- Meta 公佈首款 AR 眼鏡 Orion,成本 1 萬美元;OpenAI CTO Mira Murati 離職丨 RTE 開發者日報OpenAI開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- 為視覺語言多模態模型進行偏好最佳化視覺模型
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報