阿里釋出多模態推理模型 QVQ-72B,視覺、語言能力雙提升;OpenAI 正在研發人形機器人丨 RTE 開發者日報

RTE开发者社区發表於2024-12-25

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、位元組開源 Midscene.js:AI 驅動的 E2E 測試框架迎來突破

隨著人工智慧技術的進步,E2E(端到端)測試領域迎來新一輪創新浪潮。位元組跳動 web-infra 團隊最新開源的 Midscene.js 和獨立開發者推出的 Shortest 等工具,正在改變傳統的測試方式。

Midscene.js 採用多模態大語言模型,能夠直觀「理解」使用者介面並執行相應操作。該框架最大的特點是提供了一個便捷的瀏覽器外掛,讓使用者無需編寫程式碼就能透過自然語言與網頁進行互動。該外掛支援三種核心功能:互動、提取和斷言,顯著簡化了測試流程。

與此同時,創業團隊開發的 Shortest 同樣展示了 AI 在測試領域的潛力。透過結合自然語言處理和介面截圖分析,Shortest 能夠直接生成 E2E 測試用例,大幅減少團隊在重複性測試工作上的時間投入。

業內專家指出,隨著 AI 的編碼和多模態能力日益成熟,基礎 E2E 測試場景的自動化水平已達到相當完善的程度。這些創新工具的出現,不僅提高了測試效率,更推動了整個軟體開發流程的最佳化。(@AIbase 基地)

2、阿里釋出多模態推理模型 QVQ-72B!視覺、語言能力雙提升

阿里巴巴最近推出的 QVQ-72B 多模態推理模型在語言和視覺能力上實現了顯著提升,能夠處理複雜的推理和分析任務,尤其在多步推理和數學推理方面表現突出。該模型的出現標誌著阿里巴巴在多模態 AI 領域的重大突破,提供了新的工具和思路來解決複雜問題,推動各行業的智慧化升級。(@AIbase 基地)

3、OpenAI 正在研發實體機器人

近日,據 The Information 報導,OpenAI 正在研發實體智慧機器人,並且重新啟動了解散 4 年的內部機器人開發團隊。

據悉,目前 OpenAI 已經投資了 Figure AI、1X、Physical Intelligence 三家實體機器人公司,在軟體方面也為其提供 GPT 系列模型支援,足以看出其對領域的興趣。

FigureAI 成立於 2020 年,旨在開發自主通用型人形機器人,目標是解決勞動力短缺,代替人類做不受歡迎或危險的工作。最新發布的 Figure 02 實體機器人,已經在倉庫領域進行應用。

1X 為一家挪威實體機器人公司,主要應用領域在家庭服務。而今年其釋出的機器人由於過於逼真引起了巨大轟動。

PhysicalIntelligence 是一家專注通用人工智慧的實體機器人公司,總部位於舊金山。主要用於執行各種繁瑣的業務流程。

前不久,OpenAI 剛剛釋出了最新旗艦模型 o3,在推理、理解方面都是目前最強模型,甚至在 AGI 測試方面也首次超過了人類。(@APPSO)

02 有亮點的產品

1、MixedVoices :為語音助手打造的分析平臺

https://www.mixedvoices.xyz/

MixedVoices 是一個為語音助手打造的分析平臺,幫助你追蹤、視覺化並最佳化語音助手的效能,透過分析對話流程、識別瓶頸並衡量不同版本間的成功率。(@NLP 工程化)

2、DinoPal:整合 Gemini 多模態能力的 Mac 狀態列 App

DinoPal 是一個 Mac 狀態列 App,整合了 Gemini 的多模態能力,意味著你不需要開啟任何頁面,就可以實現跟 AI 的實時語音、實時影片、實時影片共享。

3、NewOaks AI Phone Agent:人性化的 AI 電話助手,自動處理來電和去電

NewOaks AI Phone Agent 是一款創新的 AI 驅動工具,旨在透過人性化的語音互動來自動化電話溝通。其核心價值主張在於利用先進的 AI 技術,使使用者能夠透過虛擬助手進行高效的電話交流。目標使用者包括需要高效管理電話溝通的企業和個人,特別是那些希望減少人工干預、提高客戶服務效率的使用者。該產品解決了傳統電話溝通中人力成本高、響應時間慢等關鍵痛點,為使用者提供了一個智慧化的解決方案。

Ray Luan 是 NewOaks AI 的執行長。在加入 NewOaks AI 之前,Ray Luan 曾擔任 TikTok 的二手車電子商務部門總經理,在短短兩年內將該業務發展到年收入 2 億美元。他的職業生涯還包括在中國的 Autohome Inc 和 Che101 等公司擔任高管,積累了豐富的管理和市場營銷經驗。Ray Luan 擁有上海交通大學的學士學位,以及德克薩斯大學阿靈頓分校和達特茅斯學院的碩士學位。他的團隊專注於利用先進的 AI 技術為客戶提供智慧解決方案,幫助企業自動化和簡化業務流程,以適應競爭激烈的數字環境。(@Z potentials)

03 有態度的觀點

1、Sam Altman 談中美 AI 軍備賽:希望中美合作避免軍備賽,美國需要在晶片以及供應鏈方面保持領先

本月初,馬斯克曾向法院申請禁令阻止 OpenAI 轉型營利性組織;於此同時,一貫與馬斯克不對付的祖克伯也選擇站隊馬斯克,透過 Meta 向加州總檢察長髮信阻止 OpenAI「營利」。

面對前紐約時報作者 Bari Weiss 關於 Altman 與馬斯克之間恩怨糾紛的疑問 ,Sam Altman 表示:「他是一個傳奇的企業家。但他顯然是個霸道的人,而且喜歡爭鬥。現在是針對我,以前是 Bezos、Gates、Zuckerberg,還有很多其他人」。

Altman 指出,AI 技術正在以超出預期的速度發展,未來 18 個月的變化可能會比過去一年半更加顯著。

他預測,超級智慧可能會在未來幾年內出現,並將其定義為一種顯著提升全球科學進步速度的技術能力,比如過去需要十年完成的技術進步將在一年內實現。

關於中美 AI 軍備賽,Altman 的立場展現出清晰的戰略平衡:一方面,確保美國技術領先是首要目標;另一方面,他對中美合作的可能性持謹慎樂觀態度,希望 AI 能推動世界和平,而非加劇對抗。(@ 有新 Newin)

更多 Voice Agent 學習筆記:

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章