Hugging Face 視覺語言小模型 SmolVLM 可在手機執行;OpenAI 推出智慧體 Operator 聯網執行任務

RTE开发者社区發表於2025-01-24

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq,@ 鮑勃

01 有話題的技術

1、Baichuan-M1-preview 釋出!集齊語言、視覺、搜尋三大推理能力,解鎖醫療循證模式

1 月 24 日,作為 AI 六小虎之一的百川智慧, 正式釋出了首個深度思考模型 Baichuan-M1-preview ,該模型是國內唯一一個同時具備語言推理、視覺推理、搜尋推理三項能力的模型,並且解鎖了醫療循證模式,不僅各項推理能力行業領先,在醫療健康場景上更是一騎絕塵。

語言推理方面,在 AIME 和 Math 等數學基準測試,以及 LiveCodeBench 程式碼任務上,Baichuan-M1-preview 的成績均超越了 o1-preview 等模型;視覺推理方面,在 MMMU-val、MathVista、MathVision 等權威視覺評測中,Baichuan-M1-preview 同樣領先於 GPT-4o、Claude3.5 Sonnet、QVQ-72B-Preview 等模型。

據介紹,Baichuan-M1-preview 的深度思考能力在多個領域具備獨特優勢:

  • 學術研究:在數學推理和跨學科知識處理方面表現卓越,能夠解決複雜理論問題;

  • 軟體開發:深入理解程式碼結構,提供精準的最佳化建議和除錯方案,顯著提升開發效率;

  • 醫療健康:透過嚴謹的病程推理,協助醫生進行診斷決策,為患者提供全面的分析和個性化建議。(@ InfoQ)

2、智元機器人聯合北大,推出通用機器人操作框架

1 月 23 日,智元機器人與北京大學聯合實驗室宣佈,推出通用機器人操作框架「OmniManip」。據瞭解,智元機器人與北京大學聯合實驗室為解決「視覺語⾔基礎模型(VLMs)如何應⽤於機器⼈,以實現通⽤操作」這一具身智慧領域的難題,攜⼿提出了「OmniManip」架構。「OmniManip」基於以物件為中⼼的 3D 互動基元,將 VLM 的高層次推理能力轉化為機器⼈的低層次高精度動作。針對⼤模型幻覺問題和真實環境操作的不確定性,OmniManip 創新性地引⼊了 VLM 規劃和機器⼈執⾏的雙閉環系統設計,實現了操作效能的顯著突破。

實驗結果表明,OmniManip 作為⼀種免訓練的開放詞彙操作⽅法,在各種機器⼈操作任務中具備強⼤的零樣本泛化能⼒。目前,專案主頁與論文已上線,實驗室表示程式碼與測試平臺即將開源。(@ APPSO)

3、OpenAI 免費版 ChatGPT,提供 o3-mini 模型

OpenAI 聯合創始人兼執行長 Sam Altman 宣佈了一個大訊息——免費版 ChatGPT,將提供 o3-mini 模型。

o3 模型是 OpenAI 在去年 12 月 22 日釋出的一款超強大模型,在數學、程式設計、程式碼等多個領域大幅度超過了 o1 模型,並且也是全球首個在 ARC AGI 的測試中達到 87.5%,超過人類的模型。

除此之外,o3-mini 將會是完全免費的版本,讓所有使用者都能體驗到 AI 的便利。在功能方面,除了繼承之前版本的文字生成技術,o3-mini 還將引入更多定製化的功能,支援使用者根據需求設定自己的查詢目標與風格。這樣的設定無疑會讓使用者享受到更加個性化的服務。同時,o3-mini 還具備更最佳化的使用者介面,降低了使用門檻,讓每個人都能快速上手。

目前,該模型已經完成安全測試,會在未來幾周內正式釋出。(@ AIGC 開放社群)

4、300 倍體積縮減,Hugging Face 推 SmolVLM 模型:小巧智慧,手機也能跑 AI

Hugging Face 推出了一款令人矚目的 AI 模型 ——SmolVLM。這款視覺語言模型的體積小到可以在手機等小型裝置上執行,且效能超越了那些需要大型資料中心支援的前輩模型。

SmolVLM-256M 模型的 GPU 記憶體需求不足 1GB,效能卻超過了其前代 Idefics80B 模型,這一後者的規模是其 300 倍,標誌著實用 AI 部署的一個重大進展。

根據 Hugging Face 機器學習研究工程師安德烈斯・馬拉菲奧提的說法,SmolVLM 模型在推向市場的同時,也為企業帶來了顯著的計算成本降低。「我們之前釋出的 Idefics80B 在 2023 年 8 月是首個開源的影片語言模型,而 SmolVLM 的推出則實現了 300 倍的體積縮減,同時效能提升。」

SmolVLM 模型的推出恰逢企業在人工智慧系統實施方面面臨高昂計算成本的關鍵時刻。新模型包括 256M 和 500M 兩種引數規模,可以以以前無法想象的速度處理影像和理解視覺內容。最小版本的處理速度可達每秒 16 個例項,僅需 15GB 的記憶體,特別適合那些需要處理大量視覺資料的企業。對於每月處理 100 萬張圖片的中型公司而言,這意味著可觀的年度計算成本節省。

此外,IBM 也與 Hugging Face 達成了合作,將 256M 模型整合到其文件處理軟體 Docling 中。儘管 IBM 擁有豐富的計算資源,但使用更小的模型使得其以更低的成本高效處理數百萬份檔案。(@ AIbase 基地)

02 有亮點的產品

1、OpenAI 推出最新 Agent 工具 Operator:可自動執行購物、訂餐和旅行等多工

(動圖來源:量子位)

1 月 23 日晚,OpenAI 推出了其最新 AI Agent 工具——Operator,內建瀏覽器,可以獨立在網站上執行某些操作。

OpenAI 表示 Operator 可以自動執行預訂旅行住宿、預訂餐廳和線上購物等任務。使用者可以在 Operator 介面中選擇多個任務類別,包括購物、送貨、餐飲和旅行。

此外,Operator 會擷取其內建瀏覽器的螢幕截圖,以幫助它瞭解如何以及何時在應用中採取行動,例如何時使用按鈕以及填寫哪些表格。需要明確的是,當 Operator 遇到「卡住」的情況(例如當工具需要密碼時)時,它不會擷取螢幕截圖。OpenAI 將此稱為「接管」模式。

OpenAI 還提到,它們可能會將使用 Operator 的客戶的聊天記錄和相關截圖儲存長達 90 天——即使使用者手動刪除它們也是如此。

目前以研究預覽的形式面向美國地區的 Pro 使用者開放。使用者只需透過 Operator 提交任務請求,AI 即可透過自主瀏覽、點選和滾動網頁完成指定任務。(@ 有新 Newin)

2、元象推出智慧數字人平臺「元象日播」:適配同音色多場景風格

近日,深圳元象資訊科技有限公司正式推出了其領先的智慧數字人平臺「元象日播」,為品牌展示和內容生產帶來了全新的解決方案。該平臺憑藉其高自然度的定製能力、實時互動功能以及一鍵開播的便捷性,迅速吸引了眾多行業的關注。

元象日播平臺整合了一站式的生產工具,使用者可以在短時間內輕鬆搭建起專業水準的直播空間,並透過自研大模型實現實時彈幕和評論回覆,大幅提升觀眾的互動體驗。平臺支援將直播內容一鍵同步推流至美團、抖音、淘寶、京東等各大熱門平臺,滿足多樣化的業務需求。

在數字人形象和語音定製方面,元象展現了其強大的技術實力。透過高自然度的人臉合成和語音合成演算法,使用者可以輕鬆定製個性化、逼真的數字人形象,並進行全臉、全頭的 AI 驅動。平臺提供了音色克隆技術,使用者僅需提供少量音訊素材,即可實現零樣本聲線復刻或精準復刻,完美復刻主播的音色和情感細節。(@ AIbase 基地)

3、躍問 App 上新「創意板」功能:無痛自制應用 + 遊戲

躍問 App 上新「創意板」功能,無痛自制應用 + 遊戲,強程式碼能力支援,說出靈感即可實現。使用者 對著 AI 大模型說大白話,它就能為其做遊戲、做應用。 不論是海報圖片、趣味遊戲、互動網頁、視覺化圖表,還是任何實用工具,能提的要求都能做。並且使用者不需要懂程式碼知識,也不需要長時間充滿焦慮的等待。

只需要擁有一臺手機,下載躍問 App(大模型六小強之一階躍星辰出品), 開啟它家最新上線的「創意板」功能。

而且,使用者生成的「東北話等級挑戰遊戲」「西安遊玩預算表」「新春拜年互動網頁」等所有的應用或者遊戲, 不僅可以釋出在躍問 App 內部社群平臺上,更可以分享到任意平臺 ,邀請大家一起玩。

據統計,躍問新上的這個創意板,是目前國內第一個「應用與遊戲生成方向」的功能。(@ 量子位)

03 有態度的觀點

1、李飛飛:我們希望把 AI 作為一種工具,來增強人類的能力,而非取代

(圖片來源:史丹佛大學)

「視覺的進化、眼睛的進化和視覺智慧的發展過程與整體智力的進化密切相關,人類個體甚至集體的文明都建立在視覺智慧之上。」

李飛飛表示: 「從我個人的角度來看,我學到的一個重要經驗,並且希望分享給整個領域的是,資料與演算法同樣關鍵。 無論我們在深度學習、人工智慧,甚至生成式 AI 領域取得了多少進展,這些都離不開資料。我和我的學生們認識到我們需要用新的思維方式來看待機器學習——不僅僅和演算法相關,更重要的是泛化能力(generalization)。」

除此之外,她還說:「如果我們只在平面世界,有很多問題是無法解決的,比如奇怪的偽影、困難的推理以及影像生成會變得奇怪,很難處理遮擋問題,互動方式也有限……我今天要啟發大家進行思考的是:三維世界中有更多的東西值得去研究。」

「整個人類的發展過程中,人類每時每刻都在利用感知做事,瞭解世界,並與世界互動。所以,3D 空間智慧真正催化了這個感知、學習和行動的良性迴圈。我們希望把 AI 作為一種工具,來增強人類的能力,而非取代。」(@ Z Potentials)

更多 Voice Agent 學習筆記:

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章