智譜開源 CogAgent-9B,讓 AI「看懂」螢幕;Anthropic:大多數任務無需複雜 AI 智慧體

RTE开发者社区發表於2024-12-27

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、智譜開源 GLM-PC 基座模型 CogAgent-9B,讓 AI 智慧體「看懂」螢幕

智譜技術團隊公眾號昨日(12 月 26 日)釋出博文,宣佈開源 GLM-PC 的基座模型 CogAgent-9B-20241220,基於 GLM-4V-9B 訓練,專用於智慧體(Agent)任務。

據報導,該模型僅需螢幕截圖作為輸入(無需 HTML 等文字表徵),便能根據使用者指定的任意任務,結合歷史操作,預測下一步的 GUI 操作。

得益於螢幕截圖和 GUI 操作的普適性,CogAgent 可廣泛應用於各類基於 GUI 互動的場景,如個人電腦、手機、車機裝置等。

相較於 2023 年 12 月開源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理預測準確性、動作空間完善性、任務普適性和泛化性等方面均實現了顯著提升,並支援中英文雙語的螢幕截圖和語言互動。

CogAgent 的輸入僅包含三部分:使用者的自然語言指令、已執行歷史動作記錄和 GUI 截圖,無需任何文字形式表徵的佈局資訊或附加元素標籤(set of marks)資訊。

其輸出涵蓋以下四個方面:

  • 思考過程(Status & Plan): CogAgent 顯式輸出理解 GUI
    截圖和決定下一步操作的思考過程,包括狀態(Status)和計劃(Plan)兩部分,輸出內容可透過引數控制。

  • 下一步動作的自然語言描述(Action): 自然語言形式的動作描述將被加入歷史操作記錄,便於模型理解已執行的動作步驟。

  • 下一步動作的結構化描述(Grounded Operation): CogAgent 以類似函式呼叫的形式,結構化地描述下一步操作及其引數,便於端側應用解析並執行模型輸出。其動作空間包含 GUI 操作(基礎動作,如左鍵單擊、文字輸入等)和擬人行為(高階動作,如應用啟動、呼叫語言模型等)兩類。

  • 下一步動作的敏感性判斷: 動作分為「一般操作」和「敏感操作」兩類,後者指可能帶來難以挽回後果的動作,例如在「傳送郵件」任務中點選「傳送」按鈕。

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等資料集上進行了測試,並與 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型進行了比較。

結果顯示,CogAgent 在多個資料集上取得了領先的結果,證明了其在 GUI Agent 領域強大的效能。(@IT 之家)

2、OpenAI 伺服器「跳閘」

今天凌晨,據網友和媒體發現,OpenAI 的 AI 伺服器發生故障,本次系統服務中斷於北京時間 12 月 27 日凌晨 2 點 30 分左右開始,影響了 ChatGPT 聊天機器人、Sora 影片生成模型以及部分 API 呼叫。

據瞭解,北京時間今天凌晨 3 點 OpenAI 官網釋出動態,稱 ChatGPT、API 及其文字到影片生成器 Sora「目前錯誤率很高」。隨後於北京時間早上 6 點 05 分,OpenAI 宣佈「ChatGPT 已恢復部分服務」,但聊天曆史記錄仍然無法載入,修復工作仍在進行中。

此次服務中斷原因,OpenAI 並未說明具體原因,只表示「此問題是由上游提供商引起」。據悉,作為 OpenAI 的獨家雲服務提供商,微軟 Azure 今天也報告資料中心出現「電源」問題,因此可以初步判斷,微軟資料中心電力故障或是罪魁禍首。

目前,OpenAI 發文稱 Sora 與 API 已恢復正常使用。(@APPSO)

3、訊息稱微軟及阿里「老兵」胡云華加入智譜,將任「智譜清言」負責人

據報導,前微軟亞洲研究院研究員、阿里達摩院資深技術專家、支付寶中國首席資料官胡云華現已加入大模型獨角獸公司智譜,並擔任 C 端應用「智譜清言」負責人。

胡云華 2016 年成立「智慧一點」公司。該公司一年多時間內拿下四輪融資,主要聚焦於售前智慧客服等電商人工智慧導購解決方案。

智譜清言此前的負責人偏重技術背景,也讓智譜清言快速整合模型功能,如影片生成、視訊通話和情感語音等。目前智譜清言擁有超過 2500 萬使用者、預計年收入超過千萬元。但隨著多個大廠下場、對話工具型產品競爭加劇,智譜清言的增長已經過了新技術驅動獲客的階段。靠不斷整合模型功能,對擴大使用者規模和提高留存的作用正在減小。(@IT 之家)

02 有亮點的產品

1、可靈 AI 深夜放大招!悄悄上線 AI 模特功能

可靈 AI 的生圖模型「可圖」在深夜進行了重大升級,不僅加強了語義理解能力,還大幅提升了真人效果,尤其對亞洲人像的適配性極佳,審美也得到了顯著提升。據稱,可圖 1.5 版本被認為是目前製作亞洲人形象最為出色的 AI 模型之一。

更引人注目的是,基於可圖 1.5 的新功能——AI 模特。它與可靈 1.6 的圖生影片功能相結合,使用者可以透過可圖的「AI 試衣」介面訪問 AI 模特功能和 AI 換裝功能,透過簡單的設定(如性別、年齡、膚色),即可快速生成高質量的 AI 模特圖。即使是 AI 新手,也能輕鬆上手,可靈還提供了「推薦嘗試」詞條,幾乎實現了一鍵生成。

生成的 AI 模特圖不僅速度快,還具備全球化視角,膚色的選擇直接影響人種,這在傳統模式下,外籍模特成本高昂的背景下,顯得尤為重要。可靈在年齡和人種的區分上表現出色,能夠精準捕捉不同群體的特點。

AI 模特功能的最大亮點在於,它與 AI 換衣工作流的無縫整合。使用者生成的 AI 模特可以直接用於 AI 換衣,無需儲存到本地,即可在後續換衣流程中重複使用,極大地提升了操作的便捷性。

並且結合 AI 影片功能,一個模特可以動態展示服裝,甚至在幾分鐘內生成高質量的動態影片。(@AIbase 基地)

2、理想汽車旗下 AI 應用理想同學 App 正式上線 內容由 Mind GPT-3o 生成

理想汽車開發的人工智慧應用——理想同學 App 已正式在蘋果 App Store 和小米應用商店上架,iOS 版本應用大小約為 91MB,而安卓版本則約為 81MB。這款應用依託於理想汽車自研的大模型,提供了豐富的智慧互動功能。

經過測試,使用者可以直接與理想同學進行交流,包括識物、知識問答、長英文詞句翻譯和文字生成等。在影片功能中,理想同學展現出其視覺感知能力,支援實時畫面詢問和拍攝詢問,語音互動流暢自然,回覆內容由人工智慧 Mind GPT-3o 生成。(@AIbase 基地)

3、小米澎湃 OS 2 AI 助手超級小愛將首次向正式版使用者開放

在即將到來的年度總結直播中,小米總裁盧偉冰將重點介紹小米澎湃 OS2 的最新更新。此次更新標誌著澎湃 OS2 釋出後的首次重大版本升級,其中最引人注目的是超級小愛功能的首次向正式版使用者開放。盧偉冰透露,更新將分批進行,針對不同機型進行適配和推送,預計在今晚的直播中將公佈具體的升級計劃。

超級小愛是此次澎湃 OS2 更新的重大亮點之一,作為小愛同學的超級 AI 進化版,超級小愛致力於打造一個全生態的 AI 智慧助手。小米對超級小愛的介面 UI 進行了全面重塑,使其能與系統介面無縫融合,使用者可以在任意頁面喚醒超級小愛並進行交流。

超級小愛具備記憶能力,能夠作為使用者的私人備忘錄,幫助記錄收藏、日程和雜事。透過與使用者的頻繁互動,超級小愛還能記住使用者的個人偏好。在安全方面,超級小愛的所有資料均已實現端到端加密,使用者可以隨時檢視小愛記憶,也可以選擇清空記憶。小米基於 MITEE3.0、資料許可權體系、機密計算技術,確保了雲端全鏈路使用者資料的安全和可控性。(@AIbase 基地)

03 有態度的觀點

1、Anthropic:大多數任務無需複雜 AI 智慧體

根據 AI 公司 Anthropic 的最新分析發現,在實際應用中,使用 AI 智慧體而非簡單提示的場景並不常見。Anthropic 在工作流程(程式碼協調 AI 模型和工具)和智慧體(獨立控制自身流程)之間劃出了一條清晰的界限。

雖然 AI 智慧體能夠處理複雜和開放式的任務,但它們也需要更多的監管和計算能力。Anthropic 建議從基本提示開始,並且只在絕對必要時增加複雜性。儘管開發框架可以幫助團隊開始使用智慧體,但在生產環境中,更簡單的方法往往更有效。

對於考慮使用 AI 智慧體的團隊,Anthropic 推薦關注三個關鍵領域:保持設計簡單、使流程透明以及精心設計使用者介面。該公司認為,在客戶服務和軟體開發任務中,智慧體的潛力最大。

在追求 AI 技術的高階應用時,不應忽視簡單解決方案的有效性。在許多情況下,一個精心設計的提示可能比一個複雜的 AI 智慧體更加實用和經濟。這種思路有助於企業在 AI 應用上做出更明智的選擇,避免不必要的資源浪費,同時實現業務目標。(@AIbase 基地)

2、理想汽車 CEO 李想預言:人工智慧最終形態是「矽基家人」

理想汽車 CEO 李想在 2024 理想 AI Talk 訪談中,對人工智慧的未來發展提出了大膽設想。他認為,人工智慧(AGI)的發展將分為三個階段,最終形態將是「矽基家人」,這將深刻改變人類的生活方式。

首先,AGI 的第一階段是「增強我的能力」,在這個階段,人工智慧作為輔助工具,提高我們的效率和便利性,但決策權仍在人類手中。例如,L3 級別的自動駕駛需要駕駛員監督,人類承擔最終責任。

第二階段,AGI 將成為「我的助手」,能夠獨立完成任務並對結果負責。李想舉例說,L4 級別的自動駕駛汽車可以獨立去學校接孩子,進行面部識別讓孩子上車,標誌著人工智慧的大規模應用。

最終,第三階段的 AGI 將變成「矽基家人」,無需人類指示,就能主動管理家庭事務,成為家庭的重要組織者。李想強調,這不僅是技術的進步,更是人類記憶的延續,即使肉體消失,記憶也能透過 AGI 得以儲存。

李想表示,他和團隊有望在有生之年實現這一願景,這將是人類歷史上的一大步。(@AIbase 基地)

更多 Voice Agent 學習筆記:

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章