蘋果新推出Ferret-UI 2 AI:可控制其所有終端上應用

banq發表於2024-10-27

2 周前  蘋果釋出了 Ferret-UI : 專為 iPhone/IOS 螢幕打造的全新多模態 LLM !!

現在,蘋果開發了一種名為 Ferret-UI 2 的全新 AI 系統,可以讀取和控制 iPhone、iPad、Android 裝置、網路瀏覽器和 Apple TV 上的應用程式。

該系統在 UI 元素識別測試中得分為 89.73,明顯高於 GPT-4o 的 77.73 分。在文字和按鈕識別等基本任務以及更復雜的操作方面,它也比其前代產品有顯著改進。

  • 蘋果用幾種語言模型測試了該系統。雖然 Llama-3 表現最佳,但較小的 Gemma-2B 也表現良好。

瞭解使用者意圖
Ferret-UI 2 不依賴特定的點選座標,而是旨在瞭解使用者意圖。當給出“請確認您的輸入”之類的命令時,系統可以識別適當的按鈕,而無需精確的位置資料。蘋果的研究團隊利用 GPT-4o 的視覺功能生成高質量的訓練資料,幫助系統更好地理解 UI 元素在空間上的關係。

Ferret-UI 2 採用自適應架構,可跨平臺識別 UI 元素。它包含一種演算法,可自動平衡每個平臺的影像解析度和處理要求。研究人員表示,這種方法“既能保留資訊,又能高效地進行本地編碼”。

測試表明,該系統具有強大的跨平臺效能,使用 iPhone 資料訓練的模型在 iPad 上的準確率達到 68%,在 Android 裝置上的準確率達到 71%。然而,該系統在移動裝置和電視或網路介面之間轉換時遇到了更多困難,研究人員將其歸因於螢幕佈局的差異。

微軟開源 UI 理解工具
蘋果的行動正值其他公司推進自己的 UI 理解 AI 系統之際。Anthropic最近釋出了具有 UI 互動功能的 Claude 3.5 Sonnet 更新版,而微軟則釋出了 OmniParser,這是一款將螢幕內容轉換為結構化資料的開源工具,目的也是一樣的。

蘋果最近還推出了 CAMPHOR,這是一個使用由主推理代理協調的專用 AI 代理來處理複雜任務的框架。結合 Ferret-UI 2,這項技術可以讓 Siri 等語音助手分析和執行復雜任務,例如查詢和預訂特定餐廳,這些任務涉及僅使用語音命令瀏覽應用程式或網路。

概括

  • 蘋果開發了 Ferret UI 2,這是一種新的 AI 系統,可以跨裝置理解螢幕內容並與之互動。目標是建立能夠與為人類設計的 UI 自然互動的 AI 系統。
  • 在測試中,Ferret-UI 2 在類似裝置之間轉移技能方面表現出色——在 iPhone 資料上訓練的模型在 iPad(準確率為 68%)和 Android 裝置(準確率為 71%)上執行良好。
  • 然而,由於佈局和格式不同,在移動裝置和電視或網路介面之間移動時系統會遇到更多困難。


 

相關文章