蘋果絕技:理解螢幕

banq發表於2024-06-11


每個人都在期待一個重生的Siri,Ferret-UI來了!

Ferret-UI:一個多模態視覺語言模型,它可以理解iOS移動的螢幕上的圖示、小部件和文字,以及它們的空間關係和功能含義。

您可以向Ferret-UI詢問的這些問題:

  • - 提供此螢幕截圖的摘要;
  • - 對於互動式元素[bbox],提供一個最能描述其功能的短語;
  • - 預測UI元素[bbox]是否可替換。

有了強大的螢幕理解能力,不難將動作輸出新增到模型中,使其成為一個成熟的裝置上助手。

論文甚至討論了資料集和iOS UI基準構建的細節。來自Apple的非凡開放!他們真正重新定義了他們的人工智慧研究分支。

這個基本的開源MLLM模型專案(點選標題)主要貢獻:

  • Ferret 模型 -混合區域表示 + 空間感知視覺取樣器支援 MLLM 中的細粒度和開放詞彙引用和基礎。
  • GRIT 資料集(~1.1M)——一個大規模、分層、穩健的基礎和參考指令調整資料集。
  • Ferret-Bench——一種多模式評估基準,聯合需要引用/基礎、語義、知識和推理。

網友:

  • “螢幕理解”是當今科技書呆子的概念。理解螢幕就是理解世界。考慮到蘋果對世界上最有影響力的裝置的物理電路和無形程式碼的控制,這將是蘋果最大的優勢。
  • Ferret UI還遠遠不能用於日常使用者。 他們會在快捷鍵上新增函式呼叫
  • 看來,中低階設計師很快就不再需要了。高階人類設計師將成為裝配線檢查員,需要對自然語言和文化知識有深刻的理解,才能與代理商合作並創造體驗式產品。

相關文章