在一篇研究論文中,蘋果研究人員介紹了ReALM。 這是一個新的人工智慧系統,可以理解螢幕上的任務,會話上下文和後臺程序。 研究人員說,它的表現“大大優於”GPT-4。
細節:
- ReALM 使用一種將螢幕資訊轉換為文字的新方法,使其能夠繞過龐大的影像識別引數,從而實現更高效的裝置上人工智慧。
- 該模型考慮了使用者螢幕上的內容以及哪些任務處於活動狀態。
- 根據該論文,儘管引數較少,但 Apple 較大的 ReALM 模型的效能遠遠優於 GPT-4。
示例用例:如果滾動瀏覽網站並且您想給企業打電話,使用者可以告訴 Siri“給企業打電話”,Siri 將能夠“看到”網站上的電話號碼並直接撥打。
重要性: ReALM 在讓語音助手更具情境感知能力方面向前邁出了一大步。透過了解螢幕資訊和其他上下文,下一次 Siri 更新可以提供更加無縫和擴音的使用者體驗。