AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文題目:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions 論文地址:https://arxiv.org/abs/2408.02544 程式碼倉庫:https://github.com/xbmxb/EnvDistraction
任務定義。考慮 GUI Agent A 為了完成特定目標 g,與作業系統環境 Env 互動中的任一步 t, Agent 根據其對環境狀態 的感知在作業系統上執行動作。然而,作業系統環境天然包含質量參差不齊、來源各異的複雜資訊,我們對其形式化地分為兩部分:對完成目標有用或必要的內容,,指示著與使用者指令無關的目標的干擾性內容,。GUI Agent 必須使用 來執行忠實的操作,同時避免被 分散注意力並輸出不相關的操作。同時,t 時刻的操作空間被狀態 決定,相應地定義為三種,最佳的動作,受到干擾的動作 ,和其他(錯誤)的動作。我們關注智慧體對下一步動作的預測是否匹配最佳的動作或受到干擾的動作,或是有效操作空間之外的動作。
模擬資料。根據任務的定義,在不失一般性的情況下模擬任務並構建模擬資料集。每個樣本都是一個三元組 (g,s,A),分別是目標、螢幕截圖和有效動作空間標註。模擬資料的關鍵在於構建螢幕截圖,使其包含 和 ,即保證螢幕內允許正確的忠實性操作,且存在自然的干擾。研究團隊考慮了四種常見場景,即彈框、搜尋、推薦和聊天,形成四個子集,針對使用者目標、屏幕布局和干擾內容採用組合策略。例如,對於彈框場景,他們構造誘導使用者同意去做另一件事情的彈框,並在框內給出拒絕和接受兩種動作,如果智慧體選擇接受型動作,就被看作失去了忠實性。搜尋和推薦場景都是在真實的資料內插入偽造的樣例,例如相關的折扣物品和推薦的軟體。聊天場景較為複雜,研究團隊在聊天介面中對方發來的訊息內加入干擾內容,如果智慧體遵從了這些干擾則被視為不忠實的動作。研究團隊對每個子集設計了具體的提示流程,利用 GPT-4 和外部的檢索候選資料來完成構造,各子集示例如圖 4 所示。
工作模式。工作模式會影響智慧體的表現,尤其是對複雜的 GUI 環境,環境感知的水平是智慧體效能的瓶頸,它決定了智慧體是否能夠捕捉有效的動作,指示了動作預測的上限。他們實現了三個具有不同環境感知級別的工作模式,即隱式感知、部分感知和最佳感知。(1)隱式感知即直接對智慧體提出要求,輸入僅為指令和螢幕,不輔助環境感知 (Direct prompt)。(2)部分感知即提示智慧體先進行環境解析,採用類似思維鏈的模式,智慧體首先接收螢幕截圖狀態以提取可能的操作,然後根據目標預測下一個操作(CoT prompt)。(3)最佳感知即直接提供該螢幕的操作空間給智慧體 (w/ Action annotation)。本質上,不同的工作模式意味著兩個變化:潛在操作的資訊暴露給智慧體,資訊從視覺通道融合到文字通道中。
多模態環境是否會干擾 GUI Agent 的目標?在有風險的環境中,多模態代理容易受到干擾,這會導致他們放棄目標並做出不忠實的行為。在研究團隊的四種場景中,每個模型都會產生偏離原始目標的行為,這降低了行動的正確率。強大的 API 模型(GPT-4o 的 9.09%)和專家模型(SeeClick 的 6.84%)比通用開源模型更忠實。 忠實性和有用性 (helpfulness) 之間的關係是什麼?這分為兩種情況。首先,具有強大功能的模型既可以提供正確動作,又可以保持忠實(GPT-4o、GPT-4v 和 Claude)。它們表現出較低的 分數,以及相對較高的 和較低的 。然而,感知能力更強但忠實度不足會導致更容易受到干擾,有用性降低。例如,與開源模型相比,GLM-4v 表現出更高的 和低得多的 。因此,忠實度和有用性並不相互排斥,而是可以同時增強,並且為了匹配強大的模型的能力,增強忠實度就顯得更為重要。 輔助多模態環境感知是否有助於緩解不忠實?透過實施不同的工作模式,視覺資訊被整合到文字通道中以增強環境感知。然而,結果表明,GUI 感知的文字增強實際上會增加干擾,干擾動作的增加甚至會超過其帶來的好處。CoT 模式作為一種自我引導的文字增強,可以大大減輕感知負擔,但也會增加干擾。因此,即使感知這一效能瓶頸被增強,忠實的脆弱性依舊存在,甚至更具風險。因此,跨文字和視覺模式(如 OCR)的資訊融合必須更加謹慎。