基於 OmniPaser V2+Playwright 的純視覺 UI 自動化測試

潘潘潘潘同学發表於2025-02-28

OmniPaser V2 的釋出,使我對純視覺方案做 UI 自動化測試產生了濃厚的興趣,特別是使用 AI 來實現自然語言驅動做一些事情,但是之前使用 Browser Use 體驗過 AI 來操作瀏覽器,發現準確率真的一言難盡,甚至直接卡死,所以還是放棄了,所以做了一個用 Excel 編排執行步驟,讓 OmniPaser V2 識別螢幕資料,然後經過資料轉化,驅動 Playwright 來操作,做了一個簡單的版本。

OmniPaser V2 源生程式碼在 Github 可以找到,不過發現了好幾處缺陷,所以單獨把裡面的模型解析方法提取了出來,執行在自己本地電腦上,使用 fastapi 做了一層轉發,測試框架透過 api 進行互動。

影像識別有點慢,是因為電腦 GPU 效能、圖片尺寸和影像裡面內容綜合導致的,相信如果是做移動端的識別,識別速度會提升幾倍

B 站效果影片連結:

相關文章