Vision - 活動彈窗識別和定位

Allean_hai發表於2019-04-10

背景

在移動端的UI自動化測試過程中,機器可能會遇到在程式碼設計流程之外的頁面狀態,常見的有活動彈窗和頁面報錯。活動彈窗一般出現在頁面啟動過程,由活動內容和取消按鈕組成,頁面的測試過程需要點選取消活動彈窗。我們想讓機器能以接近人理解的方式,“看到”獲得彈窗自動點選取消按鈕完成處理過程,這樣會比基於驅動XML資料的操作元素ID方法更通用和穩定。活動彈窗取消按鈕的識別和定位在機器視覺領域屬於物體識別和定位的問題。因為這個場景沒有現成的標註資料,手工設計特徵成本比較高,所以我們基於R-CNN模型設計了適用於業務需求的神經網路模型。

模型設計

訓練資料少會使模型容易過擬合,我們在準備資料的時候做了簡單的處理:

  • 模型計算之前進行影像特徵預處理

  • 使用資料增強來生成更多的訓練資料

其中影像特徵預處理相當於讓機器理解一些“常識”知識,預先給機器一些經驗,比如訓練資料的前景提取,定義候選框的大小和形狀。參考遷移學習的思想,有時候我們幫助機器提前學習好部分知識,在這個基礎上去學習更新引數,可以給模型的表現帶來很好的收益。

然後另一個方法是控制模型的表徵能力,包括只使用3層Convolution-maxpooling提取影像特徵,在全連線層加了L2 正則,改善訓練過擬合的情況。訓練後模型預測的Precision和Recall在90%以上,1080p解析度的輸入影像計算時間需要10s,主要計算時間在Selective Search生成候選框的部分。候選框的生成沒有使用Faster-RCNN的RPN是因為Selective Search的實施更簡單,在沒有高質量和足夠數量的訓練資料條件下更適合當前的場景。

Vision - 活動彈窗識別和定位

                                                                 活動彈窗識別和定位

相關連結

使用機器學習R-CNN模型的活動彈窗識別定位演算法:Vision


相關文章