一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍

飞桨PaddlePaddle發表於2020-09-08

在進行AI模型開發時,資料的數量與質量直接影響模型效果。在實地資料採集之後,企業往往需要從大量資料中篩選出符合訓練要求的相關資料,剔除質量差或不相關的資料,這個步驟被稱為資料清洗。

通常來講,在清洗資料時主要會清理掉對訓練任務沒有用途的資料,例如在訓練工廠工人佩戴安全帽識別模型時,希望在影片抽幀後的大量圖片中僅保留有工人出現的圖片進行標註訓練。在這一步驟上,傳統做法是進行人工篩選,人力投入較多且容易發生遺漏;隨著人工智慧發展,目前許多平臺,如百度大腦AI開放平臺,已經提供人臉檢測、人體檢測的通用介面,使用者可以先呼叫介面處理資料,篩選出採集到人像的資料,再進入到具體的檢測識別步驟。那麼,是否有一個整合了各項資料處理能力,儘量減少人工干預,能夠自動完成影片資料採集、抽幀、資料清洗、智慧標註,從而高效提取高質量訓練資料的解決方案呢?

關注到有越來越多的使用者對資料處理有強烈需求,今年4月,百度全新推出智慧資料服務平臺EasyData,集資料採集、資料清洗、資料標註等功能於一身,完成上述資料處理工作之後,可以在EasyDL平臺進行模型訓練、模型部署。

針對資料清洗這一具體功能,EasyData目前上線了去相似、去模糊、旋轉、裁剪和映象這5種基礎的資料清洗功能。那麼除了常規能力之外,EasyData還有什麼業內獨家的終極秘技?

從應用出發,高階清洗功能

讓資料處理事半功倍

在園區智慧管理等場景下,需要監測工廠園區、林區中是否有人闖入,或檢查工人是否佩戴安全帽。為了滿足此類場景下的圖片清洗需求,EasyData上線了高階清洗功能,將無人臉、無人體出現的資料進行過濾。EasyData聯動百度大腦AI開放平臺提供的前沿技術能力,使用者僅需在百度智慧雲上開通相應的服務(人臉檢測和人體檢測都可以免費試用),就可以透過簡單的配置,在EasyData平臺上直接使用這些功能進行自動資料清洗。

1. 過濾無人臉圖片

如果以前沒有用過百度智慧雲的人臉檢測服務,第一次使用高階清洗的功能會提示“申請免費試用”,點選連結會進入百度智慧雲人臉檢測的頁面,按照提示,開通服務後,再回到EasyData的頁面就可以正常使用了。

和基礎的資料清洗服務一樣,過濾無人臉圖片也是以資料集為單位的。在資料清洗頁面選擇過濾無人臉圖片,點選儲存,提交任務就可以進行清洗。如果勾選了“保留標籤”,那麼不僅會把沒有人臉的圖片過濾,還會將人臉畫框同步至清洗後的資料集。
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
提交任務時勾選保留人臉畫框
例如下圖,清洗前的資料集除了人臉圖片,還有一些風景照、車輛等其他物體的照片,人臉過濾會把這些沒有人臉的圖片過濾,保留下來包含人臉的圖片,包括戴口罩、被遮擋的人臉也可以識別出來。
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍清洗前的資料集中有人臉照片、風景照、靜物照一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
清洗後的資料集只有人臉照片被儲存下來
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
戴口罩的人臉圖片
2. 過濾無人體圖片

過濾無人體圖片同樣會用到百度智慧雲的人體檢測能力,在使用之前需要在百度智慧雲上開通相應的服務。過濾無人體圖片會用到兩個介面,人體檢測和屬性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/body/seg)。資料集模板為影像分類和物體檢測的資料集會呼叫人體檢測和屬性分析介面,資料集模板為影像分割的資料集會呼叫人像分割介面。百度智慧雲上的人像分割介面返回的是人像圖片對應的二值圖片(人像為1,背景為0),在後端會執行相應的標籤轉換,返回的二值圖片轉換成對應的標籤。
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
清洗前的資料集中有風景圖、靜物圖和人體圖
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
資料清洗過濾保留的5張人體圖片
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
模板為影像檢測的資料集清洗後的標籤
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
模板為影像分割的資料集清洗後的標籤
關注廣泛需求,提供

多種基礎資料清洗功能

1. 去相似圖片

用攝像頭自動採集圖片的時候,由於長時間在同一個場景下,即使做了抽幀處理,還是會有大量的相似圖片。大量的相似圖片,資料價值低,而且佔用了大量的儲存空間,而人工篩選,耗時費力,容易出錯。EasyData平臺推出的去相似圖片利用圖片的相似檢索特徵,計算圖片的兩兩相關性,可以自動地判斷相似圖片、保留不相似的圖片,具體操作也十分簡便。

如下圖所示,去相似前的資料集裡有8張圖片,根據圖片的相似度,圖片可以分成3類。清洗完成後的資料集中有3張圖片,分別是清洗前的3類圖片中的一張。
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
去相似前的8張圖片
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
去相似後保留下來3張圖片
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
拖拽圓點可以修改相似度分值
2. 去模糊圖片

相機抖動、物體快速移動都會造成拍出來的圖片不清晰、產生低質圖片。透過人工挑選的方法去除模糊圖片缺乏統一的標準,容易漏刪或多刪。利用EasyData的去模糊圖片,可以輕易地去除模糊圖片。

以示例圖片為例,清洗前有5張圖片,畫質不一,清洗後保留下來兩張高質量的圖片。此外,如果使用者認為有部分模糊圖片沒有去除,或者高質量的圖片沒有保留下來,可以考慮調整清晰度的分值,重新清洗。
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
去模糊前的5張畫質不一的圖片
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
去模糊後保留下來清晰圖片
一步到位,自動批次過濾無人圖片,智慧園區管理事半功倍
拖拽圓點可以修改清晰度分值
對於普通清洗,可以在一個清洗任務中提交多個清洗操作,例如同時勾選去相似、去模糊功能,即可同時去除相似和模糊的圖片。

目前的資料清洗服務所能支援的最大資料集大小是5萬張圖片。基於EasyData平臺的大資料處理平臺,對於基礎清洗服務,2萬張圖片的資料集,僅需1小時可以完成清洗5萬張圖片的資料集,只需2小時即可完成清洗。對於高階清洗服務來說,清洗效率也可以透過配置QPS靈活調整清洗效率,更方便快捷。

考慮到智慧園區管理等場景中,有對影片進行截幀、自動上傳的需求,EasyData平臺也免費提供SDK,供使用者進行下載,可以將SDK接入業務現場的資料採集終端,在平臺設定截幀時間與間隔,自動將原始影片資料截為圖片資料並上傳至EasyData平臺進行後續處理。

EasyData是百度大腦推出的業內首個提供軟硬一體、端雲協同的智慧資料採集與處理平臺,支援圖片、文字、音訊和影片四類資料的處理,其中圖片資料支援了採集、清洗、標註一站式處理,覆蓋模型開發中的各類資料管理需求。EasyData處理後的資料可直接應用於EasyDL模型訓練,透過EasyDL預訓練模型和自動遷移學習機制,高效開發AI模型。
飛槳PaddlePaddle
飛槳PaddlePaddle

飛槳(PaddlePaddle)是中國首個自主研發、功能完備、開源開放的產業級深度學習平臺。

https://www.paddlepaddle.org
專欄二維碼

相關文章