曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

旷视科技發表於2019-01-28

原文網址 : https://www.jiqizhixin.com/articles/2019-01-29-18

近期，曠視科技南京研究院釋出學術界內目前最大的商品識別資料集——RPC，其影象數量和類別數量皆是該領域之最。同時，該資料集針對新零售場景定義了一個新問題，即視覺自動收銀（automatic check-out, ACO），模擬零售真實結算場景。此外，還針對 ACO 任務給出了一套完整的 Baseline Method，以及“整單準確率”cAcc為代表的一系列評測指標，更有可以直接安裝的 Python 版本評測工具。同名 GitHub 專案主頁上有 Leaderboard，歡迎大家來刷榜！

論文連結：https://arxiv.org/abs/1901.07249

專案連結：https://rpc-dataset.github.io/

零售業是人力密集型行業，其中收銀結算佔有相當高的成本。隨著深度學習發展，藉助影象識別技術實現零售行業的降本增效已是大勢所趨。自動收銀結算（Automatic Check-Out/ACO）是其中的核心場景，旨在根據收銀場景影象生成結算清單，並與計算機視覺技術的融合不斷加深。

CV 技術+場景，從來不是一條坦途。從影象識別角度講，ACO 的落地佈滿靳棘，其中既有來自資料本身的問題，也有模型訓練的因素，最後可歸結為 4 個方面： 1）large-scale，2）fine-grained，3） few-shot 和 4）cross-domain。

儘管存在上述問題，ACO 還是有著潛在的研究與商業價值。如果有標註精良的資料集，這一問題或可迎刃而解。為此，曠視科技南京研究院打造了一個目前最大的商品識別資料集——RPC（Retail Product Checkout），來推動新零售自動收銀場景的相關研究和技術進步，它的商品種類高達 200，影象總量達 83k，真實模擬零售場景，且逼真度超過現有同類資料集，同時充分體現出 ACO 問題的細粒度特性。

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 2：RPC 資料集對比同類資料集。

RPC 資料集有兩種形態的影象：1）單品圖（exemplar image），在受限環境下拍攝，只包含單一產品，對應於網購商品圖；2）結算圖（ checkout image），包含使用者購買場景下的多個商品，有助於研究者解決相關子問題，比如檢測或計數。

資料集的基準還在進行之中，目前最好的基線來自基於 Cycle-GAN 的資料合成方法。

ACO 任務

當顧客走進商店，把要購買的商品放在收銀臺上，一個理想的 ACO 系統可以自動識別每個商品，並一次性準確給出購物清單，如圖 1 所示。

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 1：ACO 圖示。

因此，ACO 本質上是識別任意商品組合中每個商品的出現並計數的一個系統。

一般來講，為保證效能，訓練 ACO 識別系統的影象應該和實際收銀場景一模一樣。但是由於海量的商品類別加之不斷更新，讓識別模型窮盡所有的商品組合是不現實的，因此一個可行的解決方案是在特定環境下采集一類單品影象，並將其複用至實際結算中。

RPC 資料集特點

曠視提出的 RPC 資料集具有 6 個方面的特性。

量大：無論是從影象數量還是商品種類（SKU）上來看，RPC 都是該領域之最：SKU 達 200 個，影象數量 83,739 張，其中單品圖 53,739 張，結算圖 30,000 張。

跨域：RPC 中影象資料分為單品圖和結算圖兩種形態。模型需在單品圖上進行訓練，但真正測試環境則為結算圖。

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 3：單品圖。

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 4：結算圖。

真實：在構造和採集結算圖時，儘可能追求模擬真實零售場景，無論商品類別、商品個數、擺放角度及遮擋等等因素均接近實際收銀場景。

層級：200 類商品隸屬於 17 個商品大類（如方便麵、紙巾、飲料等），天然構成了層次的結構，並可作為輔助監督資訊用於進一步的訓練。

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 6：17 個商品大類。

難易：針對結算圖設計了三種難度：Easy、Medium 和 Hard，包含的商品類別數和數量分別為：

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

表 2：結算圖的三種難度。

強弱：在監督資訊層面，我們為每張 RPC 的結算圖均提供了由弱（Shopping List）到中（Point）再到強（Product BBox）的三種強度監督資訊。

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 5：結算圖的三種強度監督資訊。

RPC 資料集基準

ACO 基線方法

曠視在本文提出了 4 個 ACO 基線方法，分別是 1）Single，2）Syn，3）Render 和 4）Syn+Render。

只使用 RPC 資料集單品圖的標註資訊，且直截了當地把這些單品圖用於訓練，這種策略即是首個基線方法，稱之為 Single。另外，本文使用的檢測器是 ResNet101 作為 Backbone 的特徵金字塔網路 FPN。

通過把剪裁出來的單品隨機貼上在背景上以合成 10,000 張結算圖，接著用其訓練檢測器，這是第二種基線方法，表示為 Syn。

為把上面合成的結算圖渲染的更加逼真，曠視藉助 Cycle-GAN 轉化合成圖，如圖 9 所示。接著用這 10,000 張渲染的影象訓練檢測器，這是第三種基線方法，表示為 Render。

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 9：合成結算圖與渲染結算圖例項對比。

此外，還可以混合使用合成圖與渲染圖訓練檢測器，這是第四種基線方法，表示為 Syn+Render。

針對 ACO 任務提出的整個方法的 pipeline 如圖 10 所示：

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

圖 10：基線方法 pipeline。

實驗結果

在進入到實驗結果之前，需要說明的一點是最優的評測指標並不是傳統檢測任務中的 mAP50、mmAP 等指標，而是本文提出的 cAcc（Checkout Accuracy），即正確核驗一張影象內所有商品的精度，簡單來說，就是“整單正確率”。

這裡按照上述的 Easy、Medium、Hard 三種 mode 測試了 ACO 任務在 RPC 資料集上的實驗結果，如表 3 所示：

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

表 3：實驗結果。

研究展望

雖然 RPC 資料集跨域檢測方法適用於解決 ACO 問題，但並非其他方法行不通。其他研究方向也可從 RPC 資料集獲得啟發：

線上學習解決 ACO 問題。實際的零售場景中，商品種類將會不斷翻新。快速迭代模型而無需重新訓練成為首要問題，這時線上學習就派上用場了。
ACO 任務的一個潛在解決方案是在不借助商品檢測技術的前提下，直接從結算圖中獲取商品清單。這本質上是把 ACO 問題轉化為一個物品計數問題。
利用結算圖的監督資訊。RPC 資料集有著不同層次的結算圖的監督資訊，如何將其利用起來更好地完成 ACO 任務仍值得進一步研究。
作為其他計算機視覺任務的補充資料集。雖然 RPC 資料集針對 ACO 問題而設計，但是標註有商品的 ground truth 定位/邊界框，也就適用於物體檢索、few-shot/弱監督/全監督物體檢測等領域的研究。

結論

曠視在本文中釋出了目前學術界最大的商品識別資料集 RPC，並定義了 ACO 任務和對應的評測指標。RPC 資料集含 200 個商品類別，83,739 張影象，包含單品圖和結算圖兩種形態，並且配有不同監督強度的標註。藉助這一資料集，本文清晰界定了 ACO 問題，並使用 4 種基線方法基準化這一資料集。實驗結果表明，在這一資料集上 ACO 仍有較大提升空間。同時，該資料集還適用於多個潛在的研究方向。

曼孚技術分享：資料標註都在自動駕駛哪些場景落地？
2023-01-06
自動駕駛
深圳城市資料釋出：科技創新帶動消費增長
2023-04-27
自動駕駛3D點雲資料採集標註 | 景聯文科技
2023-01-06
自動駕駛3D
最大綜合教學視訊資料集釋出，道路標記線會擾亂自動駕駛穩定性 | AI一週學術
2019-03-18
自動駕駛AI
在瑞士最大銀行驅動創新
2018-07-06
銀行卡識別、移動端銀行卡識別、銀行卡識別SDK
2019-11-29
曠視聯合智源釋出全球最大物體檢測資料集Objects365，舉辦CVPR DIW2019挑戰賽
2019-04-20
ObjectS3
曠視科技提出統一感知解析網路UPerNet，優化場景理解
2018-08-25
優化
創新的力量天翼雲推動科技創新技術實踐落地
2022-03-17
曠視科技提出統一感知解析網路UPerNet，最佳化場景理解
2018-08-25
美創科技資料資產管理平臺升級釋出，推動數字化轉型
2021-03-22
奧威BI軟體+零售方案，釋放資料潛力、推動智慧零售
2023-03-07
拼多多商品全流程自動化採集
2024-07-06
文件智慧：通用文件預訓練模型與資料集，推動NLP落地升級
2020-08-19
模型
景聯文科技人臉識別資料採集服務（二）——人臉欺詐相關資料
2023-03-08
曠視融資場景落地、依圖發晶片搞一體化，AI產業緣何"由軟變硬"？
2019-05-10
晶片AI產業
人臉識別——景聯文科技提供3D頭模資料採集業務！
2023-02-17
3D
幹線物流：自動駕駛商業化場景的新風口丨曼孚科技
2023-02-02
自動駕駛
Game AI SDK 開源釋出：基於影像的遊戲場景自動化框架
2020-09-14
GAMAI遊戲框架
資深技術貼：自動去光照，完美融入遊戲場景的黑科技
2021-01-27
遊戲
百度echarts 視窗自動識別寬度
2018-05-09
Echarts
鎂客·請講｜雲擴科技Silver Sun：以場景化解決方案+人人可用的RPA推動數字化落地
2022-05-09
數字孿生坦克作戰，科技推動戰場資訊資料化
2022-04-20
PDF版：曠視科技IPO招股書及簡要資料
2019-08-25
資料庫自動收縮造成的阻塞
2023-03-09
資料庫
室內場景資料集整理
2019-02-19
Game AI SDK開源版本釋出：基於影像的遊戲場景自動化框架
2020-09-14
GAMAI遊戲框架
音數協敖然釋出《超級數字場景源動力——遊戲科技與創新應用研究》報告
2023-12-15
遊戲
企業上雲的背後看新數科技如何推動資料庫創新?
2019-05-13
資料庫
iOS自動整合打包釋出
2018-03-23
iOS
BIM自動識別三維地圖-Revit模型自動識別三維地圖-IFC模型自動識別三維地圖製作
2022-04-14
地圖模型
Java資料型別自動轉換（++ ，+=）
2020-07-14
Java資料型別
API智慧識別平臺，API介面自動識別
2022-03-24
API
一件商品的奇妙之旅：資料驅動下的智慧零售
2022-05-04
助力AI技術場景化落地 | 資料標註
2023-02-03
AI
資料智慧應用加速落地，每日互動鞏固發展新動能
2021-06-03
人工智慧資料標註案例之人臉識別 | 景聯文科技
2023-01-06
人工智慧
江蘇省釋出大資料引領推動融合發展專項行動計劃
2018-06-27
大資料

曠視科技釋出最大商品識別資料集，推動新零售自動收銀場景落地

結論

相關文章