IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

dicksonjyl560101發表於2019-12-04

近日,Lifelong Robotic Vision 挑戰賽在澳門 IROS 2019 大會上成功舉辦。本次競賽吸引到共 150 個參賽隊,實際提交 40 個有效成績。

多位機器人領域大咖來到現場進行特邀報告和圓桌討論,包括:義大利技術研究院科學主任 Giorgio Metta 教授、漢堡大學張建偉教授、浙江大學章國鋒教授等知名學者,演講主題從 Lifelong Learning 演算法到 SLAM 均有涉獵;同時,決賽入圍團隊——海康威視、新加坡南洋理工大學、香港中文大學等也在現場向大家分享了賽事演算法報告,雷鋒網 AI 開發者將賽事內容及冠軍方案整理如下。

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

大賽背景

IEEE 智慧機器人與系統國際會議(IROS)是智慧機器人與自動化領域的兩個頂級國際會議之一,而 IROS 2019 則是 IROS 成功舉辦的第 32 屆會議,由全球最大的非營利性專業技術學會 IEEE、IEEE 機器人與自動化學會、IEEE 工業電子學會、日本機器人學會、儀器與控制工程師學會以及新技術基金會聯合贊助。

大會期間,約 4000 名來自世界各地的機器人、自動化系統及人工智慧等領域的領軍人物、頂尖研究團隊代表及企業界人士齊聚澳門,共同探索智慧機器人與系統領域的前沿科技,並分享並討論相關領域的最新進展。

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

IROS 2019 包括了主題演講、技術報告、研討會、競賽、論壇和展覽等多個部分。其中,終生機器視覺資料集全球挑戰賽則屬於 IROS 2019 競賽環節,其中 Lifelong/Continual Learning for Object Recognition 是其中一個 Channel 的比賽。

解讀 Lifelong/Continual Learning

本次挑戰賽將目光聚焦於機器視覺前沿領域,旨在透過比賽探索,賦予 AI 終生學習能力。其中,終生學習能力於人類而言,則是持續從環境和經驗中學習知識和技能;於機器人而言,則是以適應變化的環境和任務終生學習能力 ;而於計算機視覺,則需要從預先建好的資料集中一次性學習。三者關係如下圖所示:

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

一、機器人視覺面臨的挑戰

近年來,計算機視覺領域發展迅速,與此同時大規模資料集如 ImageNet、COCO 等的進展使得基於深度學習的計算機視覺技術在精準度和實用效能方面得到顯著提高。

目前基於大量資料集的物體檢測,分割和識別的計算機視覺應用也在人臉識別、智慧家居、輔助工業製造等領域做出了突出貢獻。然而機器人視覺對於視覺演算法的開發和落地提出了新的挑戰。

通常情況下,基於深度學習的計算機視覺演算法需要資料符合獨立同分布 (i.i.d) 的假設,也意味著需要訓練資料的任務單一化、樣本分佈同質化、難度統一化。

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

但是在機器人真實應用場景中,隨著時間推移,通常呈現出任務多樣性、樣本分佈差異大、難度多變性等特徵。因此在機器人視覺應用場景中,智慧體需要採取連續/終生學習 (continual/lifelong leanring) 的策略去使用環境等因素的改變。

二、終身學習突破關鍵

目前,終生學習主要面臨兩大挑戰:

  • 第一是 災難性遺忘 (catastropic forgetting),由此誕生了著名的穩定性-可塑性定理 (stability-plasticity dilemma)。該定理指出,一個完備穩定的模型可以保證系統學習到的舊知識不被忘記,但無法學習新知識;而一個完全可塑的模型可以充分適應新的知識領域,但是會忘卻舊的知識。

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

基於深度學習的 Lifelong/Continual Learning 演算法對比

  • 第二是 概念漂移 (concept drift),主要是智慧體所接觸到資料型別不同於傳統的靜態資料 (static data),而是一種體量大、實時性強的流資料 (data stream)。常見的動態流資料則是不獨立同分布的,隨著時間的推移,智慧體需要漸進地適應不同分佈的流式資料。

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

不同型別的概念漂移( 圖片來源於 Block-based and Online Ensembles for Concept-drifting Data Streams, 2015. Ph.D. Thesis from Dariusz Brzeziński)

  • 第三則是 模型能夠自適應地改變其複雜度,由於機器人獲取的資料在動態變化,無法提前獲取所有的外界資料訊號 (例如機器人每天接觸感知的人、物體和周圍環境都在變化),所以最終運用的模型必須具備複雜度自適應可變的特點。加之概念漂移的問題,我們常常需要增加模型的複雜度來處理不同分佈的資料。

資料集

一、資料集採集

OpenLORIS-Object 資料集由若干個地面機器人模擬人類視覺採集而成,採集地點為平時活動的辦公室和家庭環境,攝影部分由 Intel RealSense D435i 和 T265 組成。

在不同光照、遮擋、物體大小、相機-物件距離/角度、雜亂程度,以及不同的場景資訊下,機器人主動記錄目標物件的影片。資料集記錄了機器人在拍攝過程中通常會面臨的不同環境挑戰,比如:

  • 光照 在實際應用中,照明會隨時間變化很大,例如晝夜差異。我們的資料集主要是從正常的日光收集的,包括弱光,正常光和強光,每個佔每個場景下物體的 10%。隨著燈光變弱,分類任務變得更具挑戰性。

  • 遮擋 當一個物件的一部分被一個或多個物件隱藏,或者在視場中僅顯示該物件的一部分時會產生遮擋現象。由於可能隱藏了物件的獨特特徵,因此遮擋使分類任務更具挑戰性。

     IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

  • 物體大小 小物體或者細長的物體,如干電池或膠棒,會使分類任務更具挑戰性。

  • 相機-物件角度/距離 攝像機的角度會影響從物件檢測到的屬性,距離會影響目標物體的大小。

  • 雜亂程度 是指在考慮的物件附近存在其他物件。同時存在多個物件可能會干擾分類任務。

  • 場景資訊 環境資訊是學習過程中的另一個因素,例如在廚房的場景下可以提高刀、炊具等物體的識別能力。先前的大多數研究都忽略了場景資訊對於上下文識別的重要性。

技術細節和資料集可參考:

Qi She et al.,「OpenLORIS-Object: A Dataset and Benchmark towards Lifelong Object Recognition」,   

二、資料集描述

為了使物體分類任務與日常生活場景相結合,資料在多個生活場景下采集,比如客廳、廚房、臥室等,物體的放置也考慮日常生活場景,被放置在桌面、地面、牆面、床上等。

已釋出的的資料集由 69 種物體組成,包含 7 個場景下的 19 類日常必需品。每種物體被記錄為 17 秒(每秒 30 幀)的影片(即共 500 幀 RGB-D 影像),由 4 個環境影響因素(包含光照,遮擋程度,目標物件的畫素大小,雜亂程度),每個因素由 3 種等級控制分類任務的實現難度。見下圖(基於環境影響因素,每種物體共有 12 個子類):

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

每個等級下的每種物體對應了 260 個樣本。即:對於每種物體,總共有 3120 個樣本。因此資料集共包含了: 260(樣本數/種物體例項) * 69(物體例項) * 4(環境影響因素/個等級) * 3(難度等級)=215,280 個樣本。

資料集概況及下載地址:

      

三、資料集的視覺化

執行物體分類任務時呈現時序一致性可提供影像資訊在時間上的平滑度,從而簡化目標識別的過程,改善分類準確性,更好地解決半監督(或無監督)場景。下圖為隨機選取的資料樣本:

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

示例中的每列圖片為目標物件所處的不同雜亂環境(從第一行到第三行分別展示簡單,正常和複雜的雜亂場景),遮擋程度(0%,25%,50%),畫素大小(<30*30,30*30−200*200,>200*200),以及光照程度(弱光,正常光,強光)。

比賽評比標準

比賽中,參賽選手不僅要考慮連續學習情境下物體識別的準確度,更要兼顧模型的大小、模型對資料量的依賴性、模型部署中的預測速度等效能。

除此之外,參賽選手還需對更具有挑戰性的測試集進行採集,包括:更多物體姿態角度、光照環境和更加複雜的背景資訊。具體的模型評分標準如下所示:

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

在決賽的資料集中,測試集有 21520 個樣本,驗證集有 21520 個樣本,訓練集有 172200 個樣本,賽方根據不同的影響因素隨機打亂資料集。

資料集被分為 12 個批次,每個批次的樣本來自一個子類,總共有 12 個子類,即:4(環境影響因素/等級) * 3(難度等級),包含 7 個生活場景下的 69 種物體。下圖為每個批次下不同影響因素的概覽:

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

Lifelong Object Recognition 優勝方案模型展示

來自海康威視的 HIKVISION 團隊榮獲 Lifelong Robotic Vision Competition 冠軍,該方案採取知識蒸餾 (knowledge distillation) 和網路擴充套件 (network expand) 的方式來緩解災難性遺忘。

該方法會計算對於每一次增量任務與先前學習任務的領域差異 (domain gap) 來判斷任務相似性,對於相似性大的任務採用知識蒸餾方案在學習新任務的同時記住舊任務的特徵,相似小的任務採用網路結構擴充來學習新任務。其方案模型如下圖所示:

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

基於知識蒸餾與網路擴充套件方案

來自 University of Bologna 的 unibo 團隊提出了隱層結構回放 (latent rehearsal) 模型,該模型獲得綜合評分第二名的成績。

不同於其他方案針對原資料樣本進行重取樣,該方法對舊樣本的隱層資訊進行重取樣。實驗證明該方案可以在確保高準確率的同時,減少記憶體使用和計算量。目前該方案可以部署在移動端裝置進行訓練。


 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

基於隱層結構回放模型方案

此外,來自韓國電子通訊研究院 (ETRI) 的 HYDRA-DI-ETRI 團隊提出了選擇性特徵學習 (selective feature learning) 方案去減少噪聲物體對目標物體的干擾。該隊伍在口頭報告中得到最高分。

由於在真實的機器人視覺識別任務中,目標物體的周圍環境趨向於雜亂無規律,存在較多的噪聲物體,這可能會對識別的準確率產生影響。該團隊採用 Single Shot MultiBox Detector (SSD) 去對選擇出第一個任務的資料集中的目標物體,後再進行連續的物體識別任務。

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

基於選擇性特徵學習方案

AI 計算機視覺的持續學習探討

為了進一步推廣 Lifelong Robotic Vision 專案,吸引更多的學術工業界的研究開發人員,英特爾中國研究院作為主辦方之一 在 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020 舉辦了「Continual Learning in Computer Vision Workshop」。

該 workshop(研討會)主要探究計算機視覺問題中的 Continul Learning 的能力。在計算機視覺系統中,如何在多個連續任務中保證演算法的穩定性,如何有效的克服神經網路中災難性遺忘的問題,如何進行知識在不同任務中的遷移,以及如何在硬體受限情況下最佳化 Continual Learning 的綜合表現。

 IROS 2019 機器視覺全球挑戰賽:賦予 AI 終生學習能力(附冠軍演算法模型)

研討會主要分為研討會文章收錄,現場專家報告,Continual learning in Computer Vision 挑戰賽。目前確認 9 位專家會在現場進行口頭報告討論 Continual Learning 在計算機視覺中的研究前景以及潛力,包括:Google Deepmind 研究科學家 Razvan Pascanu、Facebook AI Research 研究科學家 Marc’Aurelio Ranzato、INRIA 研究總監 Cordelia Schmid等。

研討會主要關注 Continual Learning 的話題,目前已開放公眾提交平臺,錄用的文章將加入 CVPR 2020 workshop 的文集,

更多提交詳情可檢視:

 

Lifelong Robotic Vision Github 詳情:

 





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2666776/,如需轉載,請註明出處,否則將追究法律責任。

相關文章