曠視聯合智源釋出全球最大物體檢測資料集Objects365,舉辦CVPR DIW2019挑戰賽

机器之心發表於2019-04-20

北京智源人工智慧研究院(簡稱「智源研究院」)是在科技部和北京市委市政府的指導和支援下,由北京市科委和海淀區政府推動成立,依託北京大學、清華大學、中國科學院、百度小米、位元組跳動、美團點評、曠視 MEGVII 等北京人工智慧領域優勢單位共建的新型研發機構

引進培育高階人才、共建聯合實驗室、建設人工智慧社群、加強產學研合作,是智源研究院的主要四項任務。

智源研究院聯合曠視,

成立智慧模型設計與影象感知聯合實驗室

智源聯合實驗室分為兩類,分別是與高校院所共建、與優勢企業共建。在聯合實驗室的建設上,智源研究院遵循「成熟一個、啟動一個」的原則,擇優支援共建,最多可連續支援三年。

「北京智源-曠視智慧模型設計與影象感知聯合實驗室」已通過立項論證,成為北京智源聯合實驗室首個成功落地的專案,擬由曠視首席科學家、曠視研究院院長孫劍任實驗室主任,資深研究員周舒暢任實驗室副主任。

曠視聯合智源釋出全球最大物體檢測資料集Objects365,舉辦CVPR DIW2019挑戰賽

曠視首席科學家、曠視研究院院長孫劍

孫劍表示,成立這個實驗室,既有國家戰略層面的考慮,也是為了解決行業痛點。

2017 年 7 月,國務院釋出《新一代人工智慧發展規劃》,人工智慧上升為國家戰略。建立開源開放的人工智慧開放創新平臺,服務企業應用技術開發成為當前該領域的難點。

國家也希望龍頭企業,通過打造人工智慧開源開放創新平臺,調動產學研,社會各類創新創業主體參與共同打造我國自主智慧財產權的產業生態,提升國際影響力,促進行業整體發展。

而北京市是第一個國家新一代人工智慧創新發展試驗區,因此希望充分調動北京技術、人才方面優勢,通過組織機制創新,通過創新舉措,依託龍頭行業牽引進行多主體協同創新,打造我國乃至全球技術高地。

現在確實有大量的高校、研究院所、創新創業人員和行業客戶,想參與到人工智慧創新中,但苦於沒有資料,算力或演算法等資源,無法施展。

因此,曠視與智源研究院通過聯手打造資料集和建設聯合實驗室,推動整個行業協同創新發展,建設共性技術開放創新平臺,構建自主可控產業生態,突破人工智慧重大核心共性關鍵技術,推動行業全面演進。

全球最大的物體檢測資料集 Objects365 釋出

會上,曠視研究院聯合北京智源人工智慧研究院釋出了全球最大的物體監測資料集 Objects365。

 曠視聯合智源釋出全球最大物體檢測資料集Objects365,舉辦CVPR DIW2019挑戰賽

Objects365 樣例

「我們的目的是打造世界上最大規模的通用物體資料檢測集,做到規模大、質量高、泛化能力強。」

孫劍介紹,「我們第一批定義在生活中最常見的 365 個類別,比如,室內常見的椅子、桌子、茶杯、瓶子都包含在這個類別中。第一階段,我們已經標註了超過 60 萬張這樣的圖片,其中這些標註框已經超過了 1000 萬。」

這個資料集有多大?孫劍微軟 2014 年建立的大規模影象物體檢測資料集 COCO 作為參照物,將二者進行了對比,「COCO 是目前最大的、全標註資料集,訓練資料大概 12 萬,總共資料大概不超過 20 萬,其中還有很多資料沒有標。我們(Objects365)第一期開放(的)圖片數是 COCO 的 5 倍,標註框超過 COCO 的 11 倍。」

曠視聯合智源釋出全球最大物體檢測資料集Objects365,舉辦CVPR DIW2019挑戰賽

「我們的目標是,三年內,這個資料集達到 200 萬張圖片,2400 萬個標註框。」孫劍說。

演算法優化的上限嚴重依賴於基準資料集術的質量。為保證標註質量,在打造 Objects365 時,曠視設計出一套科學而嚴格的標註流程,每一張圖片的背後至少會經過 9 名標註工人之手。

此外,作為一個優秀的預訓練資料集,Objects365 預訓練模型在使用過程中,可以輕鬆超越現有演算法的精度,顯著加速收斂過程,表現出極強的泛化能力。在執行 COCO、VOO Det、CityPersons 等檢測任務時,在 VOC Seg 和 ADE 等分割任務上均有顯著提升。

如何共建聯合實驗室?

「一個平臺、四個突破點」

「北京智源-曠視智慧模型設計與影象感知聯合實驗室 將圍繞『一個平臺、四個突破點』進行建設。」孫劍介紹道。

「一個平臺」是指,建設一體化的資料共享、模型設計和場景測試的開放創新平臺。

「四個突破點」是指,在資料方向、模型方向、真實資料測試方向和模型部署方向做技術突破,推進大資料背景下模型架構設計、優化和部署等方面的研究。

深度學習成不成功,很大程度上取決於資料,很多靠演算法帶來的提升遠低於一個高質量的資料(集)所能帶來的提升。」孫劍說。

除了最新發布的 Objects365,曠視此前還發布了大規模擁擠場景人體檢測資料集 CrowdHuman 及一些資料標註工具。

實驗室將立足曠視演算法落地場景豐富、資料積累深厚的優勢,以開源資料集、預抽取特徵等形式,持續開放通用物體分類、物體檢測追蹤、人像人形識別屬性等視覺問題資料,助力相關領域研究。

針對高搜尋效率、高準確率、高靈活性等關鍵指標,該實驗室還將開展支援大計算量模型的新神經網路架構搜尋演算法(NAS)研究,構建一站式深度模型自動化設計平臺等工作。

該平臺包括面向特定問題的自動化深度模型設計工具、自動化資料篩選/資料增強工具、自動化深度學習模型優化工具,從而在 Object365 上實現自動訓練比純人工調優精度超過至少一個百分點,消耗卡時不超過三倍的目標。

實驗室還將開放眾多預訓練模型,包括 ResNet、ShuffleNet 這樣的基礎模型以及 Faster RCNN、Mask RCNN、SSD 檢測模型。

近年來,模型架構搜尋(NAS)成為了 AI 領域的熱門研究方向。

不久前,曠視首次披露了 NAS 新成果:單路徑 One-Shot 模型。這是一個簡單靈活的通用模型搜尋框架,支援構建塊(building block)、通道(channel)和混合精度(mixed-precision)多搜尋空間聯合搜尋;支援任意直接度量方法做硬約束(hard constraint),從而滿足實際業務要求。據介紹,同等情況下,單路徑 One-Shot NAS 的搜尋精度和速度均超過目前公開的 FBNet、ProxylessNAS 等 SOTA 框架。

「很多時候,我們把一個技術(演算法)落地,真的是不是能在實際資料中做得很好,其實不知道的。實際資料中有一些是非公開資料,不能到真正的場景中去測;另外一些資料涉及到隱私,需要脫敏。」孫劍說,聯合實驗室的計劃是,提供一個實戰場景開發和測試環境,大家上交模型,在這個環境中進行測試。

聯合實驗室將建設人臉抓拍識別、結構化檢測、大規模人像比對等驗證場景,提供自動分析報告服務,為研究演算法調優提供環境。他們還將積極探索低位寬等網路壓縮技術,研發高效硬體部署方案,推動模型研究成果迅速投入實用。

針對計算機視覺演算法與真實場景適配的問題,實驗室還將建設可重現的實景測試環境,並提供自動化的量化錯誤分析報告,幫助演算法迭代。

「通過以上措施,實驗室將被打造成為一個開放、貼近實際場景的計算機視覺演算法研究實驗平臺,形成涵蓋資料、平臺、場景的完整閉環,有利於打造我國自主可控的技術和產業生態,共同助力我國影象感知和計算領域的技術及應用達到國際先進水平。」孫劍表示,實驗室平臺建成後,將面向高校院所、創業企業等創新創業主體開放,致力推動影象感知與計算領域的協同創新。

DIW2019 挑戰賽啟動,

3 個賽道冠軍將各獲 1 萬美金獎勵

「我們的目標是建設開源社群、打造產業生態。」孫劍說。

除了開放預訓練模型,開源資料標註、模型分析、模型自動調優等全套相關工具,他們還將提供實驗例程、開源完整的訓練程式碼庫,支援高校本科及研究生教學,每年培訓學生人數不少於 500 人;每年還會組織圍繞平臺的國際比賽。

今年,曠視聯合智源研究院舉辦 Detection In the Wild 2019(DIW 2019)挑戰賽。

孫劍介紹,DIW 2019 挑戰賽是基於 2019 年 CVPR 的 workshop(研討會),為了推動目標檢測技術的發展而設計的,可以改善現有目標檢測資料集的類別覆蓋不全,標註精度不高,密集場景缺少等問題。

DIW 2019 挑戰賽共有三個賽道:

  1. Objects365 賽道:選手利用公開的 365 種類別,60 萬張圖片超過 1000 萬個框的完整訓練集對檢測模型進行訓練;在 3 萬張圖片構成的驗證集上除錯演算法,並在 10 萬張圖片構成的測試集上進行最終挑戰。

  2. Objects365 小賽道:從 Objects365 資料集中挑選出 65 個類別,選手可以用 1 萬張圖片進行模型訓練。

  3. CrowdHuman 賽道:為了解決現實生活中的遮擋問題,其演算法的提升將會推動人體檢測演算法落地。屆時,選手將基於專門為了密集場景人體檢測設計的 CrowdHuman 資料集進行訓練,資料集包含有豐富標註資訊和多種場景。

挑戰賽已於釋出會當天啟動;5 月 10 日,將開放測試集;6 月 12 日,結果提交截止;最終結果將在 6 月 17 日(美國當地時間)公佈。每個賽道的冠軍將獲得 1 萬美金獎勵,優勝隊伍將被邀請至 CVPR 的研討會上做經驗分享。

「智源學者計劃」啟動,

每人每年至少可獲 50 萬支援

釋出會當天,智源研究院還啟動了「智源學者計劃」。

「『智源學者計劃』的目標,就是要找到最好的人,給他自由支配的經費,提供他需要的資源,支援開展人工智慧領域特定方向上的重大基礎問題研究,或者開展前沿問題的自由探索。」黃鐵軍院長說。

「智源學者計劃」將依託北京大學、清華大學、中科院等優勢高校院所,以及曠視等骨幹企業研究院,對智源科學家首席(CS)、智源研究專案經理(PM)、智源研究員(PI)和智源青年科學家(38 歲以下)四類人才進行重點支援。

經過提名、初評、審議等流程,已經遴選出首批智源學者候選人,共 21 人,並即將啟動公示程式。

據悉,首批青年科學家推選工作開展以來,清華、北京各單位專家共計推選了 54 名候選人,參加答辯 42 人,經專家評審,最終選出了 9 名。年級最輕的一位僅 28 歲,是曠視研究院模型研究組負責人張祥雨博士。


在官網上進行一個月公示後,若無意外,智源研究院將與他們簽訂聘任協議。

屆時,智源研究院將直接向他們支付費用,不用走單位的人事體制。黃院長說,「我們看重他是一個有潛力的人,我們就直接給他,大概就是不低於 50 萬的每年的支援力度(每個人)。」

這些智源學者不需要在智源研究院辦公,還在原單位繼續從事學術研究, 成果也全部屬於其所在單位,「研究院不擁有也不期望去獲得任何智慧財產權」,「因為他做的是人工智慧,是符合國家的戰略方向,是符合北京市的方向,所以我們給他支援。」黃院長說。

此外,這些智源學者在科研工作中所需要的經費,也會獲得研究院支援。黃院長表示,只要不用到違規,怎麼用,完全由自己決定。

黃院長還表示,智源學者的申報不是每年只有一次,而是不分批次,只要是符合要求的人才,通過申報程式,可以隨時進入研究院支援的範圍。

曠視聯合智源釋出全球最大物體檢測資料集Objects365,舉辦CVPR DIW2019挑戰賽

今年,智源研究院將計劃遴選智源學者 100 人,大概覆蓋 5 到 7 個重大方向,其中,青年科學家 30-50 人。2020 年和 2021 年再分別增加 100 人,智源學者總體規模保持在 300 人左右。

  • DIW 2019 挑戰賽網址:https://www.objects365.org/workshop2019.html

  • 北京智源人工智慧研究院官網:https://www.baai.ac.cn/search

相關文章