港中文開源影片動作分析庫MMAction,目標檢測庫演算法大更新

機器之心發表於2019-06-20
昨日,香港中文大學多媒體實驗室(MMLab)OpenMMLab 釋出動作識別和檢測庫 MMAction,同時也對去年釋出的目標檢測工具箱 mmdetection 進行了升級,提供了一大批新的演算法實現。

OpenMMLab 計劃是香港中文大學多媒體實驗室(MMLab)2018 年啟動的計劃,由香港中文大學教授、商湯科技聯合創始人林達華老師負責,初衷是「為計算機視覺的一些重要方向建立統一而開放的程式碼庫,並不斷把新的演算法沉澱其中。」

2018 年 10 月,在 OpenMMLab 的首期計劃中,商湯和港中文正式開源了 mmdetection,這是一個基於 PyTorch 的開源目標檢測工具包。該工具包支援 Mask RCNN 等多種流行的檢測框架,讀者可在 PyTorch 環境下測試不同的預訓練模型及訓練新的檢測分割模型。

昨日,林達華發表知乎文章,釋出 OpenMMLab 第二期內容: 

  1. MMDetection(目標檢測庫)升級到 1.0,提供了一大批新的演算法實現。

  2. MMAction(動作識別和檢測庫)全新發布。

MMDetection 1.0

Github 地址:open-mmlab/mmdetectiongithub.com 

最新的 MMDetection 是 MMLab 聯合商湯科技以及十多個研究團隊合作完成的。據介紹,相較於其他開源資料庫,MMDetection 1.0 的優勢如下:

  1. 高度模組化的設計。透過不同檢測演算法流程的分解,形成一系列可定製的模組。然後對這些模組進行隨機組合,可以迅速搭建不同的檢測框架。

  2. 多種演算法框架支援。MMDetection 直接支援多種主流的目標檢測與例項分割的演算法框架,包括 single-stage、two-stage、multi-stage 等多種典型架構,以及各種新型模組。此外,MMDetection 還提供了 200 多個預訓練的模型。

  3. 高計算效能。MMDetection 所支援的主要模組均能在 GPU 上執行。整體的訓練速度優於 Detectron、maskrcnn-benchmark、以及 SimpleDet。特別值得一提的是,MMDetection 還直接支援混合精度訓練以及多卡聯合訓練,這些技術的引入都能顯著提高訓練的效率。

  4. 先進演算法。MMDetection 提供了在 MSCOCO 2018 比賽中奪冠的 HTC 演算法。隨著越來越多研究團隊加入到 mmdetection 的開發中,MMLab 研究團隊將持續保持和最新演算法的同步。

此外,MMLab 也釋出了一份技術報告,對 MMDetection 進行了詳細介紹。

港中文開源影片動作分析庫MMAction,目標檢測庫演算法大更新

從機構名稱中,我們可以發現 MMDetection 的釋出聯合了國內外 13 所機構。

報告連結:https://arxiv.org/abs/1901.11356

該報告還提供了 MMDetection 與其他開源庫的對比,可以看到 MMDetection 提供的演算法遠比其他開源庫豐富:

港中文開源影片動作分析庫MMAction,目標檢測庫演算法大更新

MMDetection 與其他開源庫的對比

MMLab 的研究團隊還在 MMDetection 的基礎上對相關演算法進行了全方位的對比試驗。他們比較了損失函式、歸一化策略、訓練尺度等一系列設計引數的選擇對於檢測效能的影響。

影片動作分析庫 MMAction

林達華介紹道,「在深度學習剛剛開始進入計算機視覺領域的時候,MMLab 已經開始了對使用深度學習進行影片動作分析的研究,提出了一系列有影響的演算法框架。比如,我們在 ECCV 2016 提出的時序分段網路(Temporal Segmental Network)已經被廣泛運用於實際系統中,並影響了很多新的演算法設計。」

基於過去幾年的探索,MMLab 建立了專門用於影片動作分析的統一程式碼庫 MMAction。

專案地址:https://github.com/open-mmlab/mmaction

據介紹,MMAction 有以下重要優點:

  1. 全面支援影片動作分析的各種任務,包括動作識別(action recognition)、時域動作檢測(temporal action detection)以及時空動作檢測(spatial-temporal action detection)。

  2. 支援多種流行的資料集,包括 Kinetics、THUMOS、UCF101、ActivityNet、Something-Something、以及 AVA 等。

  3. 已實現多種動作分析演算法框架,包括 TSN、I3D、SSN、以及新的 spatial-temporal action detection 方法。MMAction 還透過 Model Zoo 提供了多個預訓練模型,以及它們在不同資料集上的效能指標。

  4. 採用高度模組化設計。使用者可以根據需要對不同模組,比如 backbone 網路、取樣方案等等進行靈活重組,以滿足不同的應用需要。

林達華知乎文章:https://zhuanlan.zhihu.com/p/69830582

相關文章