圖森未來開源:Mask R-CNN的完整MXNet復現

轉載發表於2017-10-26
當地時間 10 月 22 日,計算機視覺國際頂級會議 ICCV 2017 公佈了獲獎論文。Facebook AI 研究員何愷明獲得最佳論文獎,同時他也是最佳學生論文的作者之一。這篇文章是國內自動駕駛創業公司圖森未來對最佳論文《Mask R-CNN》的完整復現,並將其開源到了Github 上。

對於 CV 圈的小夥伴們來說,這兩天最大的新聞一定是何愷明大神在 ICCV 上拿下了雙 best paper 啦!在各種社交平臺上,大家紛紛表示「神就是神,非吾等凡人能比」,還有小夥伴直言「人家的 best paper 都快比我的 paper 多了」……

當然,大家的種種「自愧不如」,其實更多的是在表達對愷明大神的崇拜以及對最優秀的學術研究人員表達敬意。與此同時,很多從業者更關心的問題是:什麼時候能看到開原始碼?

圖森未來開源:Mask R-CNN的完整MXNet復現

圖森未來也由衷地恭喜愷明大神,並且為他所取得的成就而感到振奮。而且這一次,除了透過社交媒體平臺為愷明大神打 call 之外,圖森未來還做了一件實實在在的事情——完整復現何愷明大神的論文結果(Mask R-CNN 和 Feature Pyramid Network),並將對應程式碼開源給大家!這也是第一份能夠完整復現何愷明大神論文結果的開原始碼。

圖森未來開源:Mask R-CNN的完整MXNet復現

論文中用於例項分割的 Mask R-CNN 框架


Github 專案地址:https://github.com/TuSimple/mx-maskrcnn

MX Mask R-CNN

這是一份對 Mask R-CNN 的實現。該實現的 repository 主要是基於 Faster RCNN 的 mx-rcnn 實現。

圖森未來開源:Mask R-CNN的完整MXNet復現

主要結果

Cityscapes

圖森未來開源:Mask R-CNN的完整MXNet復現

  • 主幹: Resnet-50-FPN

COCO

馬上放出,請保持關注。

系統要求

我們是在以下配置上測試的程式碼:

  • Ubuntu 16.04, Python 2.7
  • numpy(1.12.1), cv2(2.4.9), PIL(4.3), matplotlib(2.1.0), cython(0.26.1), easydict

訓練準備

1. 下載 Cityscapes 資料 (gtFine_trainvaltest.zip, leftImg8bit_trainvaltest.zip). 提取到 'data/cityscape/'。資料夾如下:

圖森未來開源:Mask R-CNN的完整MXNet復現

2. 下載 Resnet-50 預訓練模型

bash scripts/download_res50.sh

3. 使用 ROIAlign 運算子構建MXNet

cp rcnn/CXX_OP/* incubator-mxnet/src/operator/

從原始碼建立 MXNet 請參考教程:

https://mxnet.incubator.apache.org/get_started/build_from_source.html

4. 構建相關 cython 程式碼

make

5. 開始訓練

bash scripts/train_alternate.sh

評估準備

1. 準備 Cityscapes 評估指令碼

bash scripts/download_cityscapescripts.sh

2. Eval

bash scripts/eval.sh

Demo

1. 模型可以從以下連結中下載,請將其放置在 model 資料夾內。

  • Dropbox 連結:https://www.dropbox.com/s/zidcbbt7apwg3z6/final-0000.params?dl=0
  • 百度雲連結:https://pan.baidu.com/s/1o8n4VMU

2. 請確認你已經把 cityscapes 資料放置在「data/cityscapes」資料夾中。

bash scripts/demo.sh

參考

Tianqi Chen, Mu Li, Yutian Li, Min Lin, Naiyan Wang, Minjie Wang, Tianjun Xiao, Bing Xu, Chiyuan Zhang, and Zheng Zhang. MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems. In Neural Information Processing Systems, Workshop on Machine Learning Systems, 2015

Ross Girshick. "Fast R-CNN." In Proceedings of the IEEE International Conference on Computer Vision, 2015.

Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. "Faster R-CNN: Towards real-time object detection with region proposal networks." In IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016.

Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. "Feature Pyramid Networks for Object Detection." In Computer Vision and Pattern Recognition, IEEE Conference on, 2017.

Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick. "Mask R-CNN." In Proceedings of the IEEE International Conference on Computer Vision, 2017.

Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev, Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. "Caffe: Convolutional architecture for fast feature embedding." In Proceedings of the ACM International Conference on Multimedia, 2014.

Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. "ImageNet: A large-scale hierarchical image database." In Computer Vision and Pattern Recognition, IEEE Conference on, 2009.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. "Deep Residual Learning for Image Recognition". In Computer Vision and Pattern Recognition, IEEE Conference on, 2016.

Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele. "The Cityscapes Dataset for Semantic Urban Scene Understanding." In Computer Vision and Pattern Recognition, IEEE Conference on, 2016.

相關文章