昨天於韓國首爾正式開幕的計算機視覺頂會 ICCV 2019 上,人工智慧平臺公司商湯科技展示了自己的科研實力:共有 57 篇論文被大會收錄,是本屆大會上全球論文接收最多的機構。
在計算機視覺(Computer Vision)這個人工智慧最為熱門的領域中,商湯正在成為領跑者。
大會期間,我們與商湯科技聯合創始人、香港中文大學-商湯聯合實驗室主任林達華教授進行了一番交流,他向我們介紹了商湯近期的研究進展,與國內外大學的合作,並對國內研究水平的發展趨勢進行了展望。
「本屆大會上,商湯科技提交的研究覆蓋計算機視覺和深度學習相關的幾乎所有主流方向,」林達華表示。「相關論文著力提升 CV 領域應用的核心技術,如物體檢測、識別、分類,三維視覺、視訊理解,和非監督學習等等。我們的論文不僅覆蓋商湯很多核心業務領域,也對很多新興方向有了探索。」
影響力第一
今年的 ICCV 共有 1075 篇論文,接受率低至 25%(其中包括 Oral 論文 200 篇)。商湯科技在 ICCV2019 上的成果展示了其強大的人才儲備和創新能力:共有 57 篇論文入選,其中口頭報告(Oral)論文 11 篇。相比於 ICCV 2017 的 20 篇,今年論文數量的增幅超過了 180%。
據商湯介紹,這些被接收的論文面向多個領域,其中包括目標檢測的深度網路基礎運算元、基於插值卷積的點雲處理主幹網路、面向 AR/VR 場景的人體感知與生成、面向全場景理解的多模態分析等。商湯表示,其中很多突破性的計算機視覺演算法有著豐富的應用場景,可為推動 AI 行業發展做出貢獻。
相比之下,谷歌和 DeepMind 今年在 ICCV 上也有 47 篇接收論文。據不完全統計,商湯科技是此次入選論文總數最多,入選 Oral 論文最多,獲得世界冠軍數量最多的企業。
商湯對於計算機視覺業界的影響力不僅體現在研究數量上,也已進入了本屆大會的方方面面。除了成為大會頂級贊助商,商湯還在 ICCV 上參與舉辦了第一屆深度統計學習研討會(The First Workshop on Statistical Deep Learning in Computer Vision)和第二屆計算機視覺中的服裝藝術與設計研討會(Second Workshop on Computer Vision for Fashion, Art and Design),香港中文大學-商湯聯合實驗室的周博磊教授參與組織了上千人的 Tutorial。商湯創始人、香港中文大學教授湯曉鷗,也受邀擔任了本屆 ICCV 主席。
13 項賽事奪冠
商湯在本屆大會諸多競賽中獲得了很好的成績,一舉斬獲 Open Images、COCO、LVIS 等 13 項重要競賽的世界冠軍。特別是 Open Images,它是目前通用物體檢測和例項分割兩個領域中資料量最大、資料分佈最複雜、最有挑戰性的競賽,比 COCO 資料大一個量級,標註更不規則,場景更復雜。
在 Google AI 主辦的 ICCV 2019 Open Images 比賽中,來自香港中文大學和商湯研究院的聯合團隊奪得了物體檢測和例項分割兩個主要賽道的冠軍。此次主辦方提供了千萬級別的例項框,涵蓋了 500 類結構性類別,其中包含大量漏標、類別混淆和長尾分佈等問題。
競賽中,得益於團隊提出的兩個全新技術:頭部空間解耦檢測器(Spatial Decoupling Head)和模型自動融合技術(Auto Ensemble)。前者可以令任意單模型在 COCO 和 Open Images 上提升 3~4 個點的 mAP,後者相對於樸素模型融合能提升 0.9mAP。最終,在提交次數顯著小於其他高名次隊伍下獲得了雙項冠軍的好成績。
在 ICCV 2019 COCO 目標檢測任務比賽中,來自香港中文大學-商湯科技聯合實驗室和南洋理工大學-商湯科技聯合實驗室的 MMDet 團隊獲得不使用外部資料集冠軍,這也是商湯連續三屆在 COCO Detection 專案中奪冠。
MMDet 團隊提出了兩種新的方法來提升演算法效能。針對於當前目標框定位不夠精確的缺陷,MMDet 團隊提出了一種解耦的邊緣感知的目標框定位演算法(Decoupled Boundary-Aware Localization <DBAL>),該方法專注於物體邊緣的資訊而非物體全域性的資訊,使用一種從粗略估計到精確定位的定位流程,在主流的物體檢測方法上取得了顯著的提升。
在 ICCV 2019 COCO 分割任務比賽中,商湯新加坡研究團隊(隊名:Innovation)獲得未使用外源資料冠軍。在本次比賽中,新加坡研究團隊深入探索了全景分割任務的獨特性質,並提出了多項創新演算法。
由於全景分割任務既涵蓋目標檢測又包含語義分割,往屆比賽隊伍大多分別提升目標檢測演算法與語義分割演算法。在比賽中,新加坡研究團隊打破慣例,探索了這兩項任務的互補性,提出了一種簡單高效的聯合訓練模型 Panoptic-HTC。該模型分別藉助 Panoptic-FPN 共享權重的特點與 Hybrid Task Cascade 聯合訓練的優勢,在特徵層面完成了兩項視覺任務的統一,從而同時在兩項任務上獲得顯著提升。
除了比賽成績,商湯在開放學術交流、生態發展方面做出了貢獻,由商湯及聯合實驗室研究團隊去年釋出的開源物體檢測框架 MMDetection,在今年各大比賽中被眾多參賽隊伍廣泛使用,Open Images、COCO、LVIS、Mapillary 等比賽中的多支獲獎隊伍都使用 MMDetection 作為基準程式碼庫,團隊去年提出的 HTC、Guided Anchoring 等方法成為了今年諸多隊伍的關鍵助力。目前 MMDetection 已收穫超過 7000 Stars,被業界廣泛應用,有效促進了目標檢測領域的應用和新方法研究發展。
林達華介紹,對於開源,商湯有著積極的態度。從 2018 年年中開始,香港中文大學-商湯科技聯合實驗室啟動 OpenMMLab 計劃,並首先開源了 MMDetection。相比於其它開源檢測庫,MMDetection 有多項重要優點,包括高度模組化設計、多種演算法框架支援、顯著提高訓練效率和密切同步最新演算法支援等。
今年六月,OpenMMLab 第二期釋出,多個重要更新吸引了業界目光:MMDetection(目標檢測庫)升級到 1.0,提供了一大批新的演算法實現,同時 MMAction(動作識別和檢測庫),MMSkeleton(基於骨骼關鍵點的動作識別庫),MMSR(超解析度演算法庫)全新發布。
引領潮流,推動學術合作
和很多頂尖科技公司一樣,已成為全球領先的人工智慧平臺公司的商湯源自於大學實驗室。2001 年,湯曉鷗教授創辦了香港中文大學多媒體實驗室(MMLab),它被譽為「計算機視覺界的黃埔軍校」。作為世界最強深度學習實驗室之一,MMLab 與 MIT、史丹佛、CMU、UC Berkeley 等大學的知名實驗室齊名,是亞洲唯一入選的世界十大人工智慧先鋒實驗室。
MMLab 是第一個致力於使用深度學習演算法解決計算機視覺問題的研究團隊。這可能要歸功於湯曉鷗在學術上敏銳嗅覺——他在 2011 年左右受到深度學習在語音等領域的進展的啟發,意識到深度學習在視覺上的潛力。自那時起,他就把深度學習確立為實驗室的重要研究方向。
早在 2012 年,MMLab 就將深度學習論文投向了 CVPR 並獲接收,這也是計算機視覺頂會上首次出現了深度學習研究。到了 2013 年,ICCV 有 8 篇論文關於深度學習,其中 6 篇來自於 MMLab。
而到了 2014 年,湯曉鷗等人在香港成立了商湯科技,專注於計算機視覺和深度學習原創技術的開發。
「商湯科技的初創也是基於實驗室多年來的學術積累。」林達華介紹道。「商湯創辦的契機,很大程度就是因為我們的演算法,在世界上首次在人臉識別任務上超過了人類水平,達到實用的紅線。」
這是 MMLab 在 2014 年做到的事情,這一研究《Surpassing Human-Level Face Verification Performance on LFW with GaussianFace》也成為了 AAAI 2015 大會的最佳學生論文。
2015 年 6 月,湯曉鷗團隊又發表了 DeepID2 演算法,將人臉識別準確率提升至 99.15%,新方法的提出代表人臉識別技術真正走向成熟,進而開啟了整個人臉識別行業的技術落地。
商湯和 MMLab 有著很深的歷史淵源:除湯曉鷗之外,王曉剛、林達華等 MMLab 教授也深入參與了商湯研發的指導,雙方建立了緊密的研究合作關係,完成了很多計算機視覺相關的創新性研究專案。
除港中文以外,商湯和北大、清華、中國科學院深圳先進技術研究院、上海交大、浙江大學、新加坡南洋理工大學等學校和學術機構建立聯合實驗室或開展廣泛的學識科研合作。
商湯一直在推動與全球高校、科研機構的研究合作:這不僅是在堅持原創技術的理念,也有對於探索新方向的思考。「在大學實驗室中,研究人員不需要面對公司盈利的壓力,」林達華表示。「這意味著他們會傾向於嘗試更加創新、更具冒險性的方法。在這樣的過程中我們可以開啟思路,往往能夠獲得更好的結果。」
在合作中,商湯與大學等科研機構形成了閉環:商湯在技術落地的過程中提煉出具有價值的問題,問題反饋到高校,而高校經常會提出和商湯內部不同的解決思路。最後,其成果可以促進商湯建立新的競爭力。
不僅如此,商湯科技還積極舉辦或贊助學術競賽,推動學術交流,除了 ICCV2019 上的研討會和 Tutorial,今年 10 月 16 日,世界頂級 AR 大會 ISMAR 首次在中國舉辦,商湯科技獨家贊助了專為 AR 應用設計的 SLAM 競賽,旨在較為全面地評估 SLAM 系統在 AR 應用下的效能。同樣在 10 月,商湯科技與聯合衡道病理、上海交通大學醫學院附屬瑞金醫院、西京醫院、上海市松江區中心醫院舉辦 MICCAI 2019 消化道病理影像檢測與分割國際挑戰賽。
林達華認為,商湯科技致力於與高校、師生、學界共同構建開放的學術研究交流平臺和人才培養的創新生態,這是商湯「堅持原創,讓 AI 引領人類進步」的源泉。
研究落地先於論文發表
對於商湯來說,部分創新研究從實驗室推出到業務上線僅需要幾個星期:在你手機的 App 裡用上新技術的時候,介紹它的論文甚至還沒在 AI 頂會上發表。
「對於我們來說,這個過程一般需要幾周到兩個月時間進行打磨——它的週期比人們想象得要短,」林達華介紹道。「很多在論文發表之前就已經落地了,比如 CVPR 的週期大概是 11 月投論文,第二年 6 月才會在大會上發表。在其中的大半年時間裡,很多研究的成果實際上已經落地了。」
不僅是新論文,資料競賽上的方法也是如此。商湯在 COCO 競賽上的奪冠的方案就已經使用在自動駕駛、視訊大資料等平臺中了。
在商湯,研究落地的過程是這樣的:在新的演算法提出之後,參與研究的同學可以以實習生的身份參與商湯的工作,將自己提出的演算法投入實踐,並在真實環境中進一步打磨,最終將其工程化。
以港中文 MMLab 的一些工作為例,僅在視訊理解方向,目前就已經產生了數十篇 ICCV、CVPR 的論文,這些工作很多已在商湯視訊大資料平臺上落地,提升了視訊理解應用的能力。在視訊中識別人物,對於視訊中人物動作的理解,高效率的物體識別等工作,都來自於商湯與大學合作研究的貢獻。
其中最有代表性的可能是 ECCV 2016 大會上提出的時序分段網路《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》,目前這篇論文已經擁有超過千次引用量,成為了頗具影響力的工作,它也是商湯內部視訊分析技術的核心框架。
此外,在 MMLab 中科研人員提出的超解析度演算法、醫療影像識別技術、大規模訓練技術都已完成落地。
未來發展
昨天開幕的 ICCV 2019 上,我們見證了國內計算機視覺研究的發展速度:來自國內的接收論文數量高達 350 篇,數量超過美國,已經成為全球第一。在計算機視覺領域裡,中國正在呈現趕超之勢。
「國內的資料和應用場景,是計算機視覺技術領先的重要原因,」林達華表示。「在中國,技術發展和應用落地的結合非常緊密,在實踐中產生的大量問題需要通過創新來得到解決,經常帶來研究上的重要進展。」
但在底層基礎演算法上,國內還沒有引領國際潮流。林達華認為,現在越來越多的學者正在進入基礎研究的層面:「相信隨著國內研究水平的發展,未來中國的 AI 科研會有長足的進步,我們將會看到更多國內學者提出具有原創性的成果,取得新的突破。這有很可能是未來即將發生的事情。」
人工智慧發展最為關鍵的就是人才,商湯自 2017 年起面向國內一流高校頂尖人才設立了獎學金,旨在發掘、鼓勵和培養國內人工智慧領域最具潛質的高年級本科生。
商湯還第一個將人工智慧推廣到中小學教育當中。2018 年 4 月,商湯科技商湯科技聯合商務印書館、華東師範大學、上海知名高中優秀教師編寫出版了全球首部面向高中生的人工智慧教材——《人工智慧基礎(高中版)》。2019 年 5 月,商湯再次釋出面向初中生的《人工智慧入門》。
目前,商湯 AI 基礎教育已推廣至青島、上海、北京、深圳、香港、澳門等 12 個城市,300 多所學校。
在未來,AI 將會像水電煤等基礎能源一樣,成為各個行業的基礎。對於每一個人來說,不論未來選擇何種專業,具備一定的 AI 素養、掌握一定的 AI 知識、學會如何有效應用相關 AI 技術,都可以對自己的職業生涯產生幫助。