機器之心原創
作者:張倩
商湯的「既要…… 又要…… 還要……」
6 月 19 日,CVPR 2021 線上上拉開帷幕。作為計算機視覺三大頂會之一,本屆 CVPR 大會一共接收了 7039 篇有效投稿,最終有1366 篇被接收為poster,295篇被接收為oral,接收率大概為 23.6%。
在前段時間公佈的最佳論文候選名單中,我們發現,華人一作論文佔據了半壁江山(16/32)。當然,這一現象並非偶然。其實,早在九年前,華人學者就已經憑藉其創新精神在國際 CV 頂會上大放異彩,比如香港中文大學的湯曉鷗團隊:2012 年 CVPR 大會僅有的兩篇深度學習文章均出自其實驗室。2011—2013 年間,該實驗室又在 ICCV 和 CVPR 上發表了 14 篇深度學習論文,佔據全世界在這兩個會議上深度學習論文總數(29 篇)的近一半。
2014 年,湯曉鷗等人創辦了商湯科技,這種創新精神也被刻入商湯的基因並延續至今。
在今年的 CVPR 大會上,商湯共有 66 篇論文被接收,遠高於業界平均水平。此外,在同期舉辦的挑戰賽中,商湯 - 南洋理工聯合實驗室(S-Lab)團隊一舉斬獲 CVPR 2021 NTIRE 影片理解挑戰賽三項冠軍,包括影片超解析度、重度壓縮影片質量增強(固定量化引數,保真度)和重度壓縮影片質量增強(固定位元率,保真度)賽道。商湯研究院團隊則摘得 CVPR 2021 ActivityNet 時序動作檢測任務弱監督學習賽道冠軍。
AI 領域發展到今天,如何保持創新活力、加快產業落地是所有企業面臨的共同問題。在這一點上,商湯的態度是明確的「既要…… 又要…… 還要……」,即既要保持技術創新的領先,又要加快產業落地,同時還要建設面向整個生態、整個社群的 AI 基礎設施,推動 AI 進入工業化發展階段。
從今年的 CVPR 和商湯最近的一些動向中,我們可以看出這家公司為實現上述願景所做的努力。在這篇文章中,我們就來聊聊這一話題。
技術創新不能落下
對於商湯今年在 CVPR 中取得的成績,該公司聯合創始人、香港中文大學 - 商湯科技聯合實驗室主任林達華評價說,「對商湯來說,AI 的研究和創新是刻在基因裡的。從公司建立的第一天開始,甚至在建立之前,我們的創始團隊就一直把 AI 的基礎研究作為持續追求的理想。所以,儘管商湯的整個發展經歷了很多階段,我們也把 AI 落地到了越來越多的產業中去,但我們始終沒有忘記,整個 AI 產業發展的最初原動力來自於技術的突破和創新。」
商湯的這種理念在歷年 AI 頂會中得到了很好的體現,今年的 CVPR 也不例外。從研究方向來看,該公司今年入選的論文分佈在多個領域,包括長尾目標檢測、軌跡預測、3D 點雲補全、3D 場景重建、鐳射雷達 3D 目標檢測等,其中的 3D 點雲補全、3D 場景重建等相關論文還被收錄為 Oral 論文。
3D 點雲是 3D 場景和目標的一種直觀表示。然而,由於遮擋等問題的存在,掃描得到的 3D 點雲通常是不完整的。因此,利用不完整的點雲預測目標的完整 3D 形狀成為一個重要問題。但是,現有的點雲補全方法傾向於生成全域性形狀骨架,缺乏區域性細節。而且,它們大多會學習一個確定性的部分到整體的對映,忽視人造物體中的結構關係。
商湯的研究者認為,點雲補全應從殘缺點雲中學習關係性結構屬性來恢復可信且高質量的完整點雲形狀。為了實現這一點,他們在論文中提出了一個兩階段的網路:首先對殘缺點雲做機率重建以恢復一個粗略的完整點雲,再結合殘缺點雲做關係性結構增強達到高質量的補全。實驗顯示,該方法顯著提高了生成的完整點雲質量。這份研究可以結合很多單目深度感知感測器(如鐳射雷達或深度相機)完成對未知形狀部分的恢復和預估。預估出的完整形狀可以有效輔助很多下游任務,如 3D 形狀分類、姿態檢測、避障和互動。
論文連結:https://arxiv.org/pdf/2104.10154.pdf
3D 場景重建是 3D 計算機視覺的一個核心任務。例如在擴增實境(AR)應用中,為了在 AR 效果和周圍的物理環境之間形成自然、沉浸式的互動,3D 重建需要非常精確、連貫,還要保持實時性。雖然使用 SOTA 視覺慣性 SLAM 系統可以精確跟蹤攝像機運動,但由於重建質量低、計算要求高,基於影像的實時密集重建仍然是一個具有挑戰性的問題。
在一篇CVPR最佳論文候選論文中,商湯的研究者提出了一種新的基於神經網路的單目實時場景 3D 重建系統——NeuralRecon。不同於以往基於深度圖估計與融合的方法,NeuralRecon 直接基於影像特徵預測用 TSDF 表示的區域性 3D 表面,並創新地提出了一個聯合 TSDF 重建與融合的框架。實驗結果表明,該方法在準確率和速度方面都優於 SOTA 方法。
論文連結:https://arxiv.org/pdf/2104.00681.pdf
NeuralRecon的預訓練模型在辦公區域場景實時重建的結果
在被 CVPR 接收的眾多論文中,我們發現,很多研究其實都是由應用場景驅動的,比如 3D 點雲補全可能用於自動駕駛、機器人,3D 場景重建可以用於擴增實境(AR)等。這也解釋了商湯能夠長期保持創新活力的重要原因。
林達華在採訪中表示,商湯擁有一個業務跟學術連線的環境,是產生新的學術問題的肥沃土壤,「這些問題帶給商湯很多激動人心的研究機會,牽引著我們的技術創新。」
產業落地步伐加快
積累了那麼多技術,終究是要拿出來用的。在前段時間舉辦的上海國際汽車工業展覽會上,商湯將多年積累的 AI 技術打包,一股腦地呈現在了多款智慧汽車上。
這個打成的「包」就是 Sense Auto 智慧汽車解決方案,包括 SenseAuto Pilot 智慧駕駛和 SenseAuto Cabin 智慧車艙。
在 SenseAuto Pilot 智慧駕駛方案中,最引人關注的 SenseAuto Pilot-P 駕駛領航方案可實現高速公路場景下的車道跟隨、超車自動變道、導航自動變道、自動上下匝道、匝道通行等多種 L2 + 級高階輔助駕駛功能;已裝在多個量產車型中的 SenseAuto Pilot-V 前視視覺感知方案可以提供 200m 前向有效探測,支援自動緊急制動、車道保持輔助、雙預警功能,還能有效應對近距離行人 / 非機動車橫穿等複雜場景。此外,車道分離 / 匯合點、路面標識、交通燈形狀、施工區域錐形筒等長尾場景元素的感知也在這套系統的能力範圍之內。
整套系統背後涉及的技術包括鐳射雷達高精 3D 感知、點雲噪聲識別、軌跡預測、長尾目標檢測等,這些都出現在了今年的 CVPR 接收論文中。商湯表示,該系統能夠在最大程度上發揮攝像頭、毫米波雷達、鐳射雷達等感測器的感知優勢,顯著提升 3D 目標的檢測和跟蹤效能,提供智慧的道路動態目標軌跡預測,支撐系統安全可靠地擴充至城市工況場景。
SenseAuto Pilot-P 駕駛領航方案可以精準識別道路分離、合併點,幫助車輛在匝道內進行合理決策,實現自動上下匝道的 L2 + 級高階輔助駕駛功能
SenseAuto Cabin 智慧車艙解決方案同樣令人眼前一亮,涵蓋 SenseAuto Cabin-D 駕駛員感知系統、SenseAuto Cabin-O 座艙感知系統 、SenseAuto Cabin-K 智慧進入、SenseAuto Cabin-V 座艙域視覺控制器等模組。這些功能可以為駕駛員提供無接觸的車艙互動,減少點觸操作頻率;對疲勞、分心以及接打手機等危險行為進行提醒;還能自動感知是否有兒童被獨自遺留在車內等。這背後離不開成熟的目標檢測、跟蹤、識別等視覺演算法。
目前,商湯在智慧車艙領域已經和全球超過 30 家頭部企業展開合作,定點量產專案數超過 30 個,覆蓋車輛總數超過 1300 萬輛。
搭載了商湯 SenseAuto Cabin 智慧車艙解決方案的 WEY 全新旗艦車型摩卡首次亮相上海車展。
從智慧駕駛到智慧車艙,可以看到商湯落地的步伐正在加快。這不僅得益於其與生俱來的創新能力,也離不開豐富的算力資源和演算法、資料等方面的積累。這些成果共同構成了商湯正在建設的AI基礎設施——SenseCore商湯AI大裝置。林達華透露,這個 AI 大裝置不僅幫助商湯縮短了創新驗證的週期,還將成為未來十年重要的 AI 基礎設施,逐漸提供開放服務,演變成一個面向整個生態、整個社群的具有公共性質的設施。
AI 大裝置蓄勢待發
在上海臨港新片區,一座宛如晶片的建築群將在今年年底投入使用。這是商湯正在建設的人工智慧計算中心(Artificial Intelligence Data Center,AIDC),全部建成後 AI 計算峰值速度將達到 3740 Petaflops(1 petaflop 等於每秒 1 千萬億次浮點運算),可以在一天之內把人類石器時代到現在所有時間錄成的影片計算完成,也能在一天之內完整訓練 OpenAI 的千億引數模型 GPT-3。
但是,AIDC 僅僅是商湯 AI 大裝置的一部分,而遠非全部。從結構上看,整個大裝置共分為三層:
- 一是算力層。該層以 AIDC 為基礎,相容 AI 晶片和 AI 感測器的強大能力。
- 二是平臺層。這一層融合了商湯的資料平臺、高效能運算引擎、深度學習訓練框架(SenseParrots)以及模型生產平臺等,打造了創新的人工智慧通用演算法開發平臺,實現從資料儲存、標註到模型訓練、生產、部署、測試的全鏈路、批次化過程。
- 三是演算法層。這一層包含各種演算法工具箱,不僅有城市交通、園區等高頻應用場景演算法,還有火災、垃圾檢測等長尾低頻的演算法。截止目前,商湯已經推出 13000 多個技術模型,以及 17000 多個商業模型。同時他們也推出了 OpenMMLab 開源演算法體系,該體系已在 Github 上獲得 3 萬多顆星。
建設這麼一個 AI 大裝置需要投入大量的精力(AIDC 總投資高達 56 億元),但在商湯看來,這是面向未來必須邁出的一步。
「在經歷了幾年的產業化之後,AI 已經到了一個全新的階段,可以說一些簡單的問題已經基本上被解決了。下一步就是要深入到更廣泛的行業裡面,需要新一輪的突破和創新。」林達華說道。
GPT-3 等超大模型的出現讓商湯看到了實現下一個突破的希望:「以前我們都是針對一些具體的問題或者高度定製化的場景去生產一些中小模型。但隨著 AI 落地推演到越來越廣的領域,成千上萬的具體問題(長尾問題)開始湧現。如果每個問題都有很多的研究人員投入進去,那麼我們就很難深化 AI 的進一步落地。這個時候,整個行業需要通用性更強的模型,用一個模型支撐更多的任務。一方面,這種模型能夠讓 AI 的研發、落地效率得到一個質的提升;另一方面,它們能夠更好地去回應綜合場景的問題,比如智慧城市、智慧醫療等。這些任務都需要透過多個任務綜合解決。」
但是,模型的通用性越強,需要的資料、算力往往也越多,這便是商湯建設 AI 大裝置的底層邏輯。
當然,AI 大裝置也不是一朝一夕就建成的。其實早在 2018 年 4 月,商湯就已經開始佈局人工智慧計算原型機研製專案,雖然當時並不被看好。但好在,後續出現的一些大模型已經顯示出瞭解決長尾問題的巨大潛力。
如今,這個 AI 大裝置已經開始發揮它的作用。林達華透露說,「我們幾乎所有的研究工作都是在這個大裝置的基礎上進行的。」「它為做演算法研究的同學提供了充足的算力,使他們能夠快速地進行實驗試錯。」此外,大裝置中所積累的實用工具也縮短了創新的驗證週期。
藉助大裝置,商湯已經在超大模型技術研究方面取得一定成績。例如在計算機視覺的卷積神經網路(CNN)領域,通常模型引數都在 1 億以下,但商湯的 AI 框架 SenseParrots 能支援 50 億引數超大視覺模型的訓練。AIDC 完全投入使用後,計劃支援的超大視覺模型訓練引數可達更高的數量級。
由於可以顯著降低 AI 落地的門檻,商湯的 AI 大裝置對於推動整個人工智慧行業的發展也有著重要的戰略意義。林達華表示,「從整個社會的角度來說,AI 基礎設施將逐漸從一個企業內部的平臺,發展為逐漸提供開放服務,並最終演變成一個面向整個生態、整個社群的具有公共性質的設施。這些設施的構建能夠有效地支撐整個生態,最終使得整個 AI 人才的基礎變得更加寬廣,從而進一步推動 AI 產業的深化。」