最近,有人展示了全新的技術:只需要一個平板電腦的算力,我們就可以用普通攝像頭實時描繪一個房間的複雜實景,同時 AI 演算法可以自動標記所有物體並將其正確分類。
更進一步,如果掃描的視角轉了完整的 360 度,演算法就可以自動重建出房間的模型:
這項技術出自 OPPO 研究院聯合清華大學提出的 INS-Conv (INcremental Sparse Convolution),其演算法可以更快更準確地實現線上 3D 點雲語義及例項分割推斷,有效降低了環境識別對於終端算力的要求。
INS-Conv 的論文在剛剛結束的人工智慧頂會 CVPR 2022 上入選了口頭演講(Oral)環節。
一塊平板,實時構建 3D 模型
影像分割是 AI 領域的重要技術,許多計算機視覺任務,如機器人、AR/VR 應用中,人們都需要對影像進行智慧分割,以充分理解周圍環境,例項分割旨在讓 AI 識別出 3D 場景中的物體,對於每個畫素點都需要進行語義預測。
最近一段時間,專注於離線 3D 分割的方法在精度方面實現了很多進步,這些方法已有較高準確性,但識別的速度可能需要幾秒鐘一幀——其骨幹網路通常需要全域性幾何作為輸入,無法滿足實時應用的需求。
影像語義分割是畫素級預測的一種形式,目標影像中的每個畫素都會被演算法進行分類。
對於實時線上的 3D 分割任務,人們常見的解決方案則是 2D-to-3D 方法,這意味著需要對 RGBD 影像(色彩加深度)執行 2D 卷積,然後將 2D 預測投影到 3D 空間,用機率模型與之前的結果發生融合。這些方法僅能利用二維資訊,分割精度較低。
此外,大多數線上 3D 分割方法只區分物體種類,不區分不同物體。如何在實現線上推理和 3D 重建的同時實現高度準確的 3D 語義例項分割仍然是一個懸而未決的問題。
在 INS-Conv 研究中,研究人員提出的增量稀疏卷積網路可以實現實時且準確的 3D 語義和例項分割。
INS-Conv 的語義分割管道。核心是 INS-Conv 骨幹網路,用於對一系列逐漸變化的輸入幾何的殘差進行增量特徵提取。之後,聚類階段和融合階段生成時間一致的語義和例項分割結果。
新方法會為每個時間步的重建場景形成一個遞增的 3D 幾何序列,透過對連續幀的殘差進行增量推理,這種方式節省了大量冗餘計算。更具體地說,在神經網路層設計中,新方法為稀疏卷積操作定義了全新的殘差傳播規則,用 INS-Conv 層替換標準稀疏卷積網路層,就能以最小的精度損失實現高效的增量推理。
基於 INS-Conv 的實時 3D 語義和例項分割系統,研究人員在每個時間步上透過主幹網路提取 3D 特徵後使用聚類生成對更新點的例項預測,然後將其融合到之前的結果中,使用例項融合得到最終的例項分割結果階段,最終實現了業內最優的分割精度。
在實踐中,研究人員提出的線上聯合 3D 語義和例項分割演算法在 GPU 上可達到 15 FPS,在 CPU 上也達到了每秒 10 幀的推理速度。多個資料集上的實驗表明,新方法準確性大大超過了此前人們提出的線上方法,且與最先進的離線方法水平相當。
從行動式裝置上本地執行的 Demo 效果來看,INS-Conv 在準確性和效率方面的領先效能使其特別適用於 AR/VR 或機器人應用,為自動駕駛、虛擬現實等前沿技術的落地提供了高效率、低成本的新方法。
或許不久以後,無人駕駛車輛和機器人就可以擺脫雷達只用攝像頭,人們的手機上還會出現可以給自己房間建模的 APP。
把 AI 審美水平提高一個臺階
3D 建模技術可以讓很多技術變得更加便利,OPPO 研究員還在思考腦洞更大的事:在 CVPR 上,OPPO 的一篇論文介紹瞭如何用深度學習來捕捉不同人的審美偏好。
隨著 AI 影像識別能力的逐漸成熟,讓 AI 具備審美能力成了人們追逐的新目標之一。從資料視角來看,AI 審美能力往往與訓練所使用的資料和標註者的審美偏好關聯較大,但人的審美往往是各不相同的。使用基於大資料的美學評價來為不同使用者服務,可能會引發人們對於「審美歧視」的討論,或帶來不盡如人意的使用者體驗。
在論文《Personalized Image Aesthetics Assessment with Rich Attributes》中,OPPO 研究院聯合西安電子科技大學李雷達教授,開創性地提出了帶條件的 PIAA 演算法,首次從「使用者主觀偏好與影像美學相互作用,如何產生個性化品味」的角度出發,提出了個性化美學評價新方法。
一般地,影像美學評估演算法可分為兩類:通用和個性化影像美學評估(GIAA 和 PIAA)。對於 GIAA,影像通常由多位標註員進行註釋;在建模時,通常使用平均意見分數 (MOS) 或美學註釋分數分佈作為美學的「基本事實」。然而,GIAA 反映的是審美的「平均意見」,忽略了審美品味的高度主觀性。為了緩解這個問題,人們提出了 PIAA 方法,可以捕捉不同人的獨特審美偏好。
不同的審美習慣往往與不同的使用者畫像和審美經驗相關。在提出的方法中,研究人員在建模審美偏好時,額外引入了三種條件資訊,包括個人性格、美學經驗以及攝影經驗。實驗結果顯示:利用被試的屬性資訊進行 PIAA 建模,可以提高模型效能。
除上述提出的演算法外,在參考已有美學評價主流資料集的基礎上,來自 OPPO 和西電的研究員們進行了迄今為止最全面的個性化影像美學評價主觀實驗,構建了一個具有豐富註釋的個性化美學評價資料庫 “PARA“並將其開源。資料集包含 31220 張影像,每張圖平均由 25 個人類受試者進行註釋,標註了 4 個面向人的主觀屬性(內容偏好、分享意願等)和 9 個面向影像的客觀屬性(影像美學、情感等)。
研究員對資料集進行了基準模型研究。包括有條件和無條件的 PIAA 兩種建模方法,訓練方式如下圖所示:
相比通用美學評價模型(GIAA),本文中的個性化美學評價演算法使用個人資料進行了微調,旨在學習個性化審美偏好。相比無條件的 PIAA 模型,條件 PIAA 建模時分別新增了三種條件資訊,包括個體性格、美學經驗和攝影經驗。
在實驗方面,研究員們參考 Few-shot Learning 及相關個性化美學評價工作基準設定方法,進行了三組基準實驗測試:
實驗結果顯示,透過對個性化資料進行微調,更多的個性化訓練資料可以進一步提高微調的效能;同時,引入使用者畫像作為個性化美學評估的條件資訊,可以幫助模型進一步挖掘不同人的審美偏好。
OPPO 研究者表示,在未來,希望個性化美學評價演算法能夠更好地適配使用者的審美習慣,為使用者在相簿、相機、網際網路內容推薦等場景中打造更加個性化的,良好的產品使用體驗。
在多個 AI 研究方向取得突破
作為計算機視覺世界三大頂會之一,CVPR 每年都會吸引大量研究機構和高校專家、學者參會。隨著人工智慧的火熱,近年來 CVPR 的論文投稿量正在不斷增加。據官方訊息,本屆大會獲得了 8100 餘篇論文投稿,其中 2067 篇論文被接收,接收率約為 25%,其中 Oral 的數量為 342 篇。
縱觀整個科研圈,CVPR 的地位也在變得越來越重要。根據谷歌學術公佈的 2021 年最新學術期刊和會議影響力排名,CVPR 位居第四,僅次於 Nature、新英格蘭醫學雜誌和 Science,是影響力最高的 AI 研究會議。每年在 CVPR 上的重要研究,都會成為近期人工智慧領域技術發展和落地的新方向。
今年的 CVPR 2022 上,OPPO 研究院共有 7 篇論文獲得收錄,內容受到人們的關注。除了上述研究之外,其最新研究還覆蓋多檢視動作檢測、人體姿態估計、三維人體重建、知識蒸餾等領域。
在三維人體重建領域中,OPPO 研究院透過改進 NeRF 創新的動態角色建模方法,在業界首次實現了自動為寬鬆著裝人體建立數字分身的工作。該建模方法僅透過分析攝像頭所拍攝的 RGB 影片,就可以 1:1 精準還原人物動態細節,甚至包括衣服細小 logo 或紋理細節。
這項研究可有效降低三維人體重建的門檻,為線上虛擬試裝購物、AI 健身和 VR/AR 應用的真正落地提供技術基礎。
在《CRIS: CLIP-Driven Referring Image Segmentation》中,研究人員提出了端到端影像分割框架 CRIS,藉助視覺語言解碼和對比學習來實現文字到畫素的對齊,在三個基準資料集的實驗中顯著優於此前的 SOTA 研究。
論文《Single-Stage is Enough: Multi-Person Absolute 3D Pose Estimation》則將單階段方案擴充套件到了 3D 人體姿態估計任務中。解決了當前多人三維姿態估計過程中存在的計算問題。
知識蒸餾作為一種強大的正則化策略,廣泛應用於模型壓縮、知識遷移和模型增強領域。在《 Self-Distillation from the Last Mini-Batch for Consistency Regularization 》中,研究人員提出了一種簡單高效的自蒸餾框架,其易於實現且計算複雜度低,在多個基準資料集上超過了業界最先進的自蒸餾方法。
OPPO 的 CVPR 研究還涉及自動駕駛領域:在論文《MV-TAL: Mulit-view Temporal Action Localization in Naturalistic Driving》中,OPPO 提出了一種基於 Swin Transformer 的灰度影片的多檢視時間動作定位系統,實現了高效的駕駛動作識別。
從這些論文的方向看,OPPO 在人工智慧的多個不同方向上都已有了深度且有領先性的研究。除此之外,在 CVPR WAD Argoverse2 比賽的運動預測任務中 OPPO 還提出一種關注地圖 boundary 資訊的運動預測網路,取得了第一的優異成績,該項研究能夠為自動駕駛提供更多的安全舒適保障。
2020 年初,OPPO 研究院正式成立智慧感知與互動研究部。在當年的 CVPR 上,OPPO 獲得了大會學術競賽的兩項第一,兩項第三。去年,OPPO 在六大賽道中十二賽項中取得了一項第一、七項第二、四項第三的成績,再次展示了強勁的 AI 創新實力。
今年,OPPO 在 CVPR 2022 上實現了單屆七篇主會論文入選,挑戰賽三項第一、一項第二、四項第三的好成績。OPPO 投入前沿科技研發的力度正在加大,其提出的新技術面向應用,已不斷投入實踐。
投入技術研發創造眾多「業內首次」的同時,OPPO 產品中的黑科技也越來越多,綠廠自研晶片馬里亞納 X,是全球首個為影像而生的專用 NPU 晶片,其面向 OPPO 自研 AI 演算法,實現了最高效的計算加速和功耗最佳化。目前已實現在 Find X5、Reno8 系列產品上的落地,提升產品差異化與競爭力。
在 AR 領域,OPPO 提出了全時空間計算 AR 應用 CybeReal,利用空間計算、融合定位實現了多類硬體裝置在物理環境中的釐米級定位。
而去年底 OPPO 釋出的智慧眼鏡 Air Glass 更是新技術的集大成者,其 AR 輔助現實功能可以實現「演講題詞、通知提醒、騎行導航、實時翻譯」等一系列功能。其中涉及的技術,包括語音識別、自然語言理解和計算機視覺,人工智慧幾大方向一個不少。
隨著技術的不斷進化,我們或許很快就會看到更多新近登上 AI 頂會的論文,變成 OPPO 智慧裝置中的新能力。
參考內容:
https://arxiv.org/abs/2203.16754
https://arxiv.org/abs/2111.15174
https://arxiv.org/abs/2203.16172
https://arxiv.org/abs/2203.14478
https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_INS-Conv_Incremental_Sparse_Convolution_for_Online_3D_Segmentation_CVPR_2022_paper.pdf
https://openaccess.thecvf.com/content/CVPR2022W/AICity/papers/Li_MV-TAL_Mulit-View_Temporal_Action_Localization_in_Naturalistic_Driving_CVPRW_2022_paper.pdf