CVPR 24|ETH Zurich等團隊:重新定義小樣本3D分割任務,新基準開啟廣闊提升潛力!

机器之心發表於2024-06-24
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該文章的第一作者安照崇,目前在哥本哈根大學攻讀博士學位,導師為Serge Belongie。他碩士畢業於蘇黎世聯邦理工學院(ETH Zurich),在碩士期間,他在導師Luc Van Gool的實驗室中參與了多個研究專案。他的主要研究方向包括場景理解、小樣本學習以及多模態學習

3D場景理解讓人形機器人「看得見」周身場景,使汽車自動駕駛功能能夠實時感知行駛過程中可能出現的情形,從而做出更加智慧化的行為和反應。而這一切需要大量3D場景的詳細標註,從而急劇提升時間成本和資源投入。

最近,ETH Zurich等團隊提出了一種Few-shot學習方法,大大改善了這一侷限性,並重新審視了目前的FS-PCS任務,在3D場景感知領域引入全新的benchmark,為未來的模型設計與開發開創了新局面。
圖片
  • 論文連結: https://arxiv.org/abs/2403.00592
  • 程式碼連結: https://github.com/ZhaochongAn/COSeg

圖片

3D Few-shot分割結果示例

技術背景

3D場景理解在自動駕駛、智慧機器人等領域扮演著至關重要的角色,它使裝置能夠感知並理解周圍的三維世界。儘管傳統的全監督學習模型在特定類別的識別上表現出色,但這些模型通常只限於識別這些預定義的類別。這就意味著,每當需要識別新的物件類別時,就必須收集大量的3D場景資料並進行詳細標註,這一過程不僅耗時耗力,還極大限制了全監督模型在真實世界中的應用廣度和靈活性。

然而,藉助Few-shot學習方法,這一局面得到了顯著改善。Few-shot學習是一種需要極少標註樣本就能迅速適應新類別的技術。這意味著模型可以透過少量的示例迅速學習和適應新的環境,大大降低了資料收集和處理的成本。這種快速、靈活的學習方式,使得3D場景理解技術更加適應快速變化的現實世界,為各種應用場景如自動駕駛和高階機器人系統開啟了新的可能性。因此,研究Few-shot 3D模型能有效推動很多重要任務在更廣闊世界的實際應用。

特別的,對於Few-shot 3D point cloud semantic segmentation(FS-PCS)任務,模型的輸入包括support point cloud以及關於新類別的標註(support mask)和query point cloud。模型需要透過利用support point cloud和support mask獲得關於新類別的知識並應用於分割query point cloud,預測出這些新類別的標籤。在模型訓練和測試時使用的目標類別無重合,以保證測試時使用的類均為新類,未被模型在訓練時見過。

任務的重新審視與改正
圖片
圖1. 兩個場景的視覺化(前景類分別為door和board)

圖片

表1. 存在(w/FG)和不存在前景洩露(w/o FG)時過往模型的效能比較

該文章重新審視了當前FS-PCS任務。發現當前的任務setting具有兩個顯著的問題:

  • 第一個問題是前景洩漏:3D任務通常將場景點雲中的密集點均勻取樣後作為模型的輸入。然而FS-PCS採用的取樣方法並非均勻取樣,而是會對目標類別(前景區域)取樣更多的點,對非目標區域(背景區域)取樣更少的點,這樣得到的輸入點雲會在前景有更密集的點分佈,導致了前景洩露問題。如圖1所示,第四和第六列的輸入點雲來自於當前的有偏取樣,在前景區域(door或board)展示出比背景更密集的點分佈,而第三和第五列的輸入使用改正後的一致性取樣,展示出了均勻的點密度分佈。該問題使得新類的資訊被點雲的密度分佈所洩漏,從而允許模型簡單的利用輸入點雲中的密度差異,預測更密集的區域為前景就可以實現良好的few-shot效能,而非依賴於學習從support到query的知識轉移能力。因此當前的評價benchmark無法反映過往模型的真實效能。如表1所示,將當前setting中的前景洩露改正後,過往模型展示出了大的效能下降,表明了過往模型極大的依賴於密度的差異來實現看似優越的few-shot效能。
  • 第二個問題是稀疏點分佈:當前的setting僅從場景中取樣2048個點作為模型在訓練和測試時的輸入,這樣稀疏的點分佈嚴重限制了輸入場景的語義清晰度。如圖1所示,在第一行第五列中,人類肉眼都難以區分出區域中的語義類別door和周圍的類別wall。對第二行也同樣很困難來區分目標區域為board類或是其他的類別如window。這些稀疏的輸入點雲有非常受限的語義資訊引入了顯著的歧義性,限制了模型有效挖掘場景中語義的能力。

因此,為了改正這些問題,作者提出了一個新的setting來標準化FS-PCS任務,採用均勻取樣並增加取樣點數10倍到20480點。如圖1中第三列所示,新setting下的輸入有一致性的點的分佈和更清晰的語義資訊,使得該任務更加貼近於真實的應用場景。

新的模型COSeg

在新改正的setting下,作者引入了一個新的模型叫做Correlation Optimization Segmentation(COSeg)。過往的方法都基於特徵最佳化正規化,側重於最佳化support或者query的特徵,並將改進後的特徵輸入到無參的預測模組獲得預測結果,可看作隱式的建模support和query間的correlations。相反,沒有注重於最佳化特徵,文中提出了correlation最佳化正規化,直接將support和query間的correlations輸入到有參的模組中,顯式的最佳化correlations,允許模型直接塑造query和support間的關係,增強了模型的泛化能力。

圖片

圖2. COSeg架構

在COSeg中,首先對每個query點計算與support prototypes間的Class-specific Multi-prototypical Correlation簡稱為CMC,表示每個點和所有類別prototypes之間的關係。隨後將CMC輸入到後續的Hyper Correlation Augmentation(HCA)模組。

HCA模組利用兩個潛在的關係來最佳化correlations。第一,query點都是互相關聯的,因此他們對於類別prototypes間的correlations也是互相關聯的,由此可得到點和點間的關係,相對應於HCA的前半部分對correlations在點維度做attention。第二,將一個query點分為前景或者背景類依賴於該點對於前景和背景prototypes之間的相對correlations,由此可得到前景和背景間的關係,相對應於HCA的後半部分對correlations在類別維度做attention。

此外,由於few-shot模型在base類別上做訓練,在novel類別上做測試。這些模型會容易被測試場景中存在的熟悉的base類別干擾,影響對於novel類別的分割。為了解決該問題,文中提出對於base類別學習無參的prototypes(稱為base prototypes)。當分割新類時,屬於base類的query點應該被預測為背景。因此,利用base prototypes,作者在HCA層內部引入Base Prototypes Calibration(BPC)模組來調整點和背景類別間的correlations,從而緩解base類帶來的干擾。

實驗結果

圖片

表2. 新的FS-PCS benchmark

圖片

圖3. COSeg和過往最佳方法的視覺化比較

文中的實驗首先在改正後的標準setting下評測了之前的方法,創立了標準的benchmark,並且證明了COSeg方法的優越效能,在各個few-shot任務中都實現了最佳的結果。視覺化也清楚表明了COSeg實現了更好分割結果。此外,在文中作者也提供了廣泛的消融實驗證明了設計的有效性和correlation最佳化正規化的優越性。

總結

該文章的研究在FS-PCS領域的貢獻如下。

首先,作者確定了當前FS-PCS setting中的兩個關鍵問題(前景洩露和稀疏點分佈),這兩個問題降低了對過往方法的評價基準的準確性。為了解決過往setting中的問題,文中引入了一個全新的標準化的setting以及評價benchmark

此外,在標準化FS-PCS setting下,作者提出一個新的correlation最佳化正規化,顯著提高了模型在few-shot任務上的泛化效能。文中的模型COSeg融合了HCA來挖掘有效的點雲關聯資訊和BPC來進行背景預測的調整,在所有few-shot任務上實現了最佳的效能。

文中改正的標準化setting開放了更多在Few-shot 3D分割任務上提升的可能性,同時提出的新correlation最佳化正規化也為未來的模型設計與開發提供了新的方向。這項工作作為FS-PCS領域的一個新基準,有望激勵更多研究者探索和擴充小樣本3D場景理解的邊界。

作為參考,以下幾點可以作為潛在的研究方向,以進一步推動該領域的發展:

  • 在文中的新setting下,雖然COSeg實現了最佳效能,但仍然有很大的進步空間,可以改進模型以實現更優的few-shot泛化:如改進prototype的抽取方式 [1,2],改進correlation最佳化模組 [3],對每個few-shot任務做針對性的訓練 [4]。
  • 解決Base類別干擾問題也是影響Few-shot效能的關鍵因素,可以從訓練或模型設計角度進行最佳化 [5,6],更好的減少Base類別的干擾。
  • 提高模型的訓練和推理效率 [7],特別是在部署到實際應用時,模型的效率也是一個關鍵考量。

總結來說,這一領域的前景十分廣闊,而且目前尚處於新興起步階段,對於廣大的研究者而言,無疑是一個充滿希望和機遇的研究領域。

參考連結:
[1] Lang, Chunbo, et al. "Progressive parsing and commonality distillation for few-shot remote sensing segmentation." IEEE Transactions on Geoscience and Remote Sensing (2023).
[2] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031.
[3] Zhang, Canyu, et al. "Few-shot 3d point cloud semantic segmentation via stratified class-specific attention based transformer network." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 37. No. 3. 2023.
[4] Boudiaf, Malik, et al. "Few-shot segmentation without meta-learning: A good transductive inference is all you need?." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[5] Wang, Jiahui, et al. "Few-shot point cloud semantic segmentation via contrastive self-supervision and multi-resolution attention." 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023.
[6] Lang, Chunbo, et al. "Learning what not to segment: A new perspective on few-shot segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.
[7] Sun, Yanpeng, et al. "Singular value fine-tuning: Few-shot segmentation requires few-parameters fine-tuning." Advances in Neural Information Processing Systems 35 (2022): 37484-37496.

相關文章