北京時間 6 月 20 日凌晨,在西雅圖舉辦的國際計算機視覺頂會 CVPR 2024 正式公佈了最佳論文等獎項。
今年共有 10 篇論文獲獎,其中 2 篇最佳論文,2 篇最佳學生論文,另外還有 2 篇最佳論文提名和 4 篇最佳學生論文提名。
作為計算機視覺(CV)領域的頂級會議,CVPR 每年都會吸引大量研究機構和高校參會。據統計,今年共提交了 11532 份論文,2719 篇被接收,錄用率為 23.6%。
根據佐治亞理工學院對 CVPR 2024 錄用資料的統計分析,從研究主題來看,論文數量最多的是影像和影片合成與生成(Image and video synthesis and generation)主題,一共 329 篇。
今年的參會總人數高於往年,且越來越多的人選擇了線下參會。
最佳論文
論文 1:Generative Image Dynamics
作者:Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski
機構:谷歌研究院
論文地址:https://arxiv.org/pdf/2309.07906
Zhengqi Li(李正奇)是 Google DeepMind 的一名研究科學家。此前,他在康奈爾大學獲得了電腦科學博士學位,師從 Noah Snavely 教授。他的研究成果曾多次獲獎,包括 2020 年 Google 博士獎學金、2020 年 Adobe 研究獎學金、CVPR 2019 和 CVPR 2023 最佳論文榮譽獎、ICCV 2023 最佳學生論文獎。
摘要:該研究提出了一種對場景運動建模影像 - 空間先驗的方法。該先驗是從集合中學到的從真實影片序列中提取的運動軌跡,描繪了物體的自然振盪動力學,例如樹木、衣服等物體在風中搖曳。該研究建模傅立葉域中密集的長期運動作為頻譜體積(spectral volume),研究團隊發現這非常適合用擴散模型預測。
給定單個影像,該研究訓練的模型使用頻率協調擴散取樣過程來預測頻譜體積,還可以轉換為跨越整個影片的運動紋理(motion texture)。
該研究可以透過調整運動紋理的幅度來縮小(頂部)或放大(底部)動畫運動。
與基於影像的渲染模組一起,預測的運動表徵可用於許多下游應用,例如將靜止影像變成無縫迴圈影片,或者允許使用者與真實影像中的物件進行互動,產生逼真的模擬動態。
論文 2:Rich Human Feedback for Text-to-Image Generation
作者:Youwei Liang、Junfeng He、Gang Li、Peizhao Li、Arseniy Klimovskiy 等
機構:加利福尼亞大學聖迭戈分校、谷歌研究院、南加州大學、劍橋大學、布蘭迪斯大學
論文地址:https://arxiv.org/pdf/2312.10240
從論文作者一欄我們可以看到,這項研究有多位華人參與,其中 Youwei Liang 是加利福尼亞大學聖迭戈分校電子與計算機工程系的一名博士生,在此之前,他是華南農業大學資訊與電腦科學專業的本科生;Junfeng He 來自谷歌,此前他碩士畢業於清華大學。
摘要:最近,文字到影像(T2I)生成模型取得重大進展,能夠根據文字描述生成高解析度影像。然而,許多生成的影像仍然存在偽影 / 不可信、與事實不符、美觀度低等問題。
受人類反饋強化學習(RLHF)成功用於大型語言模型的啟發,該研究透過以下方式來豐富反饋訊號:
用文字標記不可信或不對齊的影像區域;
對文字 prompt 中的單詞在影像上被歪曲或缺失的情況,進行註釋。
該研究建立了 18K 生成影像資料集 RichHF-18K,並在 RichHF-18K 上收集了豐富的人類反饋,並訓練多模態 transformer 來自動預測反饋。該研究證明預測的人類反饋可用於改進影像生成,例如透過選擇高質量的訓練資料微調和改進生成模型,或者透過建立掩碼來修復有問題的影像區域。
最佳論文亞軍
論文 1:EventPS: Real-Time Photometric Stereo Using an Event Camera
作者:Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang、Boxin Shi
機構:北京大學、上海交通大學等
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
論文 2:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
作者:David Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、 Vincent Sitzmann
機構:MIT、西蒙菲莎大學、多倫多大學
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf
最佳學生論文
論文 1:BioCLIP: A Vision Foundation Model for the Tree of Life
作者:Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 David Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf 、 Wei-Lun Chao 、 Yu Su
機構:俄亥俄州立大學、微軟研究院、加利福尼亞大學歐文分校、倫斯勒理工學院
論文地址:https://arxiv.org/pdf/2311.18803
摘要:從無人機到個人手機,各種相機收集的自然世界影像日益成為生物資訊的豐富來源。計算方法和工具的爆炸式增長,特別是計算機視覺,用於從科學和保護影像中提取生物學相關資訊。然而,其中大多數都是為特定任務設計的定製方法,不容易適應或擴充套件到新的問題、上下文和資料集。研究者急需一個用於影像上一般生物體生物學問題的視覺模型。
為了實現這一目標,該研究策劃併發布了 TREEOFLIFE-10M,這是規模最大、最多樣化的生物影像資料集 ML-ready。基於此,研究者開發了基礎模型 BIOCLIP,主要用於構建生命之樹(tree of life),利用 TREEOFLIFE-10M 捕捉到的生物學獨特屬性,即植物、動物和真菌影像的豐富性和多樣性,以及豐富的結構化生物學知識。
TREEOFLIFE-10M 中 108 個門的樹狀圖。
研究者在各種細粒度生物學分類任務上對本文方法進行了嚴格的基準測試,發現 BIOCLIP 的表現始終顯著優於現有基線(絕對值高出 16% 到 17%)。
內在評估表明,BIOCLIP 已經學會了符合生命之樹的分層表示,這揭示了其強大的通用性。
論文 2:Mip-Splatting:Alias-free 3D Gaussian Splatting
論文作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
機構:圖賓根大學、圖賓根人工智慧中心、上海科技大學、布賴特寧、布拉格捷克技術大學
論文地址:https://arxiv.org/abs/2311.16493
摘要:最近,3D 高斯潑濺技術在新穎檢視合成方面展示了令人印象深刻的成果,達到了高保真度和效率水平。然而,當改變取樣率時(例如透過改變焦距或攝像機距離),強烈的偽影現象可能會出現。
3D 高斯潑濺透過將 3D 物件表示為被投影到影像平面上的 3D 高斯函式,隨後在螢幕空間中進行 2D 膨脹處理,如圖 (a) 所示。該方法的內在收縮偏差導致退化的 3D 高斯函式超出取樣限制,如圖 (b) 中的 δ 函式所示,而由於膨脹操作,其渲染效果類似於 2D。然而,當改變取樣率(透過焦距或相機距離)時,會觀察到強烈的膨脹效應(c)和高頻偽影(d)。
該研究團隊發現這種現象的原因可以歸因於缺乏 3D 頻率約束以及使用了 2D dilation filter。為了解決這個問題,他們引入了一種 3D smoothing filter,該濾波器根據輸入檢視引起的最大采樣頻率來約束 3D Gaussian primitives 的大小,從而在放大時消除高頻偽影。
此外,作者團隊用 2D Mip filter 替換 2D dilation filter,這種濾波器模擬了 2D box filter,有效地緩解了走樣和膨脹問題。研究者根據評估,包括在單尺度影像上訓練和多尺度測試等場景,驗證了這種方法的有效性。
最佳學生論文亞軍
論文:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
作者:Paul Roetzer 、Florian Bernard
機構:波恩大學
連結:https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
論文:Image Processing GNN: Breaking Rigidity in Super-Resolution
作者:Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
機構:北京大學、華為諾亞方舟實驗室
連結:https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf
論文:Objects as volumes: A stochastic geometry view of opaque solids
作者:Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas
機構:卡耐基梅隆大學
連結:https://arxiv.org/pdf/2312.15406v2
論文:Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods
作者:Mingqi Jiang 、 Saeed Khorram 、 Li Fuxin
機構:俄勒岡州立大學
連結:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf
其他獎項
大會還公佈了 PAMI TC 獎,包括 Longuet-Higgins 獎、青年研究者獎、Thomas S. Huang 紀念獎三項。
Longuet-Higgins 獎
Longuet-Higgins 獎是 IEEE 計算機協會模式分析與機器智慧(PAMI)技術委員會在每年的 CVPR 頒發的「計算機視覺基礎貢獻獎」,表彰十年前對計算機視覺研究產生了重大影響的 CVPR 論文。該獎項以理論化學家和認知科學家 H. Christopher Longuet-Higgins 命名。
今年獲獎的論文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。
作者:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik
機構:UC 伯克利
論文連結:https://arxiv.org/abs/1311.2524
青年研究者獎
青年研究者獎(Young Researcher Awards)旨在表彰年輕的科學家,鼓勵他們繼續做出開創性的工作。評選標準是獲獎者獲得博士學位的年限少於 7 年。
今年獲獎者為 Angjoo Kanazawa(UC 伯克利)和 Carl Vondrick(哥倫比亞大學)。
另外,Katie Bouman(加州理工學院)獲得了青年研究者獎榮譽提名。
Thomas Huang 紀念獎
在 CVPR 2020 上,為了紀念 Thomas S. Huang(黃煦濤)教授,PAMITC 獎勵委員會批准設立 Thomas S. Huang 紀念獎,以表彰在 CV 研究、教育和服務方面被公認為楷模的研究人員。該獎項從 2021 年開始頒發。獲獎者需要拿到博士學位至少 7 年,最好處於職業發展中期(不超過 25 年)。
今年的獲獎者是牛津大學教授 Andrea Vedaldi。
更多資訊可參考:https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf
參考連結:
https://public.tableau.com/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2