自從 OpenAI 釋出 ChatGPT 以來,整個技術社群對大模型、AIGC 的關注越來越高。
大模型時代,計算機視覺(CV)領域的熱點話題也在不斷的發生著變化。
面對應接不暇的研究,我們如何才能以最快的時間瞭解 AI 領域的最新科研成果與發展趨勢?參加頂會論文分享會就是一個不錯的選擇。
作為計算機視覺領域的頂級會議,CVPR 每年都會吸引大量研究機構和高校參會。據統計,今年共提交了 11532 份論文,2719 篇被接收,錄用率為 23.6%。
為了給國內 CV 社群從業者搭建一個自由輕鬆的學術交流平臺,機器之心計劃於 2024 年 6 月 1 日 9:00-17:00 組織「CVPR 2024 線上論文分享會」,廣邀 AI 社群成員參與學習。
本次論文分享會設定 Keynote、 論文分享環節,就業內關注的 CV 熱門主題邀請頂級專家、論文作者與觀眾做學術交流。
今天,分享會全日程、Keynote 分享嘉賓及演講主題正式公佈。
Keynote 嘉賓及演講主題
上午 Keynote 1:金小剛 數字人建模動畫關鍵技術
分享人介紹:金小剛,浙江大學電腦科學與技術學院教授,博士生導師。浙江大學 - 騰訊遊戲智慧圖形創新技術聯合實驗室主任,浙江省虛擬現實產業聯盟理事長。第九屆霍英東青年教師基金、浙江省傑出青年基金獲得者,入選教育部新世紀優秀人才支援計劃。在 ACM TOG (Proc. of Siggraph) 等國際重要學術刊物上發表論文 180 多篇。獲省部級一等獎一次,二等獎二次。
分享摘要:數字人是近年來的研究熱點,可廣泛用於計算機動畫、計算機遊戲、虛擬主播、虛擬客服等領域。報告將介紹本人所在研究小組在影片肖像的胖瘦調整、肖像雙下巴去除、肖像頭髮去除、用於睫毛摳圖的資料集與基線方法、基於擴散模型的文生三維肖像、高精度人體運動神經求解器、實時人體運動補間等方面的一些最新研究進展。
上午 Keynote 2:朱儁彥 Enabling Collaboration between Creators and Generative Models
分享人介紹:Jun-Yan Zhu is an Assistant Professor at CMU’s School of Computer Science. Prior to joining CMU, he was a Research Scientist at Adobe Research and a postdoc at MIT CSAIL. He obtained his Ph.D. from UC Berkeley and B.E. from Tsinghua University. He studies computer vision, computer graphics, and computational photography. His current research focuses on generative models for visual storytelling. He has received the Packard Fellowship, the NSF CAREER Award, the ACM SIGGRAPH Outstanding Doctoral Dissertation Award, and the UC Berkeley EECS David J. Sakrison Memorial Prize for outstanding doctoral research, among other awards.
分享摘要:Large-scale generative visual models, such as DALL・E and Stable Diffusion, have made content creation as little effort as writing a short text description. Meanwhile, these models also spark concerns among artists, designers, and photographers about job security and proper credit for their contributions to the training data. This leads to many questions: Will generative models make creators’ jobs obsolete? Should creators stop publicly sharing their work? Should we ban generative models altogether?
In this talk, I argue that human creators and generative models can coexist. To achieve it, we need to involve creators in the loop of both model inference and model training while crediting their efforts for their involvement. I will first explore our recent efforts in model customization, which allows creators to freely control the model’s behavior by adding, altering, or removing concepts and rules. I will demonstrate several applications, including customizing models with multiple personal concepts and removing copyrighted content. I will then discuss our data attribution algorithm for assessing the influence of each training image for a generated sample. Collectively, we aim to allow creators to leverage the models while retaining control over the creation process and data ownership.
下午 Keynote 1:蘆清林 騰訊混元文生圖的演算法核心 ——DIT 架構解讀
分享人介紹:蘆清林博士,帶領多媒體創作團隊,負責騰訊混元文生圖模型及廣告創意 AI 演算法研發工作。在計算機視覺,機器學習,AIGC 方面有豐富的研究經歷,曾發表 10 餘篇會議和期刊論文,數十項專利,支撐騰訊廣告業務發展。
分享摘要:
1、趨勢:視覺生成技術的新篇章 ——DIT
2、混元 DIT 三大升級
3、效果展示 & 定量分析 ——demo
4、全面開源
下午 Keynote 2:盛律 Multimodal Large Language Models Meets Embodied Agents
分享人介紹:盛律,北京航空航天大學 “卓越百人” 副教授,入選北航青年拔尖計劃。研究方向是三維視覺、多模態大模型和具身智慧。在 TPAMI/IJCV 以及 CVPR/ICCV/ECCV 等重要國際期刊和會議發表論文 50 餘篇,含多篇會議口頭報告或亮點論文。谷歌引用超 4900 次。擔任 ACM Computer Surveys 副編,CVPR 2024/ECCV 2024/ACM MM 2024 領域主席等。主持或參與多項國家自然科學基金、科技部重點研發計劃等專案。
分享摘要:在多模態大模型和生成模型的加持下,圍繞具身智慧體的研究工作從傳統的抓取、導航等任務,擴充套件到在複雜多模態環境中通用互動任務的解決。在本次報告中,講者將介紹面向具身智慧體的多模態大模型及其多模態多工高效微調方法,並以此為基礎探討在以 Minecraft 為代表的模擬環境中實現具身智慧體的設計思路,和在真實環境下實現具身機器人泛化操作的有益嘗試。最後,報告將展望端到端具身大模型,討論其中的機會和挑戰。
參與方式
此次線上論文分享會將在機器之心以及黃大年茶思屋兩個平臺進行直播,歡迎大家關注、預約。