為了實現高精度的區域級多模態理解,本文提出了一種動態解析度方案來模擬人類視覺認知系統。
本文作者來自於中國科學院大學LAMP實驗室,其中第一作者趙毓鍾是中國科學院大學的2023級博士生,共同一作劉峰是中國科學院大學2020級直博生。他們的主要研究方向是視覺語言模型和視覺目標感知。
論文標題:DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution 論文連結:https://arxiv.org/abs/2405.16071 論文程式碼:https://github.com/callsys/DynRefer
其中表示第 i 個檢視的插值係數,表示第 i 個檢視,pHASH (・) 表示感知影像雜湊函式,表示異或操作。為了從全域性視角比較檢視的資訊,我們利用 "pHASH (・)" 函式將檢視從空間域轉換到頻域,然後編碼成雜湊碼。對於這一項,我們減少上下文豐富檢視的權重,以避免引入過多冗餘資訊。
Line 1-6:隨機動態多檢視要優於固定檢視。 Line 6-10:透過最大化資訊選擇檢視優於隨機選擇檢視。 Line 10-13:多工訓練可以學習得到更好的區域表徵。