CLIPPO:純影像的 CLIP,引數減半且更強大!

Zilliz發表於2023-01-17

出品人:Towhee 技術團隊 張晨、顧夢佳

多模態模型變得越來越有效,部分原因在於統一的元件,例如 Transformer 架構。然而,多模態模型仍然經常包含許多特定於任務和模態的部分和訓練過程。 例如,CLIP 透過對比損失訓練獨立的文字和影像塔。 CLIPPO 選擇使用對比損失進行訓練,嘗試使用純畫素模型來執行影像、文字和多模式任務。 CLIPPO 執行基於影像的任務,例如檢索和 zero-shot 影像分類,幾乎與 CLIP 一樣好,引數數量只有一半,並且沒有文字特定的塔或嵌入。 當透過影像-文字對比學習和下一句對比學習聯合訓練時,CLIPPO 可以在自然語言理解任務上表現出色,沒有任何詞級損失(語言建模或掩碼語言建模),優於基於畫素的先前工作。 令人驚訝的是,CLIPPO 只需將問題和影像一起渲染,就可以在視覺問答中獲得很好的準確性。 由於 CLIPPO 不需要tokenizer,它可以在不修改的情況下在多語言多模態檢索上實現強大的效能。

CLIP vs. CLIPPOCLIP 在具有對比目標的影像/替代文字對上訓練單獨的影像和文字編碼器,每個編碼器都具有特定於模態的預處理和嵌入。 而 CLIPPO 使用單個編碼器來處理常規影像和渲染為影像的文字。CLIPPO 透過將替代文字渲染為影像,使用共享視覺編碼器(在兩個獨立的前向傳遞中)對生成的影像對進行編碼,並應用與 CLIP 相同的訓練目標,來訓練具有同等能力的純畫素模型。

相關資料:
程式碼地址:https://github.com/google-res...
論文連結:Image-and-Language Understanding from Pixels Only

相關文章