AI畫家的「滑鐵盧」:為什麼冰可樂不願意住進茶杯裡?

机器之心發表於2024-08-06
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

文章的第一作者是上海交通大學博士研究生趙峻圖(主頁:https://juntuzhao.run),他的研究方向包括計算機視覺人工智慧賦能的生命科學。此外,他還擔任上海交通大學校田徑隊隊長。文章的通訊作者為上海交通大學長聘教軌助理教授、博士生導師王德泉(主頁:https://dequan.wang)。

圖片

設想一下,如果讓你畫一幅 “茶杯中的冰可樂” 的圖片,儘管茶杯與冰可樂的組合可能並不恰當,你仍然會很自然地先畫出一個茶杯,然後畫上冰塊與可樂。那麼,當我們給 AI 畫家提出 “畫出茶杯中的冰可樂” 的要求時,會發生什麼呢?在 2023 年 10 月大規模 AI 影像生成模型剛剛興起時,我們便進行了這種嘗試,得到了以下結果:

圖片

考慮到 AI 模型更新換代帶來的效能提升,我們在 2024 年 7 月又使用了最先進的模型進行了同樣的嘗試:

圖片

可以看出,即使是最先進的 AI 畫家(例如 Dall・E 3),也無法憑空構建 “茶杯中的冰可樂” 的場景,它們往往會摸不著頭腦,糾結良久後畫出一個裝滿冰可樂的透明玻璃杯。即使是擁有昂貴資料標註基礎以及 ChatGPT-4 加持下的最新 Dall・E 3 也無法穩定地 “將冰可樂裝進茶杯裡”,這一問題在學術界被歸類為文生圖模型的文字影像不對齊問題(text-image misalignment)。最近,上海交通大學王德泉老師課題組在論文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中深入探索了這一問題的新分支,該論文即將發表在 2024 年 10 月份的第 18 屆歐洲計算機視覺大會(ECCV)上。

圖片

  • 論文連結:https://arxiv.org/abs/2408.00230
  • 專案連結:https://lcmis.github.io

文字影像不對齊問題是影像生成領域中的一個重要方向,與傳統不對齊問題不同的是,在傳統不對齊問題中,人們主要關注的是一組概念對中兩個概念的相互影響,例如給定 “一個蘋果和一個梨” 的需求,得到的影像要麼是兩個蘋果,要麼是兩個梨,不會出現第三種概念。而在 “茶杯中的冰可樂” 這一例子中,有一個關鍵的隱藏變數 “透明玻璃杯”,其從未在文字提示中出現,卻替代 “茶杯” 出現在了影像中。這種現象在本文中被稱為包含隱藏變數的不對齊問題(Latent Concept Misalignment,簡稱 LC-Mis)。

為了更深入地探索為什麼茶杯會消失在影像中,我們首先希望收集一些與 “茶杯中的冰可樂” 存在相似問題的資料。然而,“茶杯中的冰可樂” 問題源於人類的奇思妙想與 AI 的死記硬背之間的衝突,如果僅依靠人類專家冥思苦想來創造新的概念對,效率將會非常低下。因此,我們設計了一個基於大語言模型(LLMs)的系統,利用 LLMs 體內蘊含的人類思維來幫助我們快速收集與 “茶杯中的冰可樂” 存在類似問題的概念對。在這個系統中,我們首先向 LLMs 解釋 “茶杯中的冰可樂” 問題背後的邏輯,然後簡單地將這一問題劃分為幾個類別,讓 LLMs 按照不同類別的邏輯生成更多的類別和概念對,最後我們使用文生圖模型來繪製影像進行檢查。然而,我們在後續實驗中發現,現有的自動化評價指標在 “茶杯中的冰可樂” 這一新問題上存在一定缺陷。因此,我們只能採用人工評估的方式,我們對每組概念對生成 20 張影像,並根據這 20 張圖中正確畫出的數量為這組概念對給予 1 至 5 的評級,其中第 5 級表示所有 20 張影像均未能正確生成。

為了找回影像中的茶杯,我們提出了一種名為 Mixture of Concept Experts (MoCE) 的方法。我們認為,如果不從人類處理問題的角度來進行思考,那麼人工智慧的一切都是毫無道理的。在當今最火熱的文生圖模型 diffusion models 中,注意力機制會同時處理文字提示中的可樂與茶杯,但這並不符合人類按照概念順序作畫的規律。因此,我們將順序作畫的規律融入到 diffusion models 的多步取樣過程中,成功地將消失的茶杯找了回來:

圖片

具體來說,LLMs 會首先告訴我們應該先畫一個茶杯。接下來,我們將茶杯這一概念單獨輸入給 diffusion models,完成 T-N 步的取樣。而在餘下的 N 步取樣中,再提供完整的文字提示,“茶杯中的冰可樂”,最終生成一張乾淨的影像。在此過程中,N 起到了至關重要的作用,因為它決定了為 “茶杯” 分配的取樣步數。於是,我們使用一個多模態模型來衡量影像與茶杯以及冰可樂的契合度評分。當影像和兩個概念的評分之間相差很大時,說明有一個概念很可能被模型忽略了,於是就需要相應地調整 N 的取值。由於 N 的取值與概念在圖中出現機率之間的關係是正相關的,因此這一調整過程是由二分查詢來完成的。

最後,我們使用 MoCE 以及各種 baseline 模型在收集到的資料集上進行了廣泛的實驗,並展示了以 “茶杯中的冰可樂” 為首的視覺化修復結果,以及在整個資料集上人類專家評估的結果對比。和幾種 baseline 模型相比,我們提出的 MoCE 方法顯著地降低了第 5 級 LC-Mis 概念對的佔比。另外值得注意的是,MoCE 的效能在一定程度上甚至超越了需要大量資料標註成本的 Dall・E 3(2023 年 10 月版本):

圖片

圖片

此外,正如在上文中提到的,現有的自動化評價指標在 “茶杯中的冰可樂” 這一新問題上存在一定缺陷。我們首先仔細挑選了一些帶把的透明玻璃杯影像,它們雖然具有茶杯的形狀,但是由於其透明玻璃的材質而不能稱之為茶杯。我們將這些影像與 MoCE 生成的 “茶杯中的冰可樂” 影像進行了對比,如下圖所示:

圖片

我們使用了兩種當前流行的評價指標,Clipscore 和 Image-Reward,來計算影像與 “冰可樂” 之間的契合程度。影像與冰可樂的契合程度越高,得分就越高。然而,這兩種評價指標均對茶杯中的冰可樂給予了明顯更低的評分,而對透明玻璃杯中的冰可樂賦予了明顯更高的評分。因此,這表明現有的自動化評價指標可能無法識別出茶杯中的冰可樂,因為其模型內部仍存在 “冰可樂 = 冰塊 + 可樂 + 玻璃杯” 的偏見,從而導致其無法有效參與 LC-Mis 問題的評價。

總的來說,我們受到 “茶杯中的冰可樂” 例子的啟發,介紹了一種文字影像不對齊問題的新分支,即包含隱藏概念的不對齊問題 (LC-Mis)。我們在大語言模型和文生圖模型的幫助下,開發了一個系統來收集 LC-Mis 概念對。接下來,我們受到人類繪畫規律的啟發,將繪畫順序引入 diffusion models 的取樣過程,提出了 MoCE 的方法,緩解了 LC-Mis 問題。最後,我們還透過代表例子 “茶杯中的冰可樂” 展示了當下文字影像對齊問題的評價指標存在的缺陷。在未來的工作中,我們將持續深入研究生成式 AI 技術,推動 AI 更好地滿足人類的實際需求,透過不斷的努力和創新,我們期待見證 AI 在理解和再現人類創造力方面的突破。

相關文章