影像AIGC能成為好的世界模型嗎

banq發表於2024-06-21

生成式模型能成為好的世界模型嗎?

楊麗坤(楊立昆 Yann LeCun)認為:現實主義和多樣性之間存在權衡:

  • 生成模型越現實,其多樣性就越少。
  • 現實主義是以覆蓋率為代價的。逼真是以覆蓋面為代價的。換句話說,最逼真的系統是模式坍縮的。

我的直覺得到了越來越多的經驗證據的支援:

  • 世界模型不應該是生成性的。
  • 它們應該在表示(表徵)空間中進行預測。

這是支援JEPA(聯合嵌入預測架構)的主要論點。
  • 在表示空間中,不存在不可預測或不相關的資訊。

這篇論文討論了條件影像生成模型作為世界模型的潛力,強調了為了成為有效的世界模型,這些模型不僅需要在影像質量和提示-影像一致性方面表現出色,而且還需要確保高度的表示多樣性。

作者指出,當前的研究主要集中在創造性應用上,這些應用主要關注人類對影像質量和美學的偏好,而忽略了表示多樣性。論文中提到了生成模型在推理時的機制——或稱為“旋鈕”,這些可以控制生成過程的一致性、質量和多樣性。

作者使用最新的文字到影像和影像到文字的模型,以及它們的“旋鈕”,來繪製一致性-多樣性-現實感的Pareto前沿,提供了一個全面的多目標視角。

實驗表明:

  • 現實感和一致性可以同時提高,
  • 但現實感/一致性與多樣性之間存在明顯的權衡。

透過觀察Pareto最優點,發現:

  • 早期模型在表示多樣性方面更好,而在一致性/現實性方面較差,
  • 而最近的模型在一致性/現實性方面表現優異,同時顯著降低了表示多樣性。

在對GeoDE資料集的Pareto前沿計算中,作者發現最初的潛在擴散模型版本在所有評估軸上往往比最新模型表現更好,並且存在不同地理區域之間的一致性-多樣性-現實感差異。

總體而言,分析清楚地表明,沒有最好的模型,模型的選擇應該由下游應用來決定。

作者推薦研究社群考慮Pareto前沿作為一種分析工具,以衡量朝著世界模型的進展。

網友:
1、很有意思!對於為什麼大腦確實有一個生成模型,可以從更高層次的假設中填充細節,我發現一個令人信服的論點是,在不同的表徵層次上,視覺感知具有不可避免的一致性。

當你看到花瓶在臉上,你也看到所有的本地數字地面關係翻轉。

大多數神經科學家認為,物體身份(臉與花瓶)是在一個較晚的區域(IT皮層)比區域性圖形背景關係(V2)。

此外,代表左側輪廓的V2細胞可能不會直接與代表右側輪廓的V2細胞對話。

這引發了一個疑問:不可避免的一致性從何而來?
* 如果 * 大腦具有生成模型,而意識完全歸因於自上而下生成的內容,那麼人們可以很好地解釋這種一致性:我們所感知的東西在各個層面上總是一致的,因為它是生成的。

但如果你不相信大腦有一個生成模型,那麼你就需要提出一個替代解釋?

2、我不確定Yann的觀點是否與生成處理的存在相沖突。 例如,“世界模型”可以存在於緊湊的表示空間中,當需要時,該空間可以用於生成處理。

相關文章