最大似然估計可能因 "流形過度擬合 "而失敗

banq發表於2022-04-20

今天發表的這篇論文似乎提出了一個大膽的主張,即最大似然估計在深度生成模型中不是一個很好的訓練目標。
流形假設是:觀察到的高維資料聚集在低維流形周圍,但最大似然方法(例如VAE、歸一化流)學習的是高維密度。
本文認為,維度之間的不匹配將導致一個叫做 "流形過擬合 "的問題。

模型能夠透過將低維流形周圍的密度送至無窮大,從而在高維度上實現似然最大化,但它們可以在完全忽略流形上的資料分佈的同時做到這一點。因此,換句話說,高容量模型將學習資料流形,但不學習資料分佈--因此對流形過度擬合。作者說,這 "讓人質疑最大似然作為訓練目標的有效性"。

這似乎非常令人驚訝,因為最大似然訓練基本上是機率建模的核心目標。除了對抗性訓練方法外,大多數方法都使用它。這篇論文聲稱有證據表明流形過擬合會發生,但它依賴於大量的度量理論,所以我不認為我可以驗證它們。

然後介紹了一種兩步的建模方法來解決流形過擬合的問題--首先訓練一個模型來學習流形作為其潛空間,然後在潛空間中訓練第二個模型,學習流形上的分佈。

以下是一些澄清/答案:
  1. 我們確實聲稱流形過度擬合“質疑最大似然作為訓練目標的有效性”。然而,我們在使用高維密度模型的同時生活在低維流形中的資料的背景下提出了這一主張。我們並不是說標準的最大似然理論是錯誤的,但它不適用於我們感興趣的背景。
  2. 我們相信 Dai 和 Wipf 的論文 ( https://arxiv.org/abs/1903.05789 ) 是最接近我們自己的論文。我們的第一個定理可以理解為他們的結果的推廣,既適用於基於可能性的 DGM 而不僅僅是 VAE,也適用於更一般的流形類。
  3. 不幸的是,如果沒有測度論,證明很難解析,因為它提供了同時討論流形支援的分佈和 R^D 支援的分佈所必需的語言。
  4. VAE 和 NF 通常不能學習支援與 R^d 不同胚的流形,儘管有工作試圖解決這個問題(例如https://arxiv.org/abs/1909.13833https://arxiv. org/abs/2106.03500)。
  5. 如結論中所述,正確設定潛在維度需要額外注意。儘管如此,我們相信即使將 d 視為我們任意選擇的超引數,所獲得的經驗改進也是非常有說服力的。
  6. 我們不認為 FID 總是不可靠的,但是在執行我們的實驗之後,我們確實發現樣本的視覺質量並不總是與 FID 相關。提出基於樣本的績效指標具有挑戰性,並且是一個活躍的研究領域。我們正在為我們的模型計算其他指標。
  7. 我們注意到一些評論說,在資料中新增少量噪聲應該足以緩解流形過度擬合的問題。我們實際上在論文中討論了這個問題,它有幾個問題: A. 即使在視覺上相似,影像也不會與資料分佈具有相同的分佈。例如,MNIST 影像可能始終具有完全黑色的背景,在新增噪聲後可能會被撤消。B. 直觀地說,新增少量高斯噪聲會導致流形周圍出現高度峰值的密度,這在實踐中可能難以學習。事實上,證明定理 1 的結果正是這些密度將在流形周圍高度剝離。C. 我們實際上比較了將高斯噪聲新增到資料中的模型的經驗效能,


詳細點選標題

相關文章