最大似然估計可能因 "流形過度擬合 "而失敗
今天發表的這篇論文似乎提出了一個大膽的主張,即最大似然估計在深度生成模型中不是一個很好的訓練目標。
流形假設是:觀察到的高維資料聚集在低維流形周圍,但最大似然方法(例如VAE、歸一化流)學習的是高維密度。
本文認為,維度之間的不匹配將導致一個叫做 "流形過擬合 "的問題。
模型能夠透過將低維流形周圍的密度送至無窮大,從而在高維度上實現似然最大化,但它們可以在完全忽略流形上的資料分佈的同時做到這一點。因此,換句話說,高容量模型將學習資料流形,但不學習資料分佈--因此對流形過度擬合。作者說,這 "讓人質疑最大似然作為訓練目標的有效性"。
這似乎非常令人驚訝,因為最大似然訓練基本上是機率建模的核心目標。除了對抗性訓練方法外,大多數方法都使用它。這篇論文聲稱有證據表明流形過擬合會發生,但它依賴於大量的度量理論,所以我不認為我可以驗證它們。
然後介紹了一種兩步的建模方法來解決流形過擬合的問題--首先訓練一個模型來學習流形作為其潛空間,然後在潛空間中訓練第二個模型,學習流形上的分佈。
以下是一些澄清/答案:
- 我們確實聲稱流形過度擬合“質疑最大似然作為訓練目標的有效性”。然而,我們在使用高維密度模型的同時生活在低維流形中的資料的背景下提出了這一主張。我們並不是說標準的最大似然理論是錯誤的,但它不適用於我們感興趣的背景。
- 我們相信 Dai 和 Wipf 的論文 ( https://arxiv.org/abs/1903.05789 ) 是最接近我們自己的論文。我們的第一個定理可以理解為他們的結果的推廣,既適用於基於可能性的 DGM 而不僅僅是 VAE,也適用於更一般的流形類。
- 不幸的是,如果沒有測度論,證明很難解析,因為它提供了同時討論流形支援的分佈和 R^D 支援的分佈所必需的語言。
- VAE 和 NF 通常不能學習支援與 R^d 不同胚的流形,儘管有工作試圖解決這個問題(例如https://arxiv.org/abs/1909.13833和https://arxiv. org/abs/2106.03500)。
- 如結論中所述,正確設定潛在維度需要額外注意。儘管如此,我們相信即使將 d 視為我們任意選擇的超引數,所獲得的經驗改進也是非常有說服力的。
- 我們不認為 FID 總是不可靠的,但是在執行我們的實驗之後,我們確實發現樣本的視覺質量並不總是與 FID 相關。提出基於樣本的績效指標具有挑戰性,並且是一個活躍的研究領域。我們正在為我們的模型計算其他指標。
- 我們注意到一些評論說,在資料中新增少量噪聲應該足以緩解流形過度擬合的問題。我們實際上在論文中討論了這個問題,它有幾個問題: A. 即使在視覺上相似,影像也不會與資料分佈具有相同的分佈。例如,MNIST 影像可能始終具有完全黑色的背景,在新增噪聲後可能會被撤消。B. 直觀地說,新增少量高斯噪聲會導致流形周圍出現高度峰值的密度,這在實踐中可能難以學習。事實上,證明定理 1 的結果正是這些密度將在流形周圍高度剝離。C. 我們實際上比較了將高斯噪聲新增到資料中的模型的經驗效能,
詳細點選標題
相關文章
- 最大似然估計詳解
- 機器學習必知概念:貝葉斯估計、最大似然估計、最大後驗估計機器學習
- 極大似然估計
- [筆記]極大似然估計、最大後驗概率、貝葉斯估計筆記
- 詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解公式
- 01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)演算法
- 極大似然估計理解與應用
- 先驗概率 後驗概率 似然估計
- 最大似然分類器
- 損失函式:最小二乘法與極大似然估計法函式
- 基於極大似然估計方法的diffusion
- 【機器學習】【邏輯迴歸】代價函式為什麼用最大似然估計而不是最小二乘法?機器學習邏輯迴歸函式
- 極大似然估計思想的最簡單解釋
- RMAN-ERROR:因為找不到過期和丟失的歸檔日誌而備份失敗Error
- 最大似然函式和最大後驗概率區別函式
- 讀愛因斯坦流形
- 從DDPM到DDIM (一) 極大似然估計與證據下界
- 如何通俗地理解概率論中的「極大似然估計法」?
- 機器學習–過度擬合 欠擬合機器學習
- npm install失敗的可能NPM
- 從極大似然估計的角度理解深度學習中loss函式深度學習函式
- TCG尋求變革的失敗嘗試,刀牌《Artifact》因何而亡?
- 負對數似然(NLL)和困惑度(PPL)
- 如何解決過度擬合
- 【小白學AI】線性迴歸與邏輯迴歸(似然引數估計)AI邏輯迴歸
- ML-樸素貝葉斯-先驗分佈/後驗分佈/似然估計
- 機器學習系列文章:引數方法(最大似然、分類)機器學習
- Inode建立虛擬通道失敗
- 機器學習--白板推導系列筆記2 概率:高斯分佈之極大似然估計機器學習筆記
- 因需而變 因御而安!東軟何以護航雲端計算?
- 過擬合與欠擬合
- 世界最大圖書館因遭受網路攻擊而癱瘓
- 全球最大語音識別公司 Nuance 因 NotPetya 損失超過 9,000 萬美元
- 阿里失敗的最大原因是什麼?阿里
- Cybersecurity Ventures:2031年全球因勒索軟體造成的損失預估超過2650億美元
- 因 AI 而設計的語言 LISPAILisp
- 虛擬機器連線xshell失敗虛擬機
- 自從做了這個,虛擬機器啟動就沒失敗過。。。虛擬機