為什麼擴散diffution模型如此強大? - Reddit

banq發表於2022-04-21

可以在這裡看到200行程式碼,但它背後的數學是如此簡單,這演算法智慧且簡單,但它的生成結果似乎比 GAN 更令人難以置信,而且它的速度很快,模型大小也不算大。
案例: https://openai.com/dall-e-2/

部分原因在於其逐漸新增/去除噪聲的性質,而不是像 GAN、VAE 或流那樣必須一次生成整張圖片。
當資料真的很嘈雜時,它不能正確地去噪所有的細節,所以它只學習大規模的結構。當資料的噪聲較小(t 較小)時,它可以擔心生成精細的細節而不關注結構的連貫性,因為此時影像的結構已經建立。
它就像畫肖像 :你首先畫出頭部形狀,然後新增眼睛鼻子和嘴巴,然後是睫毛和頭髮等等。第一次就很難做到,這就是為什麼像 DDPM 或 AR 模型這樣的多步模型總是更強大的原因。
它比 AR 模型(至少對於影像)更好的部分原因是它們不會引入歸納偏差,例如從左上角生成。此外,它可以在每一步自由更改整個影像,這與之前的條目在生成後都固定不變的 AR 模型不同,您只需在資料中新增一個新條目。
回到肖像示例,假設您開始繪製某人的臉,但在繪製他們的左眼時搞砸了。使用 AR 建模,您不能只是返回並擦除左眼,您所能做的就是繪製人臉的右下部分。
至於第2點:一篇論文解釋瞭如何在分類資料(文字)上使用擴散模型。還有一篇更新的論文與擴散模型(使用逐漸去噪)類似,效果很好。
 

相關文章