2024年6月計算機視覺論文推薦:擴散模型、視覺語言模型、影片生成等

deephub發表於2024-06-23

6月還有一週就要結束了,我們今天來總結2024年6月上半月發表的最重要的論文,重點介紹了計算機視覺領域的最新研究和進展。

Diffusion Models

1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

LlamaGen,是一個新的影像生成模型,它將原始的大型語言模型的“下一個標記預測”正規化應用於視覺生成領域。傳統的自迴歸模型,如Llama,在視覺訊號上沒有歸納偏差,如果適當縮放,可以達到最先進的影像生成效能。論文LLM服務框架在最佳化影像生成模型的推理速度方面的有效性,並實現了326% - 414%的加速。

https://avoid.overfit.cn/post/d279d7b4b6c14bbb91de0d8fd786ecd8

相關文章