自回归可以打败扩散模型吗在图像生成领域

发布时间：2024-11-14 23:39:30点击：

图像生成领域，有这么几种方法，Flow-Based、GAN-Based、VAE+Pixel-CNN系列、扩散模型自回归。更早期的是基于自编码器的图像生成，各种Auto-Encoder模型，以及影响很大的变分自编码器d-VAE。后面又有Flow-Based，不过似乎Flow-Based引起的注意不是那么大。然后是名噪一时的GAN。2020年之后，扩散模型逐渐火热，一直到现在慢慢扩展到视频生成、3D生成、目标检测和语义分割等领域。

与此同时，自回归模型作为语言模型里面的杠把子，也引起了大家的关注，早期的Pixel-CNN也算是自回归图像生成的一种，然后过渡到自编码器+自回归，比如VQ-VAE+Pixel-CNN，然后是CVPR 2021 Oral工作VQ-GAN横空出世，VQ-VAE结合自回归Transformer作为先验替代Pixel_CNN。不过同期扩散模型的发展似乎更为火热一些，提出VQ-GAN的团队也在CVPR 2022提出了日后红极一时的Stable Diffusion系列，可以看作是结合VQ-GAN和扩散模型的工作（当然自回归Transformer需要隐藏一下）。

更早之前，OpenAI提出了Diffusion Models Beat GANs on Image Synthesis（），指出在图像生成领域扩散模型可以打败GAN，之后图像生成领域的流行范式变成了扩散模型（这样说不太准确，其实更早之前，GAN的研究热度也已经慢慢降下来了，DDPM和DDIM之后扩散模型的研究也已经慢慢火热了）。两三年时间，图像生成的扩散模型的研究也逐渐丰满，结合LLM的工作、快速采样生成图片的工作、结合ViT的工作（Diffusion Image Transformer，DiT）也慢慢浮出水面，大家的研究热点也慢慢的走向扩散模型在视频生成领域的应用，虽然可以借鉴之前图像生成的一些经验，遇到的挑战也是更大的。

这个时候其实也是需要思考图像生成中，自回归模型的地位，毕竟之前也有很多优秀的工作，比如OpenAI的iGPT，Meta的MasktGIT。前面也提到过字节也提出了预测下一个level 图像token的自回归图像生成模型 VAR，今天要介绍的也是字节和港大提出的一个工作，其名字也是和Diffusion Models Beat GANs on Image Synthesis有异曲同工之妙，Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation。

文中提到的自回归图像生成模型LlamaGen，模型结构和VQ-GAN是类似的，不过把学习先验的自回归Transformer换成了参数量更大的Llama模型，实现细节也借鉴了VQ-GAN和ViT-VQ-GAN的做法，比如Codebook用更大的Vocabulary，在特征向量量化之前对特征向量进行降维和 L2-norm，损失函数也加入了perceptual loss和PatchGan的对抗学习的损失。

Llama的结构中，基于RMSNorm实现pre-normalization，SwiGLU激活函数和旋转位置编码，也没有使用AdaLN。

文中也提到了一个现象，就是把Codebook的Vocabulary变大之后，想过会更好，当然embedding的usage会下降。但是把Vocabulary的embedding向量的维度降低，也会让embedding的usage提高。

原文链接: