CV圈对决：谷歌提出ViTGAN，用视觉Transformer训练GAN_

卷积神经网络（convoluitonal neural networks，CNN）凭借强大的卷积和池化（pooling）能力，在计算机视觉领域占领主导地位。

而最近Transformer架构的兴起，开始在图像和视频识别任务中与CNN「掰头」。特别是视觉Transformer（ViT）。

Dosovitskiy等人的研究已经展示了将图像解释为一系列类似于自然语言中的单词的标记（token）。在ImageNet基准测试中，以较小的FLOP实现可比的分类精度。

现在尽管ViT及其变体仍然处于起步阶段，但鉴于ViT在图像识别方面表现出对竞争性，以及需要较少的视觉特定归纳偏差，ViT能不能扩展应用到图像生成呢？

由谷歌和加州大学圣地亚哥分校组成的研究团队对这个问题进行了研究，并发表了论文：ViTGAN：用视觉Transformer训练生成对抗网络（GAN）。

△ https://arxiv.org/pdf/2107.04589.pdf

论文研究的问题是：ViT是否可以在不使用卷积或池化的情况下完成图像生成任务，即ViT是否能用具有竞争质量的GAN训练出基于CNN的GAN。

研究团队将ViT架构集成到中GAN中，发现现有的GAN正则化方法与自我注意机制的交互很差，导致训练过程中严重的不稳定。

因此，团队引入了新的正则化技术来训练带有ViT的GAN，得出以下研究结果：

1. ViTGAN模型远优于基于Transformer的GAN模型，在不使用卷积或池化的情况下，性能与基于CNN的GAN（如Style-GAN2）相当。

2. ViTGAN模型是首个在GAN中利用视觉Transformer的模型之一。

3. ViTGAN模型展示了在标准图像生成基准（包括CIFAR、CelebA和LSUN bedroom数据集）中，这种Transformer与最先进的卷积架构具有可比性的方法。

实验方法

上图说明了ViTGAN的架构，包括一个ViT鉴别器和一个基于ViT的生成器。

实验发现，直接使用ViT作为鉴别器会使训练变得不稳定。作者对生成器和鉴别器都引入了新的技术，用来稳定训练动态并促进收敛。(1)ViT鉴别器的正则化；(2)生成器的新架构。

由于现有的 GAN 正则化方法与 self-attention 的交互很差，在训练过程中导致严重的不稳定。

为了解决这个问题，作者引入了新颖的「正则化」技术来训练带有 ViT 的 GAN数据集上实现了与最先进的基于CNN 的 StyleGAN2 相当的性能。

利普希茨连续（Lipschitz continuity）在GAN鉴别器中很重要，首先它作为WGAN中近似Wasserstein距离的一个条件而引入注意力，后来在其他GAN设置中被证实超出了 Wasserstein损失。特别是，证明了Lipschitz鉴别器保证了最优鉴别函数的存在以及唯一纳什均衡的存在。

然而，最近的一项工作表明，标准dot product self-attention（即Equation 5）层的Lipschitz常数可以是无界的，使Lipschitz连续在ViTs中被违反。

如Equation 7所示，实验用欧氏距离代替点积相似度，query 和 key的投影矩阵的权重也是一样的。