AI图像生成的原理揭秘：StableDiffusion的工作方式

文章主题：自然语言词汇, 文章关键词, LRS, 图解Transformer

编辑：LRS

【新智元导读】小白都能看懂的Stable Diffusion原理！

是否还有记忆中那个风靡全球的图解Transformer呢？近期，知名博主Jay Alammar在个人博客中对备受关注的Stable Diffusion模型进行了深度剖析，为你提供了一份详尽的图解教程，从基础到进阶，全方位助你掌握图像生成模型的核心原理。此外，他还搭配了丰富的视频教学，让你更加直观地理解并应用这些关键知识点。

文章链接：https://jalammar.github.io/illustrated-stable-diffusion/视频链接：https://www.youtube.com/watch?v=MXmacOUJUaw

图解Stable Diffusion

原内容提到了人工智能模型在图像生成方面的突破性进展，能够根据文字描述生成令人震撼的视觉效果，其神秘的运行机制影响了人类创作艺术的方式。同时，稳定扩散（Stable Diffusion）的发布成为AI图像生成发展的一个重要里程碑，为公众提供了高性能、高质量的图像生成工具，且资源与内存需求相对较低。文章将揭示稳定扩散的工作原理，满足人们对这一技术的好奇心。经过深入研究，我们发现人工智能模型已经成功地实现了基于文字描述生成图像的创新功能，这一成果远超出了人们的预期。这种技术的出现，使得人类在创作艺术时拥有了全新的可能。稳定扩散的问世是一个重要的里程碑，相当于为大众提供了一个高性能的图像生成模型。它的出现，使得生成的图像质量极高，运行速度迅速，而且对资源和内存的需求也相对较低。对于那些亲身体验过AI图像生成技术的人来说，都想要深入了解它的工作原理。为此，本文将为大家揭开Stable Diffusion神秘的面纱，揭示它的工作原理。通过对稳定扩散的深入剖析，我们将了解到这个强大技术是如何通过文字描述生成令人惊叹的图像的，从而帮助人们更好地理解和应用这一创新技术。

Stable Diffusion在功能上主要涵盖两个方面：一是其核心功能——仅根据文本提示生成相应图像（text2img）；二是用户还可以利用它根据文字描述对图像进行调整（即将输入转化为文本和图像）。

在本文中，我们将通过图示来深入解析Stable Diffusion的组成部分以及它们之间的互动关系。同时，我们也将详细介绍图像生成的各项选项与参数所代表的含义。

Stable Diffusion组件

Stable Diffusion是一个复杂的系统，它由多个组件和模型共同构建而成，并非仅由单一模型组成。当我们从整体上观察这个系统时，可以看到它包含一个文本理解模块，该模块负责将文本信息转化为数字形式（numeric representation），从而捕获文本中的深层语义信息。

尽管我们当前主要从宏观视角分析模型，但随着更多细节的逐步呈现，我们可以对模型做出更深入的推测。文本编码器，作为一个独特的Transformer语言模型（尤其是CLIP模型的文本编码器），在处理输入文本字符串时，将其转化为数字列表形式，以体现文本中每个单词/token的特性。具体来说，我们会将每个token都转换成一个向量，从而为后续处理提供基础。接着，这些信息会传递至图像生成器（image generator），它内部同样拥有多个组件。

图像生成器主要包括两个阶段：1. Image information creator这个组件是Stable Diffusion的独家秘方，相比之前的模型，它的很多性能增益都是在这里实现的。该组件运行多个steps来生成图像信息，其中steps也是Stable Diffusion接口和库中的参数，通常默认为50或100。

图像信息创建器完全在图像信息空间（或潜空间）中运行，这一特性使得它比其他在像素空间工作的Diffusion模型运行得更快；从技术上来看，该组件由一个UNet神经网络和一个调度（scheduling）算法组成。扩散（diffusion）这个词描述了在该组件内部运行期间发生的事情，即对信息进行一步步地处理，并最终由下一个组件（图像解码器）生成高质量的图像。2. 图像解码器图像解码器根据从图像信息创建器中获取的信息画出一幅画，整个过程只运行一次即可生成最终的像素图像。

可以看到，Stable Diffusion总共包含三个主要的组件，其中每个组件都拥有一个独立的神经网络：1）Clip Text用于文本编码。输入：文本输出：77个token嵌入向量，其中每个向量包含768个维度2）UNet + Scheduler在信息（潜）空间中逐步处理/扩散信息。输入：文本嵌入和一个由噪声组成的初始多维数组（结构化的数字列表，也叫张量tensor）。输出：一个经过处理的信息阵列3）自编码解码器（Autoencoder Decoder），使用处理过的信息矩阵绘制最终图像的解码器。输入：处理过的信息矩阵，维度为（4, 64, 64）输出：结果图像，各维度为（3，512，512），即（红/绿/蓝，宽，高）

什么是Diffusion？

扩散是在下图中粉红色的图像信息创建器组件中发生的过程，过程中包含表征输入文本的token嵌入，和随机的初始图像信息矩阵（也称之为latents），该过程会还需要用到图像解码器来绘制最终图像的信息矩阵。

整个运行过程是step by step的，每一步都会增加更多的相关信息。为了更直观地感受整个过程，可以中途查看随机latents矩阵，并观察它是如何转化为视觉噪声的，其中视觉检查（visual inspection）是通过图像解码器进行的。

整个diffusion过程包含多个steps，其中每个step都是基于输入的latents矩阵进行操作，并生成另一个latents矩阵以更好地贴合「输入的文本」和从模型图像集中获取的「视觉信息」。

将这些latents可视化可以看到这些信息是如何在每个step中相加的。

整个过程就是从无到有，看起来相当激动人心。

，时长00:07

步骤2和4之间的过程转变看起来特别有趣，就好像图片的轮廓是从噪声中出现的。

，时长00:06

Diffusion的工作原理

使用扩散模型生成图像的核心思路还是基于已存在的强大的计算机视觉模型，只要输入足够大的数据集，这些模型可以学习任意复杂的操作。假设我们已经有了一张图像，生成产生一些噪声加入到图像中，然后就可以将该图像视作一个训练样例。

使用相同的操作可以生成大量训练样本来训练图像生成模型中的核心组件。

上述例子展示了一些可选的噪声量值，从原始图像(级别0，不含噪声)到噪声全部添加(级别4) ，从而可以很容易地控制有多少噪声添加到图像中。所以我们可以将这个过程分散在几十个steps中，对数据集中的每张图像都可以生成数十个训练样本。

基于上述数据集，我们就可以训练出一个性能极佳的噪声预测器，每个训练step和其他模型的训练相似。当以某一种确定的配置运行时，噪声预测器就可以生成图像。

移除噪声，绘制图像

经过训练的噪声预测器可以对一幅添加噪声的图像进行去噪，也可以预测添加的噪声量。

由于采样的噪声是可预测的，所以如果从图像中减去噪声，最后得到的图像就会更接近模型训练得到的图像。

得到的图像并非是一张精确的原始图像，而是分布（distribution），即世界的像素排列，比如天空通常是蓝色的，人有两只眼睛，猫有尖耳朵等等，生成的具体图像风格完全取决于训练数据集。

不止Stable Diffusion通过去噪进行图像生成，DALL-E 2和谷歌的Imagen模型都是如此。需要注意的是，到目前为止描述的扩散过程还没有使用任何文本数据生成图像。因此，如果我们部署这个模型的话，它能够生成很好看的图像，但用户没有办法控制生成的内容。在接下来的部分中，将会对如何将条件文本合并到流程中进行描述，以便控制模型生成的图像类型。

加速：在压缩数据上扩散

为了加速图像生成的过程，Stable Diffusion并没有选择在像素图像本身上运行扩散过程，而是选择在图像的压缩版本上运行，论文中也称之为「Departure to Latent Space」。整个压缩过程，包括后续的解压、绘制图像都是通过自编码器完成的，将图像压缩到潜空间中，然后仅使用解码器使用压缩后的信息来重构。

前向扩散（forward diffusion）过程是在压缩latents完成的，噪声的切片（slices）是应用于latents上的噪声，而非像素图像，所以噪声预测器实际上是被训练用来预测压缩表示（潜空间）中的噪声。

前向过程，即使用使用自编码器中的编码器来训练噪声预测器。一旦训练完成后，就可以通过运行反向过程（自编码器中的解码器）来生成图像。

前向和后向过程如下所示，图中还包括了一个conditioning组件，用来描述模型应该生成图像的文本提示。

文本编码器：一个Transformer语言模型

模型中的语言理解组件使用的是Transformer语言模型，可以将输入的文本提示转换为token嵌入向量。发布的Stable Diffusion模型使用 ClipText (基于 GPT 的模型) ，这篇文章中为了方便讲解选择使用 BERT模型。

Imagen论文中的实验表明，相比选择更大的图像生成组件，更大的语言模型可以带来更多的图像质量提升。早期的Stable Diffusion模型使用的是OpenAI发布的经过预训练的 ClipText 模型，而在Stable Diffusion V2中已经转向了最新发布的、更大的CLIP模型变体OpenClip.CLIP是怎么训练的？CLIP需要的数据为图像及其标题，数据集中大约包含4亿张图像及描述。