文章主题:Stable Diffusion, Text Encoding, U-Net, Latent Diffusion
Stable Diffusion是一款文本到图像的潜在扩散模型,该模型由CompVis、Stability AI和LAION的研究团队与工程师共同打造。此模型借助了来自LAION-5B数据库子集中的512×512图像进行训练,从而能够生成包括人脸在内的各类图像。得益于我们有开源的预训练模型,用户可在自己的设备上运行此模型,具体操作可参考下图。
拥有高度智慧和创造力的你,有着无限可能,足以构思出一部引人入胜的视频作品。例如,Xander Steenbrugge凭借此技能,运用上述图片中的提示,成功创作出了《穿越时间》这部令人叹为观止的视频。
以下是他用来创作这幅创造性艺术作品的灵感和文本:
在本篇文章中,我们首先对Stable Diffusion进行了详细的阐述,对其核心构成部分进行了深入探讨。接下来,我们将采用三种不同方法构建图像,这些方法由简单至复杂,全面展示了Stable Diffusion的应用魅力。
Stable Diffusion
Stable Diffusion是一种先进的机器学习算法,其训练后的能力在于逐步减少随机高斯噪声的影响,从而获取高质量感兴趣样本,如图像等。通过训练,该算法能够有效地去除噪声,使得获取到的数据更加准确和可靠。
扩散模型的一个显著缺陷在于其去噪过程在时间和内存上的消耗极高。这种状况会导致运算速度的放缓以及大量的内存使用。这一问题主要源于其在像素空间中的运行特性,尤其是在生成高分辨率图像时。
Stable Diffusion采用了与Latent Diffusion相似的方法,通过在低维度的潜在空间中运用扩散过程,而非实际像素空间,从而有效地降低了内存和计算成本。这种策略在很大程度上缓解了计算成本过高的问题,使得Stable Diffusion在处理图像时能够更加高效。
1、Latent diffusion的主要组成部分
Latent diffusion有三个主要组成部分:
自动编码器(VAE)
自动编码器(VAE)由两个主要部分组成:编码器和解码器。编码器将把图像转换成低维的潜在表示形式,该表示形式将作为下一个组件U_Net的输入。解码器将做相反的事情,它将把潜在的表示转换回图像。
在Latent diffusion训练过程中,利用编码器获得正向扩散过程中输入图像的潜表示(latent)。而在推理过程中,VAE解码器将把潜信号转换回图像。
U-Net
U-Net也包括编码器和解码器两部分,两者都由ResNet块组成。编码器将图像表示压缩为低分辨率图像,解码器将低分辨率解码回高分辨率图像。
为了防止U-Net在下采样时丢失重要信息,通常在编码器的下采样的ResNet和解码器的上采样ResNet之间添加了捷径的连接。
在Stable Diffusion的U-Net中添加了交叉注意层对文本嵌入的输出进行调节。交叉注意层被添加到U-Net的编码器和解码器ResNet块之间。
Text-Encoder
文本编码器将把输入文字提示转换为U-Net可以理解的嵌入空间,这是一个简单的基于transformer的编码器,它将标记序列映射到潜在文本嵌入序列。从这里可以看到使用良好的文字提示以获得更好的预期输出。
为什么Latent Diffusion快速有效
Latent Diffusion之所以快速有效,是因为它的U-Net是在低维空间上工作的。与像素空间扩散相比,这降低了内存和计算复杂度。例如,一个(3,512,512)的图像在潜在空间中会变成(4,64,64),内存将会减少64倍。
Stable Diffusion的推理过程
首先,模型将潜在空间的随机种子和文本提示同时作为输入。然后使用潜在空间的种子生成大小为64×64的随机潜在图像表示,通过CLIP的文本编码器将输入的文本提示转换为大小为77×768的文本嵌入。
然后,使用U-Net 在以文本嵌入为条件的同时迭代地对随机潜在图像表示进行去噪。 U-Net 的输出是噪声的残差,用于通过scheduler 程序算法计算去噪的潜在图像表示。 scheduler 算法根据先前的噪声表示和预测的噪声残差计算预测的去噪图像表示。
许多不同的scheduler 算法可以用于这个计算,每一个都有它的优点和缺点。对于Stable Diffusion,建议使用以下其中之一:
PNDM scheduler (默认)DDIM schedulerK-LMS scheduler去噪过程重复约50次,这样可以逐步检索更好的潜在图像表示。一旦完成,潜在图像表示就会由变分自编码器的解码器部分进行解码。
使用 Hugging Face的API
Hugging Face提供了一个非常简单的API来使用我们的模型生成图像。在下图中可以看到我使用了“astronaut riding a horse”作为输入得到输出图像:
他提供的模型还包含了一些可用的高级选项来改变生成的图像的质量,如下图所示:
这里的四个选项说明如下:
images:该选项控制的生成图像数量最多为4个。
Steps:此选项选择想要的扩散过程的步骤数。步骤越多,生成的图像质量越好。如果想要高质量,可以选择可用的最大步骤数,即50。如果你想要更快的结果,那么考虑减少步骤的数量。
Guidance Scale:Guidance Scale是生成的图像与输入提示的紧密程度与输入的多样性之间的权衡。它的典型值在7.5左右。增加的比例越多,图像的质量就会越高,但是你得到的输出就会越少。
Seed:随机种子够控制生成的样本的多样性
使用Diffuser 包
第二种使用的方法是使用Hugging Face的Diffusers库,它包含了目前可用的大部分稳定扩散模型,我们可以直接在谷歌的Colab上运行它。
第一步是打开谷歌collab,检查是否连接到GPU,可以在资源按钮中查看,如下图所示:
另一个选择是从运行时菜单中选择更改运行时类型,然后检查硬件加速器被选择为GPU:
我们确保使用GPU运行时后,使用下面的代码,查看我们得到的GPU
!nvidia-smi
非常不幸我们只分配到了一个T4,如果你能分配到一块P100,那么你的推理速度会变得更快
下面我们安装一些需要的包:diffusers ,scipy, ftfy和transformer:
这里需要的额外操作是必须同意模型协议,还要通过勾选复选框来接受模型许可。“Hugging Face”上注册,并获得访问令牌等等。
另外对于谷歌collab,它已经禁用了外部小部件,所以需要启用它。运行以下代码这样才能够使用“notebook_login”
现在就可以从的账户中获得的访问令牌登录Hugging Face了:
从diffusers库加载StableDiffusionPipeline。StableDiffusionPipeline是一个端到端推理管道,可用于从文本生成图像。
我们将加载预训练模型权重。模型id将是CompVis/ stable-diffusion-v1-4,我们也将使用一个特定类型的修订版torch_dtype函数。设置revision = “fp16”从半精度分支加载权重,并设置torch_dtype = ” torch。torch_dtype = “torch.float16”告诉模型使用fp16的权重
像这样设置可以减少内存,并且运行的更快。
下面设置GPU
现在就可以生成图片了。我们将编写一个提示文本并将其交给管道并打印输出。这里的输入提示是“an astronaut riding a horse”,让看看输出:
每次运行上面的代码,都会得到不同的图像。为了每次都得到相同的结果,你可以向传递一个随机种子,如下面的代码所示:
还可以使用num_inference_steps参数更改步骤的数量。一般来说,推理步骤越多,生成的图像质量越高,但生成结果需要更多的时间。如果你想要更快的结果,你可以使用更少的步骤。
下面的单元格使用与前面相同的种子,但步骤更少。注意一些细节,如马头或头盔,比前一张图定义得更模糊:
另一个参数是Guidance Scale。这是一种提高对条件信号的依从性的方法,在扩散模型的情况下它是文本和整体样本质量。
简单地说,无分类信息的引导迫使生成与文本提示更好地匹配。像7或8.5这样的数字可以给出很好的结果。如果使用的数字非常大图像可能看起来很好,但会减少多样性。
如果要为相同的文本提示生成多个图像,只需重复多次输入相同的文本即可。我们可以把文本的列表发送到模型中,让我们编写一个助手函数来显示多个图像
现在,我们可以生成多个图像并一起展示了。
还可以生成n*m张图像:
生成的图像默认大小为512*512像素。可以使用height和width参数来更改生成图像的高度和宽度。这里有一些选择好的图片大小的技巧:
将height和width参数都选择为8的倍数。高度和宽度设置为小于512,可能会导致质量比较差如果两个都设置为512以上可能会出现全局连贯性(Global Coherence),所以如果需要大图像可以试试选一个值固定的512,而另一个大于512。例如下面的大小:
建立你自己的处理管道
我们也可以通过Diffusers自定义扩散管道与扩散器。这里将演示如何使用不同的scheduler,即Katherine Crowson的K-LMS调度器。
我们先看一下StableDiffusionPipeline:
预训练的模型包括建立一个完整的管道所需的所有组件。它们存放在以下文件夹中:
text_encoder:Stable Diffusion使用CLIP,但其他扩散模型可能使用其他编码器,如BERT。
tokenizer:它必须与text_encoder模型使用的标记器匹配。
scheduler:用于在训练过程中逐步向图像添加噪声的scheduler算法。
U-Net:用于生成输入的潜在表示的模型。
VAE,我们将使用它将潜在的表示解码为真实的图像。
可以通过引用组件被保存的文件夹,使用from_pretraining的子文件夹参数来加载组件。
现在,我们不加载预定义的scheduler,而是加载K-LMS
将模型移动到GPU上。
定义用于生成图像的参数。与前面的示例相比,设置num_inference_steps = 100来获得更明确的图像。
获取文本提示的text_embeddings。然后将嵌入用于调整U-Net模型。
获得用于无分类器引导的无条件文本嵌入,这只是填充令牌(空文本)的嵌入。它们需要具有与text_embeddings (batch_size和seq_length)相同的形状。
对于无分类的引导,需要进行两次向前传递。第一个是条件输入(text_embeddings),第二个是无条件嵌入(uncond_embeddings)。把两者连接到一个批处理中,以避免进行两次向前传递:
生成初始随机噪声:
产生的形状为64 * 64的随机潜在空间。模型会将这种潜在的表示(纯噪声)转换为512 * 512的图像。
使用所选的num_inference_steps初始化scheduler。这将计算sigma和去噪过程中使用的确切步长值:
K-LMS需要用它的sigma值乘以潜在空间的值:
最后就是去噪的循环:
然后就是使用vae可将产生的潜在空间解码回图像:
最后将图像转换为PIL,以便我们可以显示或保存它。
这样一个完整的Stable Diffusion模型的处理过程就完成了。看完本文希望你已经知道了如何使用Stable Diffusion以及它具体工作的原理,如果你对他的处理流程还有疑问,可以通过自定义处理管道来深入的了解他的工作流程,希望本文对你有所帮助。
如果你对本文感兴趣 代码在这里:https://github.com/youssefHosni/Stable-Diffusion
作者:Youssef Hosni
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!