探索AI图像生成器的秘密：DALL-E2、StableDiffusion和Midjourney的技术原理

文章主题：AI图像生成器, DALL-E 2, Stable Diffusion, Midjourney

【本文作者：人工智能助手】随着AIGC的崛起，相信大家对于文生图工具DALL-E 2、Stable Diffusion和Midjourney已经有所了解。在本期的IDP Inspiration中，我们将带领大家深入探究这三款工具的技术原理，揭示其背后的秘密。

以下是译文，Enjoy!】

作者 | Arham Islam

编译 | 岳扬

在过去几年中，人工智能（AI）领域取得了显著进步，其中涌现出了众多创新产品，AI图像生成器便是其中之一。这种设备具备将输入语句转化为图像的特性，使得文本与图像之间的转换变得轻松便捷。尽管市场上存在诸多文本转图像的AI工具，但DALL-E 2、Stable Diffusion和Midjourney仍然脱颖而出，成为了最为突出的三款产品。

01 DALL·E 2及其背后的技术

DALL-E 2，作为一款由OpenAI研发的先进技术，将文本描述转换成图像的创新能力推至新高度。该系统依托于超过100亿个参数训练的GPT-3转化器模型，具备了深度理解自然语言输入的能力，进而生成与之匹配的图像。

一幅描述篮球运动员灌篮的油画，具有星云爆炸的效果 – 图片由DALLE 2创作

DALL-E 2主要分为两个关键部分。首先，它将用户输入转化为图像表示，也就是所谓的 Prior 阶段；接着，该系统将此图像表示转换成真实照片，完成整个过程的 Decoder 阶段。

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

在本文中，我们采用了来自名为 CLIP 的另一个网络的文本和图像嵌入，该网络由 OpenAI 开发。CLIP 是一个神经网络，专门用于为输入图像提供最佳标题。与 DALL-E 2 不同，CLIP 将图像转化为文本，而 DALL-E 2 则是将文本转化为图像。我们引入 CLIP 的目的在于探索物体视觉和文字表述之间的内在联系。

CLIP – 为图像返回最佳的文本

DALL-E 2 的主要任务在于训练两种不同的模型。第一种模型名为 Prior，它负责接收文本标签，然后利用 CLIP 图像嵌入技术来生成相应的图像。而第二种模型则被称为 Decoder，它的作用是接收 Prior 生成的 CLIP 图像嵌入，并进一步生成具有特定内容和风格的新图像。当这两种模型经过充分的训练之后，它们就可以用于推理过程了。具体来说，用户首先需要输入一段文本，然后 Prior 模型会根据该文本标签生成一张 CLIP 图像嵌入。接下来，Decoder 模型将接收到这个图像嵌入，并基于此生成一张新的图像。这样，用户就可以通过这种方式快速地创作出许多具有不同内容和风格的新图像了。

输入的文本被转化为使用神经网络的CLIP文本嵌入。使用主成分分析（Principal Component Analysis）降低文本嵌入的维度。使用文本嵌入创建图像嵌入。进入Decoder步骤后，扩散模型被用来将图像嵌入转化为图像。图像被从64×64放大到256×256，最后使用卷积神经网络放大到1024×1024。

02. Stable Diffusion及其技术

Stable Diffusion是一个文转图的模型，其使用了CLIP ViT-L/14文本编码器，能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散（diffusion）”的过程——从有噪声的情况开始，逐渐改善图像，直到完全没有噪声，逐步接近所提供的文本描述。

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 – 图片由Stable Diffusion生成

Stable Diffusion是基于Latent Diffusion Model（LDM）的，LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前，让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型（Diffusion Models, DM）是基于Transformer的生成模型，它采样一段数据（例如图像）并随着时间的推移逐渐增加噪声，直到数据无法被识别。该模型尝试将图像回退到原始形式，在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源，而且由于序列化评估(Sequential Evaluations)，推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性，Stable Diffusion将DM应用于强大的预训练自动编码器（Pre-trained Autoencoders）。

在这样的前提下训练扩散模型，使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点，显著提高视觉真实程度。在模型结构中引入交叉注意力层（cross attention layer），使扩散模型成为一个强大而灵活的生成器，实现基于卷积的高分辨率图像生成。