可随意转载!Update 2024.01.21

《 Hierarchical Text-Conditional Image Generation with CLIP Latents 》2022年4月,作者:OpenAI

开源实现:lucidrains/DALLE2-pytorch: Implementation of DALL-E 2, OpenAI’s updated text-to-image synthesis neural network

开源大神说目前更好的版本是:lucidrains/imagen-pytorch: Implementation of Imagen, Google’s Text-to-Image Neural Network

摘要

对比学习模型(CLIP)已被证明能够学习语义和风格。为了利用CLIP进行图像生成,我们提出了一个两阶段模型:

  1. 给定文本结合CLIP生成图像嵌入(embedding)
  2. 由图像嵌入(代替文字引导)生成新的图像(decoder)

结果显示,我们生成的图像表示可以提升在文字和照片相似条件下的多样性。解码器在图像表示 (embedding) 的条件下,也能产生保留其语义和风格的图像的多样性,同时多样性从图像表示中消失的细节。此外,CLIP的联合嵌入空间可以支持零样本方式的语言引导图像生成。我们使用扩散模型作为解码器,并用自回归和扩散模型进行第一步的实验,发现扩散模型在计算上更有效,并能产生更高质量的图像。

一、简介

最近在计算机视觉领域的进步得益于在从互联网收集的大量带有caption的图像数据集[10, 44, 60, 39, 31, 16]。在这个框架中,CLIP[39]已成为了成功的图像表示的学习器。CLIP嵌入具有许多理想的性质:它们对图像分布的改变具有鲁棒性,具有令人印象深刻的零样本能力,并且已经被微调以在各种视觉和语言任务[45]上取得最先进的结果。同时,扩散模型[46, 48, 25]已经成为一个有前途的生成模型框架,推动了图像和视频生成任务[11, 26, 24]的最新进展。为了取得最好的结果,扩散模型利用一种引导技术[11, 24],以牺牲样本多样性的代价提高样本的保真度(照片级保真)。

在本论文中,我们将这两种方法结合起来于解决文本引导图像生成问题。我们首先训练一个扩散解码器来反转CLIP图像编码器。我们的反转器是非确定性的,可以生成对应于图像嵌入(embedding)的多个输出图像。编码器和其近似的反转(解码器)的存在,使得能力超越T2I。就像在GAN反转[62, 55]中一样,编码和解码一个输入图像会产生语义上相似的输出图像(图3)。我们也可以通过插值多个图片嵌入(embedding)来达到插值输入图像的目的(图4)。然而,使用CLIP隐空间的显著优点是:通过朝任何文本向量(text vector)的向量方向移动,可以修改图像的语义(图5),而在GAN隐空间中的这些向量方向揭示哪些特征CLIP被模型识别(或忽略)了。

为了得到这个完整的图像生成模型,我们将CLIP图像嵌入解码器与一个模型(text to image embedding)结合起来,该模型从给定的caption生成CLIP图像嵌入。将我们的模型与其他模型,如DALL-E[40]和GLIDE[35]比较,发现我们的模型在质量上与GLIDE相当,但我们的生成结果更具多样性。我们还开发了在隐空间训练扩散先验(diffusion prior)的方法,结果显示它与自回归先验的方法性能相当,并且在性能上更好。我们将这个完整的算法称为unCLIP,因为它通过反转CLIP图像编码器来生成图像。

二、方法

训练数据集由成对的图像x和caption数据y组成。给定一张图片x,让 zizt 分别代表它的CLIP图像和文本嵌入。我们设计了一个生成算法,使用两个步骤从caption生成图片:

•一个先验的 P(zi|y),它基于caption y生成CLIP图像嵌入 zi

•一个解码器 P(x|zi, y),它基于CLIP图像嵌入 zi(和可选的caption y)条件生成图片x。

解码器使得我们可以输入CLIP图像嵌入反转得到图像,而先验则允许我们学习图像嵌入本身的生成模型。将这两个组件堆叠起来,我们得到了一个给定caption y生成图片x的生成模型:

P(x|y) = P(x, zi | y) = P(x | zi , y) P(zi | y )

第一个等式成立是因为zi是x的确定函数。第二个等式成立是概率论的链式法则。因此,我们可以通过先使用先验采样zi,然后使用解码器采样x,从真正的条件分布P(x|y)中采样。在接下来的部分,我们将描述我们的解码器和先验。关于训练细节和超参数,请参阅附录C。

2.1 解码器

我们使用扩散模型[25, 48]来生成基于CLIP图像嵌入(和可选的caption)的图像。具体来说,我们修改了Nichol等人(2021)描述的架构,将CLIP嵌入投影并添加到现有的时间步嵌入中,并将CLIP嵌入投影到四个额外的上下文标记中,这些标记被连接到GLIDE文本编码器的输出序列中。我们保留了原始GLIDE模型中的文本条件路径,假设它可以让扩散模型学习CLIP无法捕获的自然语言的方面(例如,变量绑定),但发现它在这方面的帮助很小(第7节)。

虽然我们可以直接从解码器的条件分布中进行采样,但过去使用扩散模型的工作显示CFG[11, 24, 35]可以大大提高样本质量。为了实现它,我们在训练期间随机10%概率将CLIP嵌入设置为0(或可学习的嵌入),50%概率随机丢弃caption。

为了生成高分辨率的图像,我们训练了两个扩散上采样模型[34, 43]:一个用于将图像从64×64上采样到256×256的分辨率,另一个用于将这些图像进一步上采样到1024×1024的分辨率。为了提高我们上采样器的鲁棒性,我们在训练期间轻微地破坏了条件图像。对于第一阶段的上采样,我们使用高斯模糊[43],对于第二阶段,我们使用更多样化的BSR降级[42, 59]。为了减少训练计算并提高数值稳定性,我们遵循Rombach等人[42]的方法,在目标大小的四分之一的图像的随机裁剪上进行训练。我们在模型中只使用空间卷积(没有注意力层),并在推理时间直接在目标分辨率上应用模型,观察到它可以很好地推广到更高的分辨率。我发现在上采样器上使用caption没有好处,因此使用无条件无CFG的ADMNets[11]。

2.2 先验

虽然解码器可以将CLIP图像嵌入zi反转为图像x,但我们需要一个先验模型,该模型可以从caption y生成 zi,以实现从caption生成图像。我们探索了两种不同的先验模型类别:

• 自回归(AR)先验:将CLIP图像嵌入zi转换为离散码序列,并基于caption y进行自回归预测。

• 扩散(diffusion)先验:直接使用基于caption y的高斯扩散模型对连续向量zi进行建模。

除了caption之外,我们可以将先验条件化在CLIP文本嵌入zt上,因为它是caption的确定性函数。为了提高样本质量,我们还通过在训练期间以概率10%随机丢弃这个文本信息,为AR和扩散先验启用CFG采样。

为了更高效地训练和从AR先验中采样,我们首先通过应用主成分分析法(PCA)[37]来降低CLIP图像嵌入zi的维度。特别地,我们发现在使用SAM[15]训练CLIP时,CLIP表示空间的秩大大降低,同时略微提高了评估指标。我们能够通过只保留原始1024个主成分中的319个,几乎保留所有的信息2。应用PCA后,我们按照特征值大小的降序排列主成分,将319个维度中的每一个量化为1024个离散的桶,并预测所得序列,使用一个带有因果注意力掩码的Transformer[53]模型。这导致在推理过程中预测的令牌数量减少了三分之一,并提高了训练稳定性。

我们将AR先验条件化在文本标注和CLIP文本嵌入上,将它们编码为序列的前缀。另外,我们在序列前面添加了一个标记,表示文本嵌入和图像嵌入之间的(量化)点积 zi · zt 。这使我们能够将模型条件化在更高的点积上,因为更高的文本-图像点积对应于更好地描述图像的caption。在实践中,我们发现从分布的top half部分采样点积效果比较好。

对于扩散先验,我们按顺序训练一个只有解码器的Transformer(包含因果注意力Mask),顺序是:已编码文本、CLIP文本嵌入、扩散时间步的嵌入、噪声的CLIP图像嵌入,以及一个最后的嵌入,其从Transformer的输出用于预测无噪声的CLIP图像嵌入。我们选择不像在AR先验中那样将扩散先验条件化在 zi·zt 上;相反,我们在采样时间通过生成两个zi的样本并选择与zt的点积较高的一个来提高质量。我们发现,与使用Ho等人[25]提出的ε-prediction公式相比,直接预测无噪声的zi,并在这个预测上使用MSE Loss训练效果更好:

Lprior = Et∼[1,T],z(t)i ∼qt [|| fθ(zi(t), t, y) – zi ||2]

三、图片操作

我们的方法可将任何图像x编码为一个二元隐变量(zi,xT,这对解码器产生准确的重构是足够的。潜在的zi描述了被CLIP识别的图像的方面,而潜在的xT编码了解码器重构x所需的所有剩余信息。前者通过简单地用CLIP图像编码器编码图像来获得。后者通过在对zi的条件下,使用解码器将DDIM反演(附录F在[11]中)应用到x来获得。我们描述了这种二元隐变量能够实现的三种不同类型的操作。

3.1 变体

给定一个图像x,我们可以产生相关的图像,它们具有相同的基本内容,但在其他方面有所不同,如形状和方向(图3)。为了做到这一点,我们将解码器应用到 二元隐变量(zi,xT 上,使用η > 0进行采样的DDIM。当η = 0时,解码器变得确定性,并将重构给定的图像x。η的较大值引入了随机性到连续的采样步骤中,结果在原始图像x的“中心”产生变化。随着η的增加,这些变化告诉我们什么信息被捕获在CLIP图像嵌入中(因此在样本中被保留),什么信息被丢失(因此在样本中发生变化)。

3.2 插值

 还可以将两个图像x1和x2进行混合以产生变化(图4),遍历它们之间出现的CLIP的嵌入空间中的所有概念。为了做到这一点,我们使用球面插值在它们的CLIP嵌入zi1和zi2之间旋转,得到中间的CLIP表示z = slerp(zi1,zi2,θ)当θ从0变化到1。生成沿轨迹的中间DDIM潜变量有两个选项。第一个选项涉及在它们的DDIM反转潜变量xT1和xT2之间插值(通过设置x = slerp(xT1,xT2,θ)),这产生了一个单一的轨迹,其端点重建了x1和x2。第二个选项涉及将DDIM潜变量固定为在轨迹中的所有插值的随机抽样值。这将在x1和x2之间产生无数条轨迹,尽管这些轨迹的端点通常不再与原始图像相吻合。我们在图4中使用了这种方法。

3.3 text diff

 使用CLIP与其他模型进行图像表示的一个关键优势是,它将图像和文本嵌入到同一的隐空间,从而使我们能够应用语言引导的图像操作(即text diff),我们在图5中进行了展示。为了修改图像以反映新的文本描述y,我们首先获得其CLIP文本嵌入zt,以及描述当前图像的说明文字的CLIP文本嵌入zt0。然后我们计算一个文本差异向量zd = norm(zt – zt0) ,通过取它们的差并归一化。现在,我们可以使用球面插值在图像CLIP嵌入zi和文本差异向量zd之间旋转,产生中间的CLIP表示zθ = slerp(zi,zd,θ),其中θ从0线性增加到通常在[0.25, 0.50]范围内的最大值。我们通过解码插值zθ,固定基础DDIM噪声到xT贯穿整个轨迹来产生最终的输出。

四、探索CLIP的隐空间

我们的解码器模型提供了一个独特的机会,通过让我们直接可视化CLIP图像编码器所看到的内容,来探索CLIP隐空间。作为一个示例用例,我们可以重新审视CLIP做出错误预测的情况,如排版攻击[20]。在这些对抗图像中,一段文字被覆盖在一个对象上,这导致CLIP预测的是文字描述的对象,而不是图像中描绘的对象。这段文字本质上在输出概率方面隐藏了原始对象。在图6中,我们展示了来自[20]的这种攻击的一个例子,其中一个苹果可能被误分类为iPod。令人惊讶的是,我们发现我们的解码器仍然以很高的概率生成苹果的图片,尽管“格兰尼·史密斯”(Granny Smith)的预测概率接近零。更值得注意的是,尽管这个标题的预测概率非常高,模型从未生成过iPod的图片。

PCA重构提供了另一种工具,可以用来探索CLIP隐空间的结构。在图7中,我们取一些源图像的CLIP图像嵌入,用逐渐增加的PCA维度对它们进行重构,然后使用我们的解码器和固定种子的DDIM可视化重构的图像嵌入。这使我们能够看到不同维度编码的语义信息。我们观察到,early PCA维度保留了粗粒度的语义信息,比如场景中有哪些类型的对象,而later PCA维度编码了更细粒度的细节,如对象的形状和确切形态。例如,在第一个场景中,早期的维度似乎编码了有食物和可能有一个容器,而后期的维度特定地编码了西红柿和瓶子。图7也作为AR先验建模的一个可视化,因为AR先验被训练来显式地按这个顺序预测这些主成分。

五、T2I生成

5.1 先验的重要性

尽管我们训练了一个先验来从标题生成CLIP图像嵌入,但是在标题到图像生成中,先验并不是严格必要的。例如,我们的解码器可以同时依赖于CLIP图像嵌入和标题,但在训练期间,有5%的时间会丢弃CLIP图像嵌入,以便实现无分类器的引导。因此,在采样时,我们可以仅依赖于标题,尽管这样的表现不如完全以这种方式训练的模型(这个模型是GLIDE,我们在第5.2和5.3节中对GLIDE进行了详细的比较)。另一种可能性是将CLIP文本嵌入输入到解码器,就像它是图像嵌入一样,如之前观察到的[61,54]。图8的前两行显示了以这两种方式获得的样本;第三行显示了使用先验获得的样本。只依赖于标题的解码器显然是最差的,但是零次学习的文本嵌入产生了合理的结果。基于这个观察,另一种方法是训练解码器依赖于CLIP文本嵌入[9],而不是CLIP图像嵌入(尽管我们会失去第4节中提到的能力)。

为了量化这些备选方法的有效性,我们训练了两个模型:一个依赖于CLIP文本嵌入的小解码器,和一个小的unCLIP堆栈(扩散先验与解码器)。然后我们比较了从文本嵌入解码器获得的样本,从unCLIP堆栈获得的样本,以及通过零样本的unCLIP解码器获得的样本,对所有模型的引导尺度进行了扫描。我们发现,这些方法在测试集上分别得到了9.16,7.99和16.55的FID,这表明unCLIP方法最好。我们还进行了人类评估,比较了前两种设置,在使用我们的人类评估代理模型(附录A)对每个模型的采样超参数进行扫描的情况下,我们发现人类在57.0% ± 3.1%的时间内更喜欢完整的unCLIP堆栈,因为它的逼真度和在53.1% ± 3.1%的时间内,因为它的标题相似度。 考虑到先验的重要性,评估训练它的不同方法是值得的。我们在我们的实验中比较了AR和扩散先验。在所有情况下(第5.2,5.4和5.5节),我们发现,对于相当的模型大小和减少的训练计算,扩散先验的性能优于AR先验。

5.2 人类评估

我们在图1中观察到,unCLIP能够合成复杂、逼真的图像。虽然我们可以使用FID来比较过去模型的样本质量,但它并不总是与人类的判断相符。为了更好地评估我们系统的生成能力,我们进行了系统的人类评估,将unCLIP与GLIDE在照片真实感、标题相似性和样本多样性方面进行了比较。

我们遵循Ramesh等人和Nichol等人[40,35]的协议进行前两项评估:对于照片真实感,用户被呈现一对图像,必须选择哪个看起来更真实;对于标题相似性,用户还会被提示一条标题,必须选择哪个图像更符合标题。在这两项评估中,都有第三个“不确定”的选项。对于多样性,我们提出了一种新的评估协议,其中人类被呈现两个4 × 4的样本网格,必须选择哪个更多样化(有第三个选项,“不确定”)。对于这项评估,我们使用MS-COCO验证集的1000个标题生成样本网格,并总是比较相同标题的样本网格。在进行人类比较之前,我们使用一个训练成为人类照片真实感评估代理的CLIP线性探针,对每个模型的采样超参数进行了扫描(附录A)。这些超参数在所有三种类型的评估中都是固定的。

我们在表1中展示了我们的结果。总的来说,与GLIDE进行成对比较时,扩散先验的表现要优于AR先验。我们发现人们在照片真实感方面仍然略微偏爱GLIDE而不是unCLIP,但差距非常小。即使照片真实感相似,unCLIP在多样性方面也比GLIDE更受欢迎,这突出了它的一个优点。

5.3 通过引导提升多样性vs保真度的妥协

与GLIDE相比,我们定性地观察到unCLIP能够在利用指导技术提高样本质量的同时,生成更多样化的图像。为了理解为什么,考虑图9,我们在其中增加了GLIDE和unCLIP的引导强度。对于GLIDE,当我们增加引导强度时,语义(摄像角度,颜色,大小)会收敛,而对于unCLIP,场景的语义信息在CLIP图像嵌入中被冻结,因此在引导解码器时不会崩溃。

在5.2节中,我们观察到unCLIP在保持更多样性的同时,实现了与GLIDE相似的照片般的真实感,但其字幕匹配能力稍差。很自然地会问,是否可以降低GLIDE的 引导强度 ,以在保持更好的字幕匹配的同时,达到与unCLIP相同的多样性水平。在图10中,我们通过对几个GLIDE 引导强度进行人类评估,对这个问题进行了更仔细的研究。我们发现, 引导强度为2.0的GLIDE在照片般的真实感和字幕相似性上非常接近unCLIP,但仍然产生的样本多样性较低。 最后,在图11中,我们计算了在为unCLIP和GLIDE两者扫描 引导强度时的MS-COCO零样本FID [23],发现引导对unCLIP的FID的影响要小于对GLIDE的影响。在此评估中,我们固定了unCLIP先验的 引导强度,只改变解码器的 引导强度。这是另一个表明引导对GLIDE的多样性影响比对unCLIP大的迹象,因为FID严重惩罚了非多样化的生成。

5.4 在MS-COCO上的比较

在文本条件图像生成文献中,评估MS-COCO [28] 验证集的FID已成为标准实践。我们在表2中展示了这个基准测试的结果。与GLIDE和DALL-E一样,unCLIP并未直接在MS-COCO训练集上进行训练,但仍能对验证集进行零样本泛化。我们发现,与这些其他零样本模型相比,当使用扩散先验进行采样时,unCLIP实现了新的最先进的FID,为10.39。在图12中,我们在MS-COCO的几个字幕上,将unCLIP与各种最近的文本条件图像生成模型进行了视觉比较。我们发现,像其他方法一样,unCLIP生成了捕捉文本提示的真实场景。

5.5 审美质量的比较

我们还进行了自动审美质量评估,比较unCLIP和GLIDE。我们的目标是评估每个模型生成艺术插图和照片的能力。为此,我们使用GPT-3 [4]生成了512个“艺术性”字幕,通过给它提供现有艺术品(真实和AI生成)的字幕进行提示。接下来,我们使用AVA数据集 [33](附录A)训练了一个CLIP线性探测器,以预测人类的审美判断。对于每个模型和一组采样超参数,我们为每个提示生成四个图像,并报告2048个图像全批次的平均预测审美判断。 在图13中,我们展示了我们的审美质量评估结果。我们发现,指导改善了GLIDE和unCLIP的审美质量。对于unCLIP,我们只引导解码器(我们发现引导先验伤害了结果)。我们还将审美质量与Recall5进行比较,因为指导通常引发保真度和多样性之间的权衡。有趣的是,我们发现指导unCLIP并未降低召回率,而仍根据这个指标提高了审美质量。

六、相关工作

人造图像生成是一个被广泛研究的问题,最流行的无条件图像生成技术也已被应用到文本条件设置中。许多以前的工作已经在公开可用的图像字幕数据集上训练了GANs [21],以产生文本条件的图像样本 [56, 63,49, 58, 57]。其他工作已经将VQ-VAE方法 [52] 应用到文本条件的图像生成中,通过在文本令牌后面的图像令牌序列上训练自回归变压器 [40, 12, 1]。最后,一些工作已经将扩散模型应用到问题上,训练连续 [35] 或离散 [22] 的扩散模型,并使用辅助文本编码器来处理文本输入。

以前的工作已经利用分层生成过程来创建高质量的合成图像。Razavi等人[41]训练了一个多层离散自动编码器,让他们首先采样粗粒度的潜在代码,然后在采样更高分辨率的潜在代码时使用这个作为条件信息。Child, Vahdat和Kautz [5, 50] 使用具有潜在代码层次结构的VAEs生成图像,这些潜在代码随着分辨率的提高而逐步增加。与我们的工作同时,Gafni等人[17]将生成图像模型条件化在分割掩码上,允许先采样图像的语义地图,然后根据这些信息条件生成图像。

使用扩散来模拟潜在空间的计算优势已被以前的工作注意到。Preechakul等人[38] 提出了一个自动编码器框架,其中扩散模型被用来将潜在变量渲染为图像,第二个扩散模型被用来生成这些潜在变量(类似于我们的扩散先验)。Vahdat等人[51] 使用基于分数的模型来处理VAE的潜在空间,而Rombach等人[42] 在从类似于VQGAN [14] 的自动编码器获得的潜在变量上使用扩散模型。

自从发布以来,CLIP [39] 已被广泛用于引导生成图像模型朝向文本提示。Galatolo等人,Patashnik等人,Murdock,Gal等人[19, 36, 32, 18] 使用来自CLIP模型的梯度引导GANs。对于扩散模型,Dhariwal和Nichol [11] 介绍了分类器引导作为一种使用在噪声图像上训练的分类器的梯度引导模型朝向更高质

量生成的方式。Nichol等人[35]在噪声图像上训练一个CLIP模型,并引导一个文本条件的扩散模型,而Crowson,Crowson[7, 8]使用一个未加噪声的CLIP模型来引导无条件或类条件的扩散模型。Ho和Salimans[24]引入了无分类器的引导,并表明可以从模型的预测中隐含地执行引导,无论是否有条件信息,从而消除了分类器的需要。Nichol等人[35]表明,无分类器引导比CLIP引导对于文本条件图像生成更有利。

有几项以前的工作已经训练了直接依赖CLIP嵌入的生成图像模型。Zhou等人[61]将GAN模型条件化在随机扰动的CLIP图像嵌入上,发现这些模型可以推广到CLIP文本嵌入,产生文本条件图像。Crowson[9]训练了依赖CLIP文本嵌入的扩散模型,允许直接进行文本条件的图像生成。Wang等人[54]训练了一个依赖CLIP图像嵌入的自回归生成模型,发现它能够很好地推广到CLIP文本嵌入,足以允许进行文本条件的图像合成。

Bordes等人[3]训练了依赖对比模型的图像表示的扩散模型。虽然扩散模型本身不能无条件地生成图像,但作者通过使用核密度估计来采样图像表示,尝试了一个简单的两阶段图像生成方法。通过将这些生成的表示馈送到扩散模型,他们可以以与我们提出的技术类似的方式端到端地生成图像。然而,我们的工作与这个有两个不同之处:首先,我们使用多模态对比表示而不是仅仅是图像表示;其次,我们使用更强大的生成模型作为生成层次结构的第一阶段,这些生成模型是依赖于文本的。

七、限制和风险

虽然基于CLIP嵌入的图像生成可以提高多样性,但这种选择确实带来了一些限制。特别是,unCLIP在将属性绑定到对象上的能力比相应的GLIDE模型差。在图14中,我们发现unCLIP在一个需要将两个独立的对象(立方体)与两个独立的属性(颜色)绑定的提示下,比GLIDE更加困难。我们推测这是因为CLIP嵌入本身并未明确地将属性绑定到对象上,而且发现来自解码器的重构经常混淆属性和对象,如图15所示。一个类似且可能相关的问题是unCLIP在生成连贯的文本上存在困难,如图16所示;有可能CLIP嵌入并未精确编码渲染文本的拼写信息。这个问题可能因为我们使用的BPE编码使模型无法看到标题中单词的拼写,所以模型需要在训练图像中独立地看到每个已写出的标记才能学会渲染它。

我们还注意到,我们的堆栈在生成复杂场景的细节上仍然有困难(图17)。我们推测这是我们的解码器层次结构在生成一个基础分辨率为64×64的图像,然后对其进行上采样的限制。在更高的基础分辨率上训练我们的unCLIP解码器应该能够缓解这个问题,但代价是需要更多的训练和推理计算。

正如在GLIDE论文中讨论的,图像生成模型带来了与欺诈和其他有害内容相关的风险。unCLIP的性能改进也提高了与GLIDE相比的风险概况。随着技术的成熟,AI生成的输出留下的痕迹和指标越来越少,使得人们更容易将生成的图像误认为是真实的,反之亦然。还需要进行更多的研究,了解架构改变如何改变模型学习训练数据中的偏见。

这些模型的风险应该与特定的部署环境进行关联评估,包括训练数据,已经设立的防护措施,部署空间,以及谁将获得访问权限。在DALL·E 2预览平台(第一个部署unCLIP模型的地方)的背景下,对这些问题的初步分析可以在Mishkin等人的研究[30]中找到。

实战效果

源图

unclip算法生成图片