彻底改变数字创造力:Stability AI 的 SDXL Turbo 释放实时文本到图像转换的力量

时间:2023-11-30 所属栏目:行业动态 浏览:110
探索Stability AI推出的革命性SDXL Turbo,这是一种先进的文本到图像模型,利用尖端的对抗扩散蒸馏 (ADD) 技术。SDXL Turbo托管在Hugging Face平台上,为实时图像生成树立了新标准,提供高质量、高分辨率的图像合成。

展示

Stability AI 是开源大型模型领域的知名公司,最近因于 11 月 28 日推出创新的文本到图像模型 SDXL Turbo 而成为头条新闻。该新模型托管在 Hugging Face 平台上,能够根据用户提示几乎立即生成图像。尽管偶尔会出现图像质量缺陷,但 SDXL Turbo 前所未有的速度在该领域树立了新标准,超越了 Midjourney 和 DALL-E3 等现有市场领导者,并拓展了创意视野。

SDXL Turbo 的核心是一种称为对抗扩散蒸馏 (ADD) 的尖端技术。该技术使模型能够在单个合成步骤中生成图像,并提供实时文本到图像输出,同时保持高质量采样。这种创新方法的详细信息已发表在一篇研究论文中。不过,SDXL Turbo 目前还不能用于商业用途。

SDXL Turbo 标志着扩散模型技术发展的一个重要里程碑。它是从其前身 SDXL 1.0 发展而来,集成了一种新颖的蒸馏方法 ADD。这种方法结合了 GAN(生成对抗网络)的多项优点,例如单步图像输出,并克服了与其他蒸馏方法相关的伪影或模糊等常见问题。

ADD 的核心在于它能够在保持高图像质量的同时,仅用 1-4 个步骤对大规模基础图像扩散模型进行有效采样。它采用积分蒸馏方法,采用大规模的、预先存在的图像扩散模型作为教学信号,并结合对抗性损失。即使采样步骤数量减少,这也能确保高保真度。比较分析表明,ADD 超越了现有的几步方法,例如 GAN 和潜在一致性模型,只需四步即可与 SDXL 等顶级扩散模型的性能相匹配。ADD 是同类中第一个利用基础模型进行单步实时图像合成的产品。

扩散模型因其在创建和编辑高分辨率图像和视频方面的出色性能而受到认可。然而,它们的迭代性质一直是实时应用的障碍。潜在扩散模型试图通过在计算上更可行的潜在空间中表示图像来解决这个问题,但它们仍然依赖于具有数十亿参数的大规模模型的迭代使用。

除了用于扩散模型的更快采样器之外,模型蒸馏的研究也在不断增长,例如渐进蒸馏和引导蒸馏。这些方法将迭代采样步骤的数量减少到 4-8 个,但会显着损害原始性能并且需要迭代训练过程。一致性模型通过对 ODE 轨迹实施一致性正则化解决了后一个问题,在低样本设置中展示了强大的基于像素的模型性能。LCM 专注于提取潜在扩散模型,只需 4 个采样步骤即可实现卓越的性能。最近,LCM-LoRA 引入了低秩自适应训练,实现了 LCM 模块的高效学习,这些模块可以集成到 SD 和 SDXL 的各种检查点中。InstaFlow 建议使用精馏流来增强蒸馏过程。

这些方法的一个常见挑战是,在四个步骤中合成的样本通常显得模糊并表现出明显的伪影,随着采样步骤的减少,这个问题会变得更糟。GAN 作为文本到图像合成的独立单步模型进行训练,提供令人印象深刻的采样速度,但与基于扩散的模型相比,性能落后。这部分是由于在不破坏稳定 GAN 训练所需的微妙平衡的情况下扩展这些模型并集成神经架构的进步所面临的挑战。

此外,当前领先的文本到图像 GAN 缺乏无分类器引导等方法,而这对于大规模 DM 至关重要。

目的是用尽可能少的采样步骤生成高保真样本,以匹配最先进模型的质量。对抗性目标通过训练模型在单个前向步骤中输出图像流形上的样本来帮助快速生成。将 GAN 扩展到大型数据集表明,不仅需要依赖判别器,还需要依赖预训练的分类器或 CLIP 网络来增强文本对齐。过度使用判别网络会引入伪影并影响图像质量。相比之下,分数蒸馏目标使用预先训练的扩散模型的梯度来提高文本对齐和样本质量。此外,该方法还涉及使用预先训练的扩散模型权重来初始化模型,这是一种已知可以显着改善对抗性损失训练的策略。最后,没有使用纯解码器架构进行 GAN 训练,而是采用标准扩散模型框架,允许迭代细化。

ADD-XL 示例以 1、2 和 4 步展示了不同采样步骤的定性影响。单步采样通常会产生高质量的结果,但增加步数可进一步提高一致性和细节关注度。种子在各列中保持不变,表明整体布局在采样步骤中得到保留,有助于快速输出探索并具有细化的潜力。

在选择 SDXL Turbo 时,团队使用相同的提示比较了各种模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL 和 LCM-XL)。人类评估者随机收到两个输出,并要求选择与提示方向最一致的一个。随后使用相同的方法进行额外的图像质量测试。在这些盲测中,SDXL Turbo 始终优于 LCM-XL 的四步配置,甚至仅用四步就超越了 SDXL 的 50 步配置。这些结果证明了 SDXL Turbo 与先进的多步模型相比具有卓越的性能,在不牺牲图像质量的情况下显着降低了计算要求。

更多行业动态、技术前沿、AI数字人及AI教程等资讯,尽在智慧大脑!我们将持续为您提供最新资讯和深度见解,欢迎定期回访,以保持知识的更新。如果您有任何问题、建议或反馈,请随时与我们联系,再次感谢您一直以来的支持与关注!

文章标签: AI模型 AI工具