Imagen AI:谷歌的突破性文本到图像模型,挖掘真实感与语言理解的边界

时间:2023-11-24 所属栏目:AI大全 浏览:92
Imagen AI是谷歌推出的一款革命性到图像扩散模型,专注于从文本输入创建对应真实感的图像。它集成了大型语言模型(如T5)和先进的扩散模型技术,实现了卓越的图像生成质量和精准的图像文本对齐。

Imagen

Imagen 是由谷歌研究团队开发的一种先进的文本到图像扩散模型。这个模型克服了图像的真实感和深入的语言理解能力而著称。Imagen 利用了大型变形语言模型(如 T5)在理解文本中方面的增强能力,并结合了扩散模型在高保真度图像生成方面的优势。一个关键的发现是,这些基于文本的大型语言模型在编码合成图像文本方面非常有效。通过增加语言模型的大小,图像n在样本真度和图像文本扫描方面的表现导致容易增加图像扩散保模型的大小。Imagen在COCO数据集中达到了新的行业领先的FID得分7.27,并且人类评审员发现Imagen样本在图像文本扫描方面与COCO数据本身并不相上下。

Imagen使用一个大型的T5-XXL编码器将输入文本编码成嵌入向量。然后,一个条件扩散模型将文本嵌入映射成64×64的图像。接着,Imagen利用文本条件超分辨率扩散模型将图像从64×64上采样到256×256,然后再到1024×1024 。

此外,Imagen 引入了一个新的阈值扩散采样器,允许使用非常高效的无分类器引导权重。它还引入了一个新的高效 U-Net 架构,这种架构更加节能、内存,并且收敛速度更快。为了更深入地评估文本对图像模型,Imagen团队还推出了DrawBench,这是一个全面且具有兼容性的文本对图像模型评估基准。通过DrawBench,人类评审员在样本质量和图像文本上进行评估扫描方面更青睐Imagen,与其他模型(如VQ-GAN+CLIP、Latent Diffusion Models、DALL-E 2)进行了比较。

然而,图像面临着伦理挑战。其中包括数据需求导致研究人员依赖大量筛选的网络抽取数据集,这些数据集普遍反映了社会刻板印象、歧视观点和对边缘化身份群体的贬低或其他损害的联系。Imagen依赖于在未筛选的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和限制。这就导致Imagen可能编码了损害的刻板印象和表现。此外,图像在生成绘画的图像人物时存在严重的限制,例如在生成不同职业的图像时倾向符合西方性别刻板印象,以及在生成活动、事件和物体的图像时编码了一系列社会和文化偏见。

更多行业动态、技术前沿、AI数字人及AI教程等资讯,尽在智慧大脑!我们将持续为您提供最新资讯和深度见解,欢迎定期回访,以保持知识的更新。如果您有任何问题、建议或反馈,请随时与我们联系,再次感谢您一直以来的支持与关注!

文章标签: AI模型 AI技术