首个超大规模GAN模型！生成速度比Diffusion快20+倍，0.13秒出图，最高支持1600万像素

WBOY

发布时间：2023-04-04 11:50:07

1652人浏览过

来源于51CTO.COM

转载

随着openai发布dall-e 2，自回归和扩散模型一夜之间成为大规模生成模型的新标准，而在此之前，生成对抗网络（gan）一直都是主流选择，并衍生出stylegan等技术。

AIGC爆火的背后，从技术的角度来看，是图像生成模型的架构发生了巨大的变化。

瞬映

AI 快速创作数字人视频，一站式视频创作平台，让视频创作更简单。

下载

随着OpenAI发布DALL-E 2，自回归和扩散模型一夜之间成为大规模生成模型的新标准，而在此之前，生成对抗网络（GAN）一直都是主流选择，并衍生出StyleGAN等技术。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

从GAN切换到扩散模型的架构转变也引出了一个问题：能否通过扩大GAN模型的规模，比如说在 LAION 这样的大型数据集中进一步提升性能吗？

最近，针对增加StyleGAN架构容量会导致不稳定的问题，来自浦项科技大学（韩国）、卡内基梅隆大学和Adobe研究院的研究人员提出了一种全新的生成对抗网络架构GigaGAN，打破了模型的规模限制，展示了 GAN 仍然可以胜任文本到图像合成模型。

论文链接：https://arxiv.org/abs/2303.05511

项目链接：https://mingukkang.github.io/GigaGAN/

GigaGAN有三大优势。

1. 它在推理时速度更快，相比同量级参数的Stable Diffusion-v1.5，在512分辨率的生成速度从2.9秒缩短到0.13秒。

2. 可以合成高分辨率的图像，例如，在3.66秒内合成1600万像素的图像。

3. 支持各种潜空间编辑应用程序，如潜插值、样式混合和向量算术操作等。

GAN到极限了吗？

最近发布的一系列模型，如DALL-E 2、Imagen、Parti和Stable Diffusion，开创了图像生成的新时代，在图像质量和模型灵活性方面达到了前所未有的水平。

现在占主导地位的范式「扩散模型」和「自回归模型」，都依赖于迭代推理这把双刃剑，因为迭代方法能够以简单的目标进行稳定的训练，但在推理过程中会产生更高的计算成本。

与此形成对比的是生成对抗网络（GAN），只需要一次forward pass即可生成图像，因此本质上是更高效的。

虽然GAN模型主导了生成式建模的「前一个时代」，但由于训练过程中的不稳定性，对GAN进行扩展需要仔细调整网络结构和训练考虑，因此GANs虽然在为单个或多个对象类别建模方面表现出色，但扩展到复杂的数据集上（更不用说开放世界物体生成了），仍然具有挑战性。

所以目前超大型的模型、数据和计算资源都主要集中在扩散和自回归模型上。

在这项工作中，研究人员主要解决以下问题：

GAN能否继续扩大规模并有可能从这些资源中受益？或者说GAN已经到达极限了？是什么阻碍了GAN的进一步扩展？能否克服这些障碍？

稳定训练GAN

研究人员首先用StyleGAN2进行实验，观察到简单地扩展骨干网会导致不稳定的训练，在确定了几个关键问题后，提出了在增加模型容量的同时稳定训练的技术。

首先，通过保留一个滤波器库（a bank of filters），并采取一个特定样本的线性组合来有效地扩展生成器的容量。

改编了几个在扩散模型上下文中常用的技术，并确认它们可以为GANs带来了类似的性能提升，例如将自注意力机制（仅图像）和交叉注意力（图像-文本）与卷积层交织在一起可以提高性能。

此外，研究人员重新引入了多尺度训练（multi-scaletraining），找到了一个新的方案可以改善图像-文本对齐和生成输出的低频细节。

多尺度训练可以让基于GAN的生成器更有效地使用低分辨率块中的参数，从而具有更好的图像-文本对齐和图像质量。

生成器

GigaGAN的生成器由文本编码分支（text encoding branch）、样式映射网络（style mapping network）、多尺度综合网络（multi-scale synthesis network）组成，并辅以稳定注意力（stable attention）和自适应核选择（adaptive kernel selection）。

在文本编码分支中，首先使用一个预先训练好的 CLIP 模型和一个学习的注意层 T 来提取文本嵌入，然后将嵌入过程传递给样式映射网络 M，生成与 StyleGAN 类似的样式向量 w

合成网络采用样式编码作为modulation，以文本嵌入作为注意力来生成image pyramid，在此基础上，引入样本自适应核选择算法，实现了基于输入文本条件的卷积核自适应选择。

判别器

与生成器类似，GigaGAN的判别器由两个分支组成，分别用于处理图像和文本条件。

文本分支处理类似于生成器的文本分支；图像分支接收一个image pyramid作为输入并对每个图像尺度进行独立的预测。

公式中引入了多个额外的损失函数以促进快速收敛。

实验结果

对大规模文本-图像合成任务进行系统的、受控的评估是困难的，因为大多数现有的模型并不公开可用，即使训练代码可用，从头开始训练一个新模型的成本也会过高。

研究人员选择在实验中与Imagen、Latent Diffusion Models（LDM）、Stable Diffusion和Parti进行对比，同时承认在训练数据集、迭代次数、批量大小和模型大小方面存在相当大的差异。

对于定量评价指标，主要使用Frechet Inception Distance（FID）来衡量输出分布的真实性，并使用CLIP分数来评价图像-文本对齐。

文中进行了五个不同的实验：

1. 通过逐步纳入每个技术组件来展示提出方法的有效性；

2. 文本-图像合成结果表明，GigaGAN表现出与稳定扩散（SD-v1.5）相当的FID，同时生成的结果比扩散或自回归模型快数百倍；

3. 将GigaGAN与基于蒸馏的扩散模型进行对比，显示GigaGAN可以比基于蒸馏的扩散模型更快地合成更高质量的图像；

4. 验证了GigaGAN的上采样器在有条件和无条件的超分辨率任务中比其他上采样器的优势；

5. 结果表明大规模GANs仍然享有GANs的连续和分解潜伏空间的操作，实现了新的图像编辑模式。

经过调参，研究人员在大规模的数据集，如LAION2B-en上实现了稳定和可扩展的十亿参数GAN（GigaGAN）的训练。

并且该方法采用了多阶段的方法，首先在64×64下生成，然后上采样到512×512，这两个网络是模块化的，而且足够强大，能够以即插即用的方式使用。

结果表明，尽管在训练时从未见过扩散模型的图像，但基于文本条件的GAN上采样网络可以作为基础扩散模型（如DALL-E 2）的高效、高质量的上采样器。

这些成果加在一起，使得GigaGAN远远超过了以前的GAN模型，比StyleGAN2大36倍，比StyleGAN-XL和XMC-GAN大6倍。

虽然GiGAN的10亿参数量仍然低于最近发布的最大合成模型，如Imagen（3B）、DALL-E 2（5.5B）和Parti（20B），但目前还没有观察到关于模型大小的质量饱和度。

GigaGAN在COCO2014数据集上实现了9.09的zero-shot FID，低于DALL-E 2、Parti-750M和Stable Diffusion的FID

应用场景

提示插值（Prompt interpolation）

GigaGAN可以在提示之间平滑地插值，下图中的四个角是由同一潜码生成，但带有不同的文本提示。

解耦提示混合（Disentangled prompt mixing）

GigaGAN 保留了一个分离的潜空间，使得能够将一个样本的粗样式与另一个样本的精细样式结合起来，并且GigaGAN 可以通过文本提示直接控制样式。

粗到精风格交换（Coarse-to-fine sytle swapping）

基于 GAN 的模型架构保留了一个分离的潜在空间，使得能够将一个样本的粗样式与另一个样本的精样式混合在一起。

参考资料：

https://mingukkang.github.io/GigaGAN/

Writesonic网页版和APP功能差异是什么_Writesonic版本说明【介绍】

Perplexity怎么搜索Kindle电子书资源_Perplexity图书查找指南【技巧】

JanAI如何在本地运行模型_JanAI本地部署使用方法【说明】

Tabnine团队开发怎么共享模型_协作方法是什么【介绍】

WorkBuddy如何写一份标准的个人年度总结_WorkBuddy成就提炼与亮点展示攻略【职场】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4479

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

504

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2957

2024.08.16

C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开，系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制，同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解，帮助开发者掌握构建稳定高效并发系统的关键技术。

2026.03.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

136

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

380

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

111

2026.03.09

热门下载

网站特效

网站源码

网站素材

前端模板