0

0

斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!

WBOY

WBOY

发布时间:2023-04-09 18:51:01

|

1919人浏览过

|

来源于51CTO.COM

转载

最近,无分类器的指导扩散模型(classifier-free guided diffusion models)在高分辨率图像生成方面非常有效,并且已经被广泛用于大规模扩散框架,包括DALL-E 2、GLIDE和Imagen。

然而,无分类器指导扩散模型的一个缺点是它们在推理时的计算成本很高。因为它们需要评估两个扩散模型——一个类别条件模型(class-conditional model) 和一个无条件模型(unconditional model),而且需要评估数百次。

为了解决这个问题,斯坦福大学和谷歌大脑的学者提出使用两步蒸馏(two-step distillation)的方法来提升无分类器指导扩散模型的采样效率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文地址:https://arxiv.org/abs/2210.03142

XPaper Ai
XPaper Ai

AI撰写论文、开题报告生成、AI论文生成器尽在XPaper Ai论文写作辅助指导平台

下载

如何将无分类器指导扩散模型提炼成快速采样的模型?

首先,对于一个预先训练好的无分类器指导模型,研究者首先学习了一个单一的模型,来匹配条件模型和无条件模型的组合输出。

随后,研究者逐步将这个模型蒸馏成一个采样步骤更少的扩散模型。

可以看到,在ImageNet 64x64和CIFAR-10上,这种方法能够在视觉上生成与原始模型相当的图像。

只需4个采样步骤,就能获得与原始模型相当的FID/IS分数,而采样速度却高达256倍。

图片

可以看到,通过改变指导权重w,研究者蒸馏的模型能够在样本多样性和质量之间进行权衡。而且只用一个取样步骤,就能获得视觉上愉悦的结果。

扩散模型的背景

通过来自数据分布图片的样本x,噪声调度函数图片研究者通过最小化加权均方差来训练了具有参数θ的扩散模型图片

图片

其中图片是信噪比,图片图片是预先指定的加权函数。

一旦训练了扩散模型图片,就可以使用离散时间DDIM采样器从模型中采样。

具体来说,DDIM采样器从 z1 ∼ N (0,I)开始,更新如下

图片

其中,N是采样步骤的总数。使用图片,会生成最终样本。

无分类器指导是一种有效的方法,可以显著提高条件扩散模型的样本质量,已经广泛应用于包括GLIDE,DALL·E 2和Imagen。

它引入了一个指导权重参数图片来衡量样本的质量和多样性。为了生成样本,无分类器指导在每个更新步骤都会使用图片作为预测模型,来评估条件扩散模型图片和联合训练的图片

由于每次采样更新都需要评估两个扩散模型,因此使用无分类器指导进行采样通常很昂贵。

为了解决这个问题,研究者使用了渐进式蒸馏(progressive distillation)  ,这是一种通过重复蒸馏提高扩散模型采样速度的方法。

在以前,这种方法不能直接被直接用在引导模型的蒸馏上,也不能在确定性DDIM采样器以外的采样器上使用。而在这篇论文中,研究者解决了这些问题。

蒸馏无分类器的指导扩散模型

他们的办法是,将无分类器的指导扩散模型进行蒸馏。

对于一个训练有素的教师引导模型图片,他们采取了两个步骤。

第一步,研究者引入了一个连续时间的学生模型图片,它具有可学习的参数η1,来匹配教师模型在任意时间步长t ∈ [0, 1] 的输出。指定一系列他们有兴趣的指导强度图片后,他们使用以下目标来优化学生模型。

图片

其中图片

为了结合指导权重w,研究者引入了w条件模型,其中w作为学生模型的输入。为了更好地捕捉特征,他们将傅里叶嵌入应用w,然后用Kingma等人使用的时间步长的方式,把它合并到扩散模型的主干中。

由于初始化在性能中起着关键作用,研究者初始化学生模型时,使用的是与教师条件模型相同的参数(除了新引入的与w-conditioning相关的参数)。

第二步,研究者设想了一个离散的时间步长场景,并且通过每次将采样步数减半,逐步将学习模型从第⼀步图片蒸馏成具有可学习参数η2、步⻓更少的学⽣模型图片

其中,N表⽰采样步骤的数量,对于图片图片,研究者开始训练学生模型,让它用一步来匹配教师模型的两步DDIM采样的输出(例如:从t/N到t - 0.5/N,从t - 0.5/N到t - 1/N)。

将教师模型中的2N个步骤蒸馏成学生模型中的N个步骤以后,我们可以将新的N-step学生模型作为新的教师模型,然后重复同样的过程,将教师模型蒸馏成N/2-step的学生模型。在每⼀步,研究者都会⽤教师模型的参数来初始化学⽣模型。

N-step的确定性和随机采样

⼀旦模型图片被训练出来,对于图片,研究者就可以通过DDIM更新规则来执行采样。研究者注意到,对于蒸馏模型图片,这个采样过程在给定初始化图片的情况下是确定的。

另外,研究者也可以进行N步的随机采样。使用两倍于原始步长的确定性采样步骤( 即与N/2-step确定性采样器相同),然后使用原始步长进行一次随机步回(即用噪声扰动)。

图片,当t > 1/N时,可用以下的更新规则——

图片

其中,图片

当t=1/N时,研究者使用确定性更新公式,从图片得出图片

值得注意的是,我们注意到,与确定性的采样器相比,执行随机采样需要在稍微不同的时间步长内评估模型,并且需要对边缘情况的训练算法进行小的修改。

其他蒸馏⽅法

还有一个直接将渐进式蒸馏应⽤于引导模型的方法,即遵循教师模型的结构,直接将学⽣模型蒸馏成⼀个联合训练的条件和⽆条件模型。研究者尝试了之后,发现此⽅法效果不佳。

实验和结论

模型实验在两个标准数据集上进行:ImageNet(64*64)和 CIFAR 10。

实验中探索了指导权重w的不同范围,并观察到所有的范围都有可比性,因此使用[wmin, wmax] = [0, 4]进行实验。使用信噪比损失训练第一步和第二步模型。

基线标准包括DDPM ancestral采样和DDIM采样。

为了更好地理解如何纳入指导权重w,使用一个固定的w值训练的模型作为参照。

为了进行公平比较,实验对所有的方法使用相同的预训练教师模型。使用U-Net(Ronneberger等人,2015)架构作为基线,并使用相同的U-Net主干,引入嵌入了w的结构作为两步学生模型。

图片

上图为所有方法在ImageNet 64x64上的表现。其中D和S分别代表确定性和随机性采样器。

在实验中,以指导区间w∈[0, 4]为条件的模型训练,与w为固定值的模型训练表现相当。在步骤较少时,我们的方法明显优于DDIM基线性能,在8到16个步骤下基本达到教师模型的性能水平。

图片

由FID和IS分数评估的ImageNet 64x64采样质量

图片

由FID和IS评分评估的CIFAR-10采样质量

我们还对教师模型的编码过程进行蒸馏,并进行了风格转移的实验。具体来说,为了在两个领域A和B之间进行风格转换,用在领域A上训练的扩散模型对领域A的图像进行编码,然后用在领域B上训练的扩散模型进行解码。

图片

图片

由于编码过程可以理解为颠倒了的DDIM的采样过程,我们对具有无分类器指导的编码器和解码器都进行了蒸馏,并与DDIM编码器和解码器进行比较,如上图所示。我们还探讨了对引导强度w的改动对性能的影响。

总之,我们提出的引导扩散模型的蒸馏方法,以及一种随机采样器,从蒸馏后的模型中采样。从经验上看,我们的方法只用了一个步骤就能实现视觉上的高体验采样,只用8到16个步骤就能获得与教师相当的FID/IS分数。

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

178

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

35

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

79

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

2

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

4

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

8

2026.01.28

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

24

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

122

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

72

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.6万人学习

Go 教程
Go 教程

共32课时 | 4.3万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号