0

0

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

WBOY

WBOY

发布时间:2024-03-28 15:47:12

|

1169人浏览过

|

来源于机器之心

转载

扩散模型凭借其在图像生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的应用前景。然而,当前的扩散模型在理论上并非完美,鲜有研究关注到采样时间端点处未定义的奇点问题。此外,奇点问题在应用中导致的平均灰度等影响生成图像质量的问题也一直未得到解决。

为了解决这一难题,微信视觉团队与中山大学合作,联手探究了扩散模型中的奇点问题,并提出了一个即插即用的方法,有效解决了初始时刻的采样问题。该方法成功解决了平均灰度问题,显著提升了现有扩散模型的生成能力。这一研究成果已在 CVPR 2024 会议上发表。

扩散模型在多模态内容生成任务中取得了显著的成功,包括图像、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设,即扩散过程的逆过程也符合高斯特性。然而,这一假设并没有得到充分证明。特别是在端点处,即 t=0 或 t=1,会出现奇点问题,限制了现有方法对奇点处采样的研究。

此外,奇点问题也会影响扩散模型的生成能力,导致模型出现平均灰度问题,即难以生成亮度强或者弱的图像,如图下所示。这在一定程度上也限制了当前扩散模型的应用范围。

为了解决扩散模型在时间端点处的奇点问题,微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。首先,该团队提出了一个包含奇点时刻逆过程近似高斯分布的误差上界,为后续研究提供了理论基础。基于这一理论保障,团队对奇点处的采样进行了研究,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是扩散模型的固有特性,不需要规避。基于这些结论,该团队提出了一个即插即用的方法:SingDiffusion,用于解决扩散模型在初始时刻采样的问题。

通过大量的实验验证表明,仅需训练一次,SingDiffusion 模块即可无缝应用到现有的扩散模型中,显著地解决了平均灰度值的问题。在不使用无分类器指引技术的情况下,SingDiffusion 能够显著提升当前方法的生成质量,特别是在应用于 Stable Diffusion1.5(SD-1.5)后,其生成的图像质量更是提升了 33%
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
论文地址:https://arxiv.org/pdf/2403.08381.pdf
项目地址:https://pangzecheung.github.io/SingDiffusion/
论文题目:Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models

逆过程的高斯特性

为了研究扩散模型的奇点问题,需要验证全过程包含奇点处的逆过程满足高斯特性。首先定义CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题为扩散模型的训练样本,训练样本的分布可以表示为:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

cvpr 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

其中 δ 表示狄拉克函数。根据 [1] 中连续时间扩散模型的定义,对于任意两个时刻 0≤s,t≤1,正向过程可以表示为:
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
其中CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题随着时间单调的从 1 变化到 0。考虑到刚刚定义的训练样本分布,CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题的单时刻边际概率密度可以表示为:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

由此,可以通过贝叶斯公式计算逆过程的条件分布:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

然而,经过的分布是混合高斯分布,难以用网络进行拟合。因此,主流的扩散模型通常假设这一分布可以由单个高斯分布拟合。

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题


其中,CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题为了验证这一假设,该研究在 Proposition 1 中估计了这一拟合的误差。

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

然而,该研究发现当 t=1 时,随着 s 趋近 1,CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题也将趋近于 1,误差无法忽略。因此,Proposition 1 并不能证明 t=1 时的逆向高斯特性。为了解决这一问题,该研究给出了新的命题:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

根据 Proposition 2,当 t=1 时,随着 s 趋近 1,CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题将趋近于 0。由此,该研究证明了包含奇点时刻的逆过程全过程都符合高斯特性。

奇点时刻的采样

有了逆过程高斯特性的保证,该研究基于逆向采样公式对奇点时刻的采样展开了研究。

首先考虑 t=1 时刻的奇点问题。当 t=1 时,图片=0,下面的采样公式将出现分母除 0 的情况:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

研究团队发现,通过计算极限,该奇点可以转化为可去奇点:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

然而,这一极限无法在测试过程中进行计算。为此,该研究提出可以在 t=1 时刻拟合CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题,使用 「x - 预测」,来解决的初始奇点处的采样问题。

接着考虑 t=0 时刻,高斯分布拟合的逆过程将变成方差为 0 的高斯分布,即狄拉克函数: 

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

其中CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题。这样的奇异性会使得采样过程收敛到正确的数据CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题上。因此,t=0 处的奇点是扩散模型良好的性质,并不需要规避。

此外,该研究还在附录中探讨了 DDIM,SDE,ODE 中的奇点问题。

即插即用的 SingDiffusion 模块
CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题
奇点处的采样会影响扩散模型生成图像的质量。例如,在输入高或低亮度的提示时,现有方法往往只能生成平均灰度的图像,这被称为平均灰度问题。这个问题源于现有方法忽略了 t=0 时奇点处的采样,而是在 1-ϵ 时刻使用标准高斯分布作为初始分布进行采样。然而,正如上图所示,标准高斯分布与实际的 1-ϵ 时刻的数据分布存在较大的差距。

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

在这样的差距下,根据 Proposition 3,现有方法等同于在 t=1 时朝着一个均值为 0 的图像进行生成,即平均灰度图像。因此,现有方法难以生成亮度极强或极弱的图像。为了解决这个问题,该研究提出了一个即插即用的 SingDiffusion 方法,通过拟合标准高斯分布与实际数据分布之间的转换来弥补这一差距。

SingDiffuion 的算法如下图所示:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

AI Web Designer
AI Web Designer

AI网页设计师,快速生成个性化的网站设计

下载
 根据上一节的结论,该研究在在 t=1 时刻使用了 「x - 预测」方法来解决奇点处的采样问题。对于图-文数据对CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题,该方法训练了一个 UnetCVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题来拟合CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题。损失函数表示为:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

模型收敛后,就可以按照下面的 DDIM 采样公式并使用新得到的模块图片采样CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

DDIM 的采样公式确保了生成的图片符合 1-ε 时刻的数据分布CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题,从而解决了平均灰度问题。在这一步骤之后,就可以使用预训练的模型执行后续的采样步骤,直到生成CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题。值得注意的是,由于该方法仅参与第一步的采样,与后续的采样过程无关,因此 SingDiffusion 可以应用在绝大多数已有的扩散模型中。另外,为了避免无分类器指导操作导致的数据溢出问题,该方法还使用了以下的归一化操作:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

其中 guidance 表示无分类器指导操作后的结果,neg 表示负面提示下的输出,pos 表示正面提示下的输出,ω 表示指导强度。

实验

首先,该研究在 SD-1.5、SD-2.0-base 和 SD-2.0 三个模型上验证了 SingDiffusion 解决平均灰度问题的能力。该研究选择了四个极端的提示,包括 「纯白 / 黑背景」 和 「单色线条艺术标志在白 / 黑背景上」,作为条件进行生成,并计算生成图像的平均灰度值,如下表所示: 

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

从表格中可以看出,该研究能够显著地解决平均灰度值问题,生成符合输入文字描述亮度的图像。此外,该研究还可视化了在这四个提示语句下的生成结果,如下图所示:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

从图中可以看出,加入该方法后,现有的扩散模型能够生成偏黑或者偏白的图像。

为了进一步研究该方法对于图像质量的提升,该研究在 COCO 数据集上选择了 30,000 个描述进行了测试。首先,该研究展示了在不使用无分类器引导下,模型本身的生成能力,如下表所示:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

从表格中可以看出,所提出的方法能够显著降低生成图像的 FID,并提升 CLIP 指标。值得注意的是,在 SD-1.5 模型中,该论文中的方法相比于原模型在 FID 指标上降低了 33%。

进一步地,为了验证所提出方法在无分类器引导下的生成能力,该研究还在下图中展示了在不同引导大小 ω∈[1.5,2,3,4,5,6,7,8] 下 CLIP v.s. FID 的帕累托曲线:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

从图中可以看出,在相同的 CLIP 水平下,所提出的方法能够获得更低的 FID 数值,生成更逼真的图像。

此外,该研究还展示了所提出方法在不同 CIVITAI 预训练模型下的泛化能力,如下图所示:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

可以看出,该研究所提出的方法仅需进行一次训练,即可轻松地应用到已有的扩散模型中,解决平均灰度问题。

最后,该研究所提出的方法还能够无缝地应用到预训练的 ControlNet 模型上,如下图所示:

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题

从结果中可以看出,该方法能有效解决 ControlNet 的平均灰度问题。

参考文献:
[1] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in Neural Information Processing Systems (NeurIPS), pages 26565–26577, 2022. 3

相关文章

微信app下载
微信app下载

微信是一款手机通信软件,支持通过手机网络发送语音短信、视频、图片和文字。微信可以单聊及群聊,还能根据地理位置找到附近的人,带给大家全新的移动沟通体验,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4306

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2919

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

43

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

50

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1万人学习

进程与SOCKET
进程与SOCKET

共6课时 | 0.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号