0

0

从单幅自然图像学习扩散模型,优于GAN,SinDiffusion实现新SOTA

WBOY

WBOY

发布时间:2023-04-14 18:10:07

|

1758人浏览过

|

来源于51CTO.COM

转载

从单幅自然图像生成图像的技术被广为应用,也因此受到越来越多的关注。这一研究旨在从单幅自然图像中学习一个无条件生成模型,通过捕获 patch 内部统计信息,生成具有相似视觉内容的不同样本。一旦训练完成,模型不仅可以生成高质量且不限分辨率的图像,而且还可以轻松适应多种应用,如图像编辑、图像和谐化(image harmonization)和图像间的转换。​

SinGAN 可以满足上述要求,该方法可以构建自然图像的多个尺度,并训练一系列 GANs 来学习单幅图像中 patch 的内部统计信息。SinGAN 的核心思想是在渐进增长的尺度上训练多个模型。然而,通过这些方法生成的图像可能不尽人意,因为它们存在小范围的细节性误差,从而导致生成的图像中存在明显的伪影现象(见图 2)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

本文中,来自中国科学技术大学、微软亚洲研究院等机构的研究者提出了一个新的框架——单幅图像扩散模型(SinDiffusion,Single-image Diffusion),以用于从单幅自然图像中学习,其是在去噪扩散概率模型 (DDPM,Denoising Diffusion Probabilistic Model) 的基础上完成的。虽然扩散模型是一个多步(multiple-step)生成过程,但它不存在累积误差问题。原因是扩散模型具有系统的数学公式,中间步骤的误差可视为干扰,并且可以在扩散过程中得到改善。​

SinDiffusion 的另一个核心设计是限制扩散模型的感受野。该研究回顾了先前扩散模型[7] 中常用的网络结构,发现它具有较强的性能和较深的结构。不过该网络结构具有的感受野大到能够覆盖整个图像,这导致模型倾向于靠记忆训练图像,从而生成与训练图像完全相同的图像。为了鼓励模型学习 patch 统计信息而不是记忆整个图像,研究对网络结构进行了精细设计,并引入了一个 patch-wise 去噪网络。同之前的扩散结构相比,SinDiffusion 减少了原去噪网络结构中的下采样次数和 ResBlock 数量。如此一来,SinDiffusion 可以从单幅自然图像中学习,并且生成高质量且多样化的图像(见图 2)。

图片

  • 论文地址:https://arxiv.org/pdf/2211.12412445.pdf
  • 项目地址:https://github.com/WeilunWang/SinDiffusion

SinDiffusion 的优点在于,它能灵活运用于各种场景(见图 1)。它可以用于各种应用,而无需对模型进行任何重新训练。在 SinGAN 中,下游应用主要通过将条件输入预先训练的不同尺度的 GANs 来实现。因此,SinGAN 的应用仅限于那些给定的空间对齐(spatiallyaligned)条件。与之不同的是,SinDiffusion 通过设计采样程序可用于更广泛的应用。SinDiffusion 通过无条件训练学习预测数据分布的梯度。假设有一个描述生成图像与条件之间相关性的评分函数(即 L−p 距离或一个预训练网络,如 CLIP),该研究利用相关性评分的梯度来指导 SinDiffusion 的采样过程。通过这种方式,SinDiffusion 能够生成既符合数据分布又和给定条件相吻合的图像。

图片

研究对各种自然图像进行了实验,以此来证明提出的框架的优势,实验对象包括风景和著名的艺术。定量和定性结果都证实了 SinDiffusion 可以产生高保真和多样化的结果,而下游应用进一步证明了 SinDiffusion 的实用性和灵活性。

方法​

与之前研究中的渐进式增长设计不同,SinDiffusion 采用单一尺度下的单一去噪模型进行训练,防止了误差的积累。此外,该研究发现扩散网络 patch-level 的感受野在捕获内部 patch 分布方面起着重要作用,并设计了一种新的去噪网络结构。基于这两个核心设计,SinDiffusion 从单幅自然图像生成高质量和多样化的图像。

本节其余部分的组织如下:首先回顾 SinGAN 并展示 SinDiffusion 的动机,然后介绍了 SinDiffusion 的结构设计。

首先简要回顾一下 SinGAN。图 3(a)给出了 SinGAN 的生成过程。为了从单幅图像生成不同的图像,SinGAN 的一个关键设计是建立图像金字塔,并逐步增长生成的图像的分辨率。​

图 3(b)为 SinDiffusion 新框架。与 SinGAN 不同的是,SinDiffusion 在单一尺度上使用单一去噪网络执行多步生成过程。虽然 SinDiffusion 也采用了像 SinGAN 一样的多步生成过程,但是生成的结果是高质量的。这是因为扩散模型建立在对数学方程的系统推导的基础上,中间步骤产生的误差在扩散过程中被反复细化为噪声。

图片

SinDiffusion

本文研究了生成多样性与去噪网络感受野的关系——修改去噪网络的网络结构可以改变感受野,并且设计了四种感受野不同但性能相当的网络结构,在单幅自然图像上训练这些模型。图 4 显示了不同感受野下模型生成的结果。可以观察到,感受野越小,SinDiffusion 产生的生成结果越多样化,反之亦然。然而,研究发现极小的感受野模型并不能保持图像的合理结构。因此,合适的感受野对于获取合理的 patch 统计信息是重要且必要的。

图片

该研究重新设计了常用的扩散模型,并引入了用于单幅图像生成的 patch-wise 去噪网络。图 5 是 SinDiffusion 中 patch-wise 去噪网络的概述,并且展现了与之前去噪网络的主要区别。首先,通过减少下采样和上采样操作来减小去噪网络的深度,从而极大地扩展了感受野。同时,去噪网络中原本使用的深层注意力层被自然去除,使 SinDiffusion 成为一个完全卷积的网络,适用于任意分辨率的生成。其次,通过减少每个分辨率中嵌入时间的 resblock,进一步限制 SinDiffusion 的感受野。用这种方法得到一个带有适当感受野的 patch-wise 去噪网络,得到了逼真且多样的结果。

图片

实验

SinDiffusion 随机生成图像的定性结果如图 6 所示。

可以发现,在不同的分辨率下,SinDiffusion 可以生成与训练图像具有相似模式的真实图像。

此外,本文还研究了如何从单幅图像生成高分辨率图像的 SinDiffusion。图 13 展示了训练图像和生成的结果。训练图像是一个 486 × 741 分辨率的景观图像,包含了丰富的组件,如云、山、草、花和一个湖。为了适应高分辨率的图像生成,SinDiffusion 已经升级到增强版本,该版本具有更大的感受野和网络能力。增强版的 SinDiffusion 生成了一个 486×2048 分辨率的高分辨率长滚动图像,其生成效果结果保持训练图像的内部布局不变,且归纳出了新的内容,见图 13。

图片

对比以往的方法

表 1 展示了 SinDiffusion 与几个具有挑战性的方法(即 SinGAN, ExSinGAN, ConSinGAN 和 GPNN)相比产生的定量结果。与之前基于 GAN 的方法相比,SinDiffusion 在经过逐步改进后,达到了 SOTA 性能。值得一提,本文的研究方法极大地提高了生成图像的多样性,在 Places50 数据集上训练的 50 个模型的平均值上,本文的方法以 + 0.082 LPIPS 的评分超过了目前最具挑战性的方法。


图片

除了定量结果之外,图 8 还展示了 Places50 数据集上的定性结果。

图片

图 15 给出了 SinDiffusion 和之前方法的文本引导图像生成结果。

图片

更多内容请查看原论文。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
minimax入口地址汇总
minimax入口地址汇总

本专题整合了minimax相关入口合集,阅读专题下面的文章了解更多详细地址。

3

2026.03.16

C++多线程并发控制与线程安全设计实践
C++多线程并发控制与线程安全设计实践

本专题围绕 C++ 在高性能系统开发中的并发控制技术展开,系统讲解多线程编程模型与线程安全设计方法。内容包括互斥锁、读写锁、条件变量、原子操作以及线程池实现机制,同时结合实际案例分析并发竞争、死锁避免与性能优化策略。通过实践讲解,帮助开发者掌握构建稳定高效并发系统的关键技术。

4

2026.03.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

114

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

138

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

395

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

65

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

111

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

113

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

245

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂
ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号