多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

WBOY

发布时间：2023-06-06 17:12:04

1477人浏览过

来源于51CTO.COM

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/abs/2305.11147
代码地址：https://github.com/salesforce/UniControl
项目主页：https://shorturl.at/lmMX6

引言：Stable Diffusion 表现出了强大的视觉生成能力。然而，它们在生成具有空间、结构或几何控制的图像方面常常表现不足。ControlNet [1] 和 T2I-adpater [2] 等工作实现针对不同模态的可控图片生成，但能够在单一统一的模型中适应各种视觉条件，仍然是一个未解决的挑战。UniControl 在单一的框架内合并了各种可控的条件到图像（C2I）任务。为了使 UniControl 有能力处理多样的视觉条件，作者引入了一个任务感知的 HyperNet 来调节下游的条件扩散模型，使其能够同时适应不同的 C2I 任务。UniControl 在九个不同的 C2I 任务上进行训练，展示了强大的视觉生成能力和 zero-shot 泛化能力。作者已开源模型参数和推理代码，数据集和训练代码也将尽快开源，欢迎大家交流使用。

多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

图 1: UniControl 模型由多个预训练任务和 zero-shot 任务组成

动机：现有的可控图片生成模型都是针对单一的模态进行设计，然而 Taskonomy [3] 等工作证明不同的视觉模态之间共享特征和信息，因此本文认为统一的多模态模型具有巨大的潜力。

解决：本文提出了 MOE-style Adapter 和 Task-aware HyperNet 来实现 UniControl 中的多模态条件生成能力。并且作者建立了一个新的数据集 MultiGen-20M，包含 9 大任务，超过两千万个 image-condition-prompt 三元组，图片尺寸≥512。

优点: 1) 更紧凑的模型 (1.4B #params, 5.78GB checkpoint)，更少的参数实现多个 tasks。2) 更强大的视觉生成能力和控制的准确性。3) 在从未见过的模态上的 zero-shot 泛化能力。

1.介绍

生成式基础模型正在改变人工智能在自然语言处理、计算机视觉、音频处理和机器人控制等领域的交互方式。在自然语言处理中，像 InstructGPT 或 GPT-4 这样的生成式基础模型在各种任务上都表现优异，这种多任务处理能力是最吸引人的特性之一。此外，它们还可以进行 zero-shot 或 few-shot 的学习来处理未见过的任务。

然而，在视觉领域的生成模型中，这种多任务处理能力并不突出。虽然文本描述提供了一种灵活的方式来控制生成的图像的内容，但它们在提供像素级的空间、结构或几何控制方面往往不足。最近热门研究例如 ControlNet，T2I-adapter 可以增强 Stable Diffusion Model (SDM) 来实现精准的控制。然而，与可以由 CLIP 这样的统一模块处理的语言提示不同，每个 ControlNet 模型只能处理其训练过的特定模态。

为了克服先前工作的限制，本文提出了 UniControl，一个能同时处理语言和各种视觉条件的统一扩散模型。UniControl 的统一设计可以享受到提高训练和推理效率以及增强可控生成的优点。另一方面，UniControl 从不同视觉条件之间的固有联系中获益，来增强每个条件的生成效果。

UniControl 的统一可控生成能力依赖于两个部分，一个是 "MOE-style Adapter"，另一个是 "Task-aware HyperNet"。MOE-style Adapter 有 70K 左右的参数，可以从各种模态中学习低级特征图，Task-aware HyperNet 可以将任务指令作为自然语言提示输入，并输出任务 embedding 嵌入下游的网络中，来调制下游模型的参数来适应不同模态的输入。

该研究对 UniControl 进行预训练，以获得多任务和 zero-shot 学习的能力，包括五个类别的九个不同任务：边缘 (Canny, HED, Sketch)，区域映射 (Segmentation, Object Bound Box)，骨架 (Human Skeleton)，几何图 (Depth, Normal Surface) 和图片编辑 (Image Outpainting)。然后，该研究在 NVIDIA A100 硬件上训练 UniControl 超过 5000 个 GPU 小时 (当前新模型仍在继续训练)。并且 UniControl 展现出了对新任务的 zero-shot 适应能力。

该研究的贡献可以概括如下：

该研究提出了 UniControl，一个能处理各种视觉条件的统一模型 (1.4B #params, 5.78GB checkpoint)，用于可控的视觉生成。
该研究收集了一个新的多条件视觉生成数据集，包含超过 2000 万个图像 - 文本 - 条件三元组，涵盖五个类别的九个不同任务。
该研究进行了实验，证明了统一模型 UniControl 由于学习了不同视觉条件之间的内在关系，超过了每个单任务的受控图像生成。
UniControl 表现出了以 zero-shot 方式适应未见过的任务的能力，展现了其在开放环境中广泛使用的可能性和潜力。

2. 模型设计

多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

图 2: 模型结构。为了适应多个任务，该研究设计了 MOE-style Adapter，每个任务大约有 70K 个参数，以及一个任务感知 Task-aware HyperNet（约 12M 参数）来调制 7 个零卷积层。这个结构允许在一个单一的模型中实现多任务功能，既保证了多任务的多样性，也保留了底层的参数共享。相比于等效的堆叠的单任务模型（每个模型大约有 1.4B 参数），显著地减少了模型的大小。

UniControl 模型设计确保了两个性质：

1) 克服来自不同模态的低级特征之间的不对齐。这有助于 UniControl 从所有任务中学习必要的和独特的信息。例如，当模型将分割图作为视觉条件时，可能会忽略 3D 信息。

2) 能够跨任务学习元知识。这使得模型能够理解任务之间的共享知识以及它们之间的差异。

为了提供这些属性，模型引入了两个新颖的模块：MOE-style Adapter 和 Task-aware HyperNet。

MOE-style Adapter 是一组卷积模块，每个 Adapter 对应一个单独的模态，灵感来自专家混合模型（MOE），用作 UniControl 捕获各种低级视觉条件的特征。此适配器模块具有约 70K 的参数，计算效率极高。此后视觉特征将被送入统一的网络中处理。

Task-aware HyperNet 则是通过任务指令条件对 ControlNet 的零卷积模块进行调节。HyperNet 首先将任务指令投影为 task embedding，然后研究者将 task embedding 注入到 ControlNet 的零卷积层中。在这里 task embedding 和零卷积层的卷积核矩阵尺寸是对应的。类似 StyleGAN [4]，该研究直接将两者相乘来调制卷积参数，调制后的卷积参数作为最终的卷积参数。因此每个 task 的调制后零卷积参数是不一样的，这里保证了模型对于每个模态的适应能力，除此之外，所有的权重是共享的。

3. 模型训练

不同于 SDM 或 ControlNet，这些模型的图像生成条件是单一的语言提示，或如 canny 这样的单一类型的视觉条件。UniControl 需要处理来自不同任务的各种视觉条件，以及语言提示。因此 UniControl 的输入包含四部分: noise, text prompt, visual condition, task instruction。其中 task instruction 可以自然的根据 visual condition 的模态得到。

多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

有了这样生成的训练配对，该研究采用 DDPM [5] 对模型进行训练。

4. 实验结果

多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

图 6: 测试集视觉对比结果。测试数据来自于 MSCOCO [6] 和 Laion [7]

与官方或该研究复现的 ControlNet 对比结果如图 6 所示，更多结果请参考论文。

5.Zero-shot Tasks 泛化

模型在以下两个场景中测试 zero-shot 能力:

混合任务泛化：该研究考虑两种不同的视觉条件作为 UniControl 的输入，一个是分割图和人类骨骼的混合，并在文本提示中添加特定关键词 "背景" 和 "前景"。此外，该研究将混合任务指令重写为结合的两个任务的指令混合，例如 "分割图和人类骨骼到图像"。

新任务泛化：UniControl 需要在新的未见过的视觉条件上生成可控制的图像。为了实现这一点，基于未见过的和见过的预训练任务之间的关系估计任务权重至关重要。任务权重可以通过手动分配或计算嵌入空间中的任务指令的相似度得分来估计。MOE-style Adapter 可以与估计的任务权重线性组装，以从新的未见过的视觉条件中提取浅层特征。

可视化的结果如图 7 所示，更多结果请参考论文。

多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

图 7: UniControl 在 Zero-shot tasks 上的可视化结果

6.总结

总的来说，UniControl 模型通过其控制的多样性，为可控视觉生成提供了一个新的基础模型。这种模型能够为实现图像生成任务的更高水平的自主性和人类控制能力提供可能。该研究期待和更多的研究者讨论和合作，以进一步推动这一领域的发展。

更多视觉效果

多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

ImgGood

免费在线AI照片编辑器

下载

Perplexity免费版和Pro版区别_Perplexity付费订阅价值分析教程【对比】

OpenClaw启动时卡在加载界面怎么办_OpenClaw加载卡死常见原因与对策【教程】

OpenClaw最新版与旧版有什么区别_OpenClaw主要版本功能差异对比【汇总】

Perplexity Chrome插件怎么用_Perplexity浏览器扩展一键搜索教程【指南】

WorkBuddy技能包有哪些类型_常见Skills技能包分类与用途介绍

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：日本文化厅解读 AI 与版权关系：公开销售 AI 生成物可构成侵权下一篇：成功定制人工智能模型的四个关键环节

作者最新文章

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

276

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

619

2026.03.04