0

0

蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

王林

王林

发布时间:2024-08-17 15:39:25

|

1189人浏览过

|

来源于ZAKER

转载

只用不到 10% 的训练参数,就能实现 controlnet 一样的可控生成!

而且 SDXL、SD1.5 等 Stable Diffusion 家族的常见模型都能适配,还是即插即用。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

同时还能搭配 SVD 控制视频生成,动作细节控制得精准到手指。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

在这些图像和视频的背后,就是港中文贾佳亚团队推出的开源图像 / 视频生成引导工具——ControlNeXt。

从这个名字当中就能看出,研发团队给它的定位,就是下一代的 ControlNet。

像大神何恺明与谢赛宁的经典大作 ResNeXt(ResNet 的一种扩展),起名字也是用的这个路数。

有网友认为这个名字是实至名归,确实是下一代的产品,将 ControlNet 提高了一个档次。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

还有人直言 ControlNeXt 是规则改变者,让可控生成的效率提升了一大截,期待看到人们用它创作的作品。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

蜘蛛侠跳起美女舞蹈

ControlNeXt 支持多款 SD 系模型,而且即插即用。

其中包括了图像生成模型 SD1.5、SDXL、SD3(支持 Super Resolution),还有视频生成模型 SVD。

话不多说,直接看效果。

可以看到,在 SDXL 中加入边缘(Canny)引导,绘制出的二次元少女和控制线条几乎完美贴合。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

即使控制轮廓又多又细碎,模型依然可以绘制出符合要求的图片。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

而且无需额外训练就可与其他 LoRA 权重无缝集成。

比如在 SD1.5 中,可以把姿势(Pose)控制条件与各种 LoRA 搭配使用,形成风格迥异乃至跨越次元,但动作相同的角色。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

另外,ControlNeXt 也支持遮罩(mask)和景深(depth)的控制模式。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

在 SD3 当中还支持 Super Resolution(超级分辨率),可生成超高清晰度的图像。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

视频生成当中,ControlNeXt 可以实现对人物动作的控制。

比如让蜘蛛侠也跳起 TikTok 中的美女舞蹈,就连手指的动作也模仿得相当精准。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

甚至让一把椅子也长出手跳同样的舞蹈,虽然是抽象了一些,但单看动作复刻得还算不错。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

而且相比于原始的 ControlNet,ControlNeXt 需要的训练参数更少,收敛速度也更快。

比如在 SD1.5 和 SDXL 中,ControlNet 需要的可学习参数分别是 3.61 亿和 12.51 亿,但 ControlNeXt 分别只需要 3 千万和 1.08 亿,不到 ControlNet 的 10%。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

而在训练过程中,ControlNeXt 在 400 步左右就已接近收敛,但 ControlNet 却需要十倍甚至数十倍的步数。

In3D
In3D

把真人变成化身,创建逼真且可自定义的虚拟角色

下载

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

生成的速度也比 ControlNet 更快,平均下来 ControlNet 相当于基础模型会带来 41.9% 的延时,但 ControlNeXt 只有 10.4%。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

那么,ControlNeXt 是如何实现的,对 ControlNet 进行了哪些改进呢?

更轻量化的条件控制模块

首先用一张图来了解一下 ControlNeXt 的整个工作流程。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

其中轻量化的关键,是 ControlNeXt 移除了 ControlNet 中的庞大控制分支,改为引入一个由少量 ResNet 块组成的轻量级卷积模块。

这个模块负责提取控制条件(如语义分割掩码、关键点先验等)的特征表示。

其中的训练参数量通常不到 ControlNet 中预训练模型的 10%,但仍能很好地学习将输入的条件控制信息,这种设计大大降低了计算开销和内存占用

具体来说,它从预训练模型的不同网络层的中等距采样,形成用于训练的参数子集,其余参数则被冻结。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

另外在设计 ControlNeXt 的架构时,研究团队还保持了模型结构与原始架构的一致性,从而实现了即插即用。

无论是 ControlNet 还是 ControlNeXt,条件控制信息的注入都是一个重要环节。

在这个过程中,ControlNeXt 研究团队主要针对两个关键问题进行了深入研究——注入位置的选择和注入方式的设计。

研究团队观察发现,在大多数可控生成任务中,指导生成的条件信息形式相对简单,且与去噪过程中的特征高度相关。

所以团队认为,没有必要在去噪网络的每一层都注入控制信息,于是选择了只在网络的中间层将条件特征与去噪特征聚合。

聚合的方式也尽可能简单——在用交叉归一化对齐两组特征的分布后,直接将其相加。

这样既能确保控制信号影响去噪过程,又避免了注意力机制等复杂操作引入额外的学习参数和不稳定性。

这之中的交叉归一化,也是 ControlNeXt 的另一项核心技术,替代了此前常用的 zero-convolution 等渐进式初始化策略。

传统方法通过从零开始逐步释放新模块的影响力来缓解崩塌问题,但往往导致的结果就是收敛速度慢。

交叉归一化则直接利用主干网络去噪特征的均值 μ 和方差 σ 对控制模块输出的特征做归一化,使二者的数据分布尽量对齐。

 蜘蛛侠妖娆起舞,下一代 ControlNet 来了!贾佳亚团队推出,即插即用,还能控制视频生成

(注: 是为数值稳定性而添加的小常数,γ 为缩放参数。)

归一化后的控制特征再通过尺度和偏移参数调整幅度和基线,再与去噪特征相加,既避免了参数初始化的敏感性,又能在训练初期就让控制条件发挥作用,加快收敛进程。

此外,ControlNeXt 还借助控制模块学习条件信息到隐空间特征的映射,使其更加抽象和语义化 , 更有利于泛化到未见过的控制条件。

项目主页:

https://pbihao.github.io/projects/controlnext/index.html

论文地址:

https://arxiv.org/abs/2408.06070

GitHub:

https://github.com/dvlab-research/ControlNeXt

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4408

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2928

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

70

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

62

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP自制框架
PHP自制框架

共8课时 | 0.6万人学习

PHP8,究竟有啥野心..!?
PHP8,究竟有啥野心..!?

共4课时 | 0.6万人学习

apipost极速入门
apipost极速入门

共6课时 | 0.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号