0

0

SD社区的I2V-Adapter:无需配置,即插即用,完美兼容图生视频插件

王林

王林

发布时间:2024-01-15 19:48:14

|

1681人浏览过

|

来源于51CTO.COM

转载

图像到视频生成(I2V)任务是计算机视觉领域的一项挑战,旨在将静态图像转化为动态视频。这个任务的难点在于从单张图像中提取并生成时间维度的动态信息,同时保持图像内容的真实性和视觉上的连贯性。现有的I2V方法通常需要复杂的模型架构和大量的训练数据来实现这一目标。

近期,快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》发布。该研究引入了一种创新的图像到视频转换方法,提出了一种轻量级适配器模块,即I2V-Adapter。该适配器模块能够在不改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。这一方法在图像到视频转换领域具有广泛的应用前景,能够为视频创作、媒体传播等领域带来更多可能性。该研究结果的发布对于推动图像和视频技术的发展具有重要意义,为相关领域的研究者提供了一种有效的工具和方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了


  • 论文地址:https://arxiv.org/pdf/2312.16693.pdf
  • 项目主页:https://i2v-adapter.github.io/index.html
  • 代码地址:https://github.com/I2V-Adapter/I2V-Adapter-repo

相对于现有方法而言,I2V-Adapter在可训练参数方面取得了巨大的改进,其参数数量最低可达到22M,仅为主流方案Stable Video Diffusion的1%。同时,该适配器还具备与Stable Diffusion社区开发的定制化T2I模型(如DreamBooth、Lora)和控制工具(如ControlNet)的兼容性。通过实验,研究者证明了I2V-Adapter在生成高质量视频内容方面的有效性,为I2V领域的创意应用开辟了新的可能性。

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

方法介绍

Temporal modeling with Stable Diffusion

相较于图像生成,视频生成面临着独特的挑战,即建模视频帧之间的时序连贯性。目前的大多数方法都是基于预训练的T2I模型,例如Stable Diffusion和SDXL,通过引入时序模块对视频中的时序信息进行建模。受到AnimateDiff的启发,这是一个最初设计用于定制化T2V任务的模型,它通过引入与T2I模型解耦的时序模块来建模时序信息,并保留了原始T2I模型的能力,能够生成流畅的视频。因此,研究者认为预训练的时序模块可以被视为通用的时序表征,并可以应用于其他视频生成场景,如I2V生成,而无需进行任何微调。因此,研究者直接使用预训练的AnimateDiff时序模块,并保持其参数固定。

Adapter for attention layers

I2V任务中的另一个挑战是保持输入图像的ID信息。目前的解决方案主要有两种:一种是使用预训练的图像编码器对输入图像进行编码,并通过交叉关注机制将编码后的特征注入到模型中以指导去噪过程;另一种是将图像与有噪声的输入在通道维度上进行拼接,然后一起输入到后续的网络中。然而,前一种方法由于图像编码器难以捕捉底层信息,可能导致生成的视频ID发生变化;而后一种方法往往需要改变T2I模型的结构和参数,训练代价高且兼容性较差。

为了解决上述问题,研究者提出了 I2V-Adapter。具体来说,研究者将输入图像与 noised input 并行输入给网络,在模型的 spatial block 中,所有帧都会额外查询一次首帧信息,即 key,value 特征都来自于不加噪的首帧,输出结果与原始模型的 self attention 相加。此模块中的输出映射矩阵使用零初始化并且只训练输出映射矩阵与 query 映射矩阵。为了进一步加强模型对输入图像语义信息的理解,研究者引入了预训练的 content adapter(本文使用的是 IP-Adapter [8])注入图像的语义特征。

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

Frame Similarity Prior

为了进一步增强生成结果的稳定性,研究者提出了帧间相似性先验,用于在生成视频的稳定性和运动强度之间取得平衡。其关键假设是,在相对较低的高斯噪声水平上,带噪声的第一帧和带噪声的后续帧足够接近,如下图所示:

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

于是,研究者假设所有帧结构相似,并在加入一定量的高斯噪声后变得难以区分,因此可以把加噪后的输入图像作为后续帧的先验输入。为了排除高频信息的误导,研究者还使用了高斯模糊算子和随机掩码混合。具体来说,运算由下式给出:

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

实验结果

定量结果

本文计算了四种定量指标分别是 DoverVQA (美学评分)、CLIPTemp (首帧一致性)、FlowScore (运动幅度) 以及 WarppingError (运动误差) 用于评价生成视频的质量。表 1 显示 I2V-Adapter 得到了最高的美学评分,在首帧一致性上也超过了所有对比方案。此外,I2V-Adapter 生成的视频有着最大的运动幅度,并且相对较低的运动误差,表明此模型的能够生成更加动态的视频并且同时保持时序运动的准确性。

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

定性结果

Image Animation(左为输入,右为输出):

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

w/ Personalized T2Is(左为输入,右为输出):

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

w/ ControlNet(左为输入,右为输出):

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

总结

本文提出了 I2V-Adapter,一种即插即用的轻量级模块,用于图像到视频生成任务。该方法保留原始 T2V 模型的 spatial block 与 motion block 结构与参数固定,并行输入不加噪的第一帧与加噪的后续帧,通过注意力机制允许所有帧与无噪声的第一帧交互,从而产生时序连贯且与首帧一致的视频。研究者们通过定量与定性实验证明了该方法在 I2V 任务上的有效性。此外,其解耦设计使得该方案能够直接结合 DreamBooth、Lora 与 ControlNet 等模块,证明了该方案的兼容性,也促进了定制化与可控图像到视频生成的研究。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
点击input框没有光标怎么办
点击input框没有光标怎么办

点击input框没有光标的解决办法:1、确认输入框焦点;2、清除浏览器缓存;3、更新浏览器;4、使用JavaScript;5、检查硬件设备;6、检查输入框属性;7、调试JavaScript代码;8、检查页面其他元素;9、考虑浏览器兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.24

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4655

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

3001

2024.08.16

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

5

2026.03.18

Java Spring Security权限控制与认证机制实战
Java Spring Security权限控制与认证机制实战

本专题围绕 Java 后端安全体系建设展开,重点讲解 Spring Security 在权限控制与认证机制中的应用实践。内容涵盖用户认证流程、权限模型设计、JWT 鉴权方案、OAuth2 集成以及接口安全防护策略。通过实际项目案例,帮助开发者构建安全可靠的后端认证体系,提升系统安全性与可扩展能力。

21

2026.03.18

抖漫入口地址合集
抖漫入口地址合集

本专题整合了抖漫入口地址相关合集,阅读专题下面的文章了解更多详细地址。

137

2026.03.17

多环境下的 Nginx 安装、结构与运维实战
多环境下的 Nginx 安装、结构与运维实战

本专题聚焦多环境下Nginx实战,详解开发、测试及生产环境的差异化安装策略与目录结构规划。深入剖析配置模块化设计、灰度发布流程及跨环境同步机制。结合监控告警、故障排查与自动化运维工具,提供全链路管理方案,助力团队构建灵活、高可用的Nginx服务体系,从容应对复杂业务场景挑战。

14

2026.03.17

PS 批量添加图片
PS 批量添加图片

本专题整合了PS批量添加图片教程合集,阅读专题下面的文章了解更多详细操作。

14

2026.03.17

Nginx 基础架构:从安装配置到系统化管理
Nginx 基础架构:从安装配置到系统化管理

本专题深入解析Nginx基础架构,涵盖从源码编译与包管理安装,到核心配置文件优化及虚拟主机部署。进一步探讨日志轮转、性能调优、高可用集群构建及自动化运维策略,助力管理员实现从单一服务搭建到企业级系统化管理的全面升级,确保Web服务高效、稳定运行。

7

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号