MotionClone：无需训练，一键克隆视频运动

王林

发布时间：2024-07-15 19:04:01

1065人浏览过

来源于机器之心

转载

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

无需训练或微调，在提示词指定的新场景中克隆参考视频的运动，无论是全局的相机运动还是局部的肢体运动都可以一键搞定。 motionclone：无需训练，一键克隆视频运动

论文：https://arxiv.org/abs/2406.05338
主页：https://bujiazi.github.io/motionclone.github.io/
代码：https://github.com/Bujiazi/MotionClone

本文提出了名为 MotionClone 的新框架，给定任意的参考视频，能够在不进行模型训练或微调的情况下提取对应的运动信息；这种运动信息可以直接和文本提示一起指导新视频的生成，实现具有定制化运动的文本生成视频 (text2video)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MotionClone：无需训练，一键克隆视频运动

相较于先前的研究，MotionClone 具备如下的优点：

无需训练或微调：先前的方法通常需要训练模型来编码运动线索或微调视频扩散模型来拟合特定运动模式。训练模型编码运动线索对于训练域之外的运动泛化能力较差，而微调已有的视频生成模型可能会损害基模型潜在的视频生成质量。MotionClone 无需引入任何额外的训练或微调，在提高运动泛化能力的同时最大程度保留了基座模型的生成质量。
更高的运动质量：已有的开源文生视频模型很难生成大幅度的合理的运动，MotionClone 通过引入主成分时序注意力运动指导在大幅加强生成视频运动幅度的同时有效保障了运动的合理性。
更好的空间位置关系：为了避免直接的运动克隆可能导致的空间语义错配，MotionClone 提出了基于交叉注意力掩码的空间语义信息指导来辅助空间语义信息和时空运动信息的正确耦合。

时序注意力模块中的运动信息

MotionClone：无需训练，一键克隆视频运动

在文本生视频工作中，时序注意力模块 (Temporal Attention) 被广泛用于建模视频的帧间相关性。由于时序注意力模块中的注意力分数 (attention map score) 表征了帧间的相关性，因此一个直观的想法是是否可以通过约束完全一致的注意力分数来复制的帧间联系从而实现运动克隆。

然而，实验发现直接复制完整的注意力图 (plain control) 只能实现非常粗糙的运动迁移，这是因为注意力中大多数权重对应的是噪声或者非常细微的运动信息，这些信息一方面难以和文本指定的新场景相结合，另一方面掩盖了潜在的有效的运动指导。

为了解决这一问题，MotionClone 引入了主成分时序注意力运动指导机制 (Primary temporal-attention guidance)，仅利用时序注意力中的主要成分来对视频生成进行稀疏指导，从而过滤噪声和细微运动信息的负面影响，实现运动在文本指定的新场景下的有效克隆。

MotionClone：无需训练，一键克隆视频运动

空间语义修正

Magic AI Avatars

神奇的AI头像，获得200多个由AI制作的自定义头像。

下载

主成分时序注意力运动指导能够实现对参考视频的运动克隆，但是无法确保运动的主体和用户意图相一致，这会降低视频生成的质量，在某些情况下甚至会导致运动主体的错位。

为了解决上述问题，MotionClone 引入空间语义引导机制 (Location-aware semantic guidance)，通过交叉注意力掩码（Cross Attention Mask）划分视频的前后背景区域，通过分别约束视频前后背景的语义信息来保障空间语义的合理布局，促进时序运动和空间语义的正确耦合。

MotionClone 实现细节

MotionClone：无需训练，一键克隆视频运动

DDIM 反转：MotionClone 采用 DDIM Inversion 将输入的参考视频反转至 latent space 中，实现对参考视频的时序注意力主成分提取。
引导阶段：在每次去噪时，MotionClone 同时引入了主成分时序注意力运动指导和空间语义信息指导，它们协同运行，为可控视频生成提供全面的运动和语义引导。
高斯掩码：在空间语义引导机制中，采用高斯核函数对交叉注意力掩码进行模糊处理，消除潜在的结构信息影响。

DAVIS 数据集中的 30 个视频被用于测试。实验结果表明 MotionClone 实现了在文本契合度、时序一致性以及多项用户调研指标上的显著提升，超越了以往的运动迁移方法，具体结果如下表所示。

MotionClone：无需训练，一键克隆视频运动

MotionClone 与已有运动迁移方法的生成结果对比如下图所示，可见 MotionClone 具有领先的性能。

MotionClone：无需训练，一键克隆视频运动

综上所述，MotionClone 是一种新的运动迁移框架，能够在无需训练或微调的情况下，有效地将参考视频中的运动克隆到用户给定提示词指定的新场景，为已有的文生视频模型提供了即插即用的运动定制化方案。

MotionClone 在保留已有基座模型的生成质量的基础上引入高效的主成分运动信息指导和空间语义引导，在保障和文本的语义对齐能力的同时显著提高了和参考视频的运动一致性，实现高质量的可控的视频生成。

此外，MotionClone 能够直接适配丰富的社区模型实现多样化的视频生成，具备极高的扩展性。

贾跃亭：法拉第未来当前股价被严重低估目标价5美元

内存飙升成本暴涨汽车会涨价还是减配？

10家中国车企入围入围财富世界500强比亚迪进前百

关税压力下创纪录！韩国汽车年出口额达720亿美元

韩国2025年电动车销量首破20万辆中国产汽车大卖

相关专题

golang map内存释放

本专题整合了golang map内存相关教程，阅读专题下面的文章了解更多相关内容。

2025.09.05

golang map相关教程

本专题整合了golang map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.16

golang map原理

本专题整合了golang map相关内容，阅读专题下面的文章了解更多详细内容。

2025.11.17

java判断map相关教程

本专题整合了java判断map相关教程，阅读专题下面的文章了解更多详细内容。

2025.11.27

location.assign

在前端开发中，我们经常需要使用JavaScript来控制页面的跳转和数据的传递。location.assign就是JavaScript中常用的一个跳转方法。通过location.assign，我们可以在当前窗口或者iframe中加载一个新的URL地址，并且可以保存旧页面的历史记录。php中文网为大家带来了location.assign的相关知识、以及相关文章等内容，供大家免费下载使用。

232

2023.06.27

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4202

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2910

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板