基于GAN生成流畅视频，效果很能打：无纹理粘连、抖动缓解

PHPz

发布时间：2023-04-12 09:58:03

1773人浏览过

来源于51CTO.COM

转载

近年来，基于生成对抗式网络（Generative Adversarial Network, GAN）的图片生成研究工作取得了显著的进展。除了能够生成高分辨率、逼真的图片之外，许多创新应用也应运而生，诸如图片个性化编辑、图片动画化等。然而，如何利用 GAN 进行视频生成仍然是一个颇有挑战的问题。

除了对单帧图片的建模之外，视频生成还需要学习复杂的时序关系。近来，来自香港中文大学、上海人工智能实验室、蚂蚁技术研究院以及加州大学洛杉矶分校的研究者提出了一个新的视频生成方法（Towards Smooth Video Composition）。文中，他们针对不同跨度（短时范围、适中范围、长范围）的时序关系，分别进行了细致的建模与改进，并在多个数据集上取得了相较于之前工作大幅度的提升。该工作为基于 GAN 的视频生成方向提供了一个简单且有效的新基准。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2212.07413.pdf
项目代码链接：https://github.com/genforce/StyleSV

模型架构

基于 GAN 的图像生成网络可以表示为：I=G(Z)，其中 Z 是随机变量，G 是生成网络，I 是生成图片。我们可以简单地将此框架拓展到视频生成范畴：I_i=G(z_i)，i=[1,...,N]，其中我们一次性采样 N 个随机变量 z_i，每一个随机变量 z_i 对应生成一帧图片 I_i。将生成的图片在时间维度堆叠起来就可以得到生成的视频。

MoCoGAN, StyleGAN-V 等工作在此基础上提出了一种解耦的表达：I_i=G(u, v_i)，i=[1,...,N]，其中 u 表示控制内容的随机变量，v_i 表示控制动作的随机变量。这种表达认为，所有帧共享相同的内容，并具有独特的动作。通过这种解耦的表达，我们可以更好地生成内容风格一致，同时具有多变真实的动作视频。新工作采纳了 StyleGAN-V 的设计，并将其作为基准。

视频生成的难点：如何有效并合理地建模时序关系？

新工作着眼于不同跨度（短时范围、适中范围、长范围）的时序关系，分别进行了细致的建模与改进：

1. 短时间（~5 帧）时序关系

让我们首先考虑仅有几帧的视频。这些短时间的视频帧通常包含了非常相似的内容，仅仅展示了非常细微的动作。因此，真实地生成帧间的细微动作至关重要。然而，StyleGAN-V 生成的视频中出现了严重的纹理粘连（texture sticking）现象。

纹理粘连指的是生成的部分内容对特定坐标产生了依赖，造成了 “黏” 在固定区域上的现象。在图像生成领域中，StyleGAN3 通过细致的信号处理、扩大 padding 范围等操作缓解了纹理粘连问题。本工作验证了同样的技术对视频生成仍然有效。

在下图的可视化中，我们追踪视频每一帧中相同位置的像素。容易发现，在 StyleGAN-V 的视频中，有些内容长期 “黏” 在固定坐标，并没有随着时间移动，因此在可视化中产生了“笔刷现象”。而在新工作生成的视频中，所有像素都展示了自然的移动。

然而，研究员发现，引用 StyleGAN3 的 backbone 会让图像生成质量有所下降。为了缓解这个问题，他们引入了图像层面的预训练。在预训练阶段, 网络仅需考虑视频中某一帧的生成质量，无需学习时序范围的建模，从而更易学习有关图像分布知识。

2. 中等长度（~5 秒）时序关系

随着生成的视频拥有更多的帧数，它将能够展现更具体的动作。因此，确保生成的视频中拥有真实的动作非常重要。例如，如果我们想要生成第一人称开车的视频，就应该生成逐渐后退的地面、街景，临车也应当遵循自然的驾驶轨迹。

在对抗训练中，为了确保生成网络获得足够的训练监督，判别网络至关重要。因此在视频生成中，为了确保生成网络能够生成真实的动作，判别网络需要对多帧中的时序关系进行建模，并捕获生成的不真实的运动。然而，在之前的工作中，判别网络仅仅使用了简单的拼接操作（concatenation operation）来进行时序建模：y = cat (y_i)，其中 y_i 表示单帧特征，y 表示时域融合后的特征。

针对判别网络，新工作提出了一种显式的时序建模，即在判别网络的每一层，引入时序移位模块（Temporal Shift Module，TSM）。TSM 来自动作识别领域，通过简单的移位操作实现时序上的信息交换：

实验表明，在引入 TSM 之后，三个数据集上的 FVD16，FVD128 得到了很大程度的降低。

3. 无限长视频生成

先前介绍的改进主要围绕短时和适中时间长度的视频生成，新工作进一步探索了如何生成高质量的任意长度（包括无限长）的视频。之前工作（StyleGAN-V）能够生成无限长的视频，然而视频中却包含着非常明显的周期性抖动现象：

如图所示，在 StyleGAN-V 生成的视频中，随着自车前进，斑马线原本正常的后退，随后却突然改为向前运动。本工作发现，动作特征（motion embedding）的不连续性导致了此抖动现象。

先前工作采用线性插值来计算动作特征，然而线性插值会导致一阶不连续性，如下图所示（左边为插值示意图，右图为 T-SNE 特征可视化）：

本工作提出了 B 样条控制的动作特征（B-Spline based motion embedding）。通过 B 样条进行插值，能够获得关于时间更加平滑的动作特征，如图所示（左边为插值示意图，右图为 T-SNE 特征可视化）：

通过引入 B 样条控制的动作特征，新工作缓解了抖动现象：

如图所示，StyleGAN-V 生成的视频中，路灯、地面会突然改变运动方向。而在新工作生成的视频中，运动的方向是一致、自然的。

同时，新工作针对动作特征还提出了一个低秩（low rank）的约束，来进一步缓解周期性重复内容的出现。

实验

工作在三个数据集（YouTube Driving, Timelapse, Taichi-HD）上进行了充分的实验，并充分对比了先前的工作，结果显示，新工作在图片质量（FID）以及视频质量（FVD）上，都取得了充分的提升。

SkyTimelapse 实验结果：

Taichi-HD 实验结果：

YouTube Driving 实验结果：

总结

新工作基于 GAN 模型，提出了一个全新的视频生成基准，从不同尺度的时序关系出发，提出了新颖、有效地改进。在多个数据集上的实验显示，新工作成功取得了大幅度超越先前工作的视频质量。

CapCutAI如何添加特效_CapCutAI特效制作方法【操作】

LumaAI如何延长视频时长_LumaAI视频扩展技巧【技巧】

DescriptAI如何批量生成视频_DescriptAI批量创作方法【汇总】

Perplexity Pages怎么添加图片和视频_Perplexity网页编辑进阶教程【经验】

Pika如何修改已生成视频_Pika编辑视频方法【操作】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：其他人还在放“大模型”的卫星微软已经教会开发者怎么用它了下一篇：IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

作者最新文章

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

微信朋友圈能不能定时发微信朋友圈定时发送辅助工具使用

2026-01-11 08:41

企业微信朋友圈怎么定时发送企业微信定时发布朋友圈教程

2026-01-19 01:11

微信朋友圈怎么预约发送微信朋友圈定时发布最新解决方案

2026-02-09 10:52

mysql如何进行逻辑运算_mysql and/or/not组合

2026-03-06 10:26

mysql如何使用位运算符_mysql二进制数据处理

2026-03-07 02:17

mysql如何查看库中所有表_mysql show tables语法

2026-03-13 08:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04