一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

王林

发布时间：2023-12-03 11:17:21

1216人浏览过

来源于51CTO.COM

转载

最近，微软进行的一项研究揭示了视频处理软件PS的灵活程度有多高

在这项研究中，你只要给 AI 一张照片，它就能生成照片中人物的视频，而且人物的表情、动作都是可以通过文字进行控制的。比如，如果你给的指令是「张嘴」，视频中的人物就会真的张开嘴。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

如果你给的指令是「伤心」，她就会做出伤心的表情和头部动作。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

当给出指令「惊讶」，虚拟人物的抬头纹都挤到一起了。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

除此之外，您还可以提供一段语音，使虚拟角色的嘴型和动作与语音同步。或者，您可以提供一段真人视频供虚拟角色模仿

如果你对虚拟人物的动作有更多的自定义编辑需求，例如让他们点头、转头或歪头，这项技术也是支持的

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

这项研究名叫 GAIA（Generative AI for Avatar，用于虚拟形象的生成式 AI），其 demo 已经开始在社交媒体传播。不少人对其效果表示赞叹，并希望用它来「复活」逝者。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

但也有人担心，这些技术的持续进化会让网络视频变得更加真假难辨，或者被不法分子用于诈骗。看来，反诈手段要继续升级了。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

GAIA 有什么创新点？

零样本会说话的虚拟人物生成技术旨在根据语音合成自然视频，确保生成的嘴型、表情和头部姿势与语音内容一致。以往的研究通常需要针对每个虚拟人物进行特定训练或调整特定模型，或在推理过程中利用模板视频以实现高质量的结果。最近，研究人员致力于设计和改进零样本会说话的虚拟人物的生成方法，只需使用一张目标虚拟人物的肖像图片作为外貌参考即可。不过，这些方法通常采用基于warping的运动表示、3D Morphable Model（3DMM）等领域先验来降低任务难度。这类启发式方法虽然有效，但可能会限制多样性，导致不自然的结果。因此，从数据分布中直接学习是未来研究的重点

本文中，来自微软的研究者提出了 GAIA（Generative AI for Avatar），其能够从语音和单张肖像图片合成自然的会说话的虚拟人物视频，在生成过程中消除了领域先验。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

项目地址：https://microsoft.github.io/gaia/可以在此链接上找到相关项目的详细信息

论文链接: https://arxiv.org/pdf/2311.15230.pdf

歌者PPT

歌者PPT，AI 写 PPT 永久免费

下载

盖亚揭示了两个关键洞见：

用语音来驱动虚拟人物运动，而虚拟人物的背景和外貌（appearance）在整个视频中保持不变。受此启发，本文将每一帧的运动和外貌分开，其中外貌在帧之间共享，而运动对每一帧都是唯一的。为了根据语音预测运动，本文将运动序列编码为运动潜在序列，并使用以输入语音为条件的扩散模型来预测潜在序列；
当一个人在说出给定的内容时，表情和头部姿态存在巨大的多样性，这需要一个大规模和多样化的数据集。因此，该研究收集了一个高质量的能说话的虚拟人物数据集，该数据集由 16K 个不同年龄、性别、皮肤类型和说话风格的独特说话者组成，使生成结果自然且多样化。

根据上述两个洞见，本文提出了 GAIA 框架，其由变分自编码器 (VAE)（橙色模块）和扩散模型（蓝色和绿色模块）组成。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

VAE的主要功能是分解运动和外貌。它由两个编码器（运动编码器和外貌编码器）和一个解码器组成。在训练时，运动编码器的输入为面部关键点（landmarks）的当前帧，而外貌编码器的输入为当前视频剪辑中的随机采样帧

根据这两个编码器的输出，随后优化解码器以重建当前帧。一旦获得训练完成的VAE，就会得到所有训练数据的潜在动作（即运动编码器的输出）

然后，这篇文章使用扩散模型训练，以预测基于语音和视频剪辑中随机采样帧的运动潜在序列，从而为生成过程提供外貌信息

在推理过程中，给定目标虚拟人物的参考肖像图像，扩散模型将图像和输入语音序列作为条件，生成符合语音内容的运动潜在序列。然后，生成的运动潜在序列和参考肖像图像经过 VAE 解码器合成说话视频输出。

该研究在数据方面进行了构建，从不同的来源收集了数据集，包括 High-Definition Talking Face Dataset (HDTF) 和 Casual Conversation datasets v1&v2 (CC v1&v2)。除了这三个数据集之外，研究还收集了一个大规模的内部说话虚拟人物数据集，其中包含 7K 小时的视频和 8K 说话者 ID。数据集的统计概述如表 1 所示

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

为了学习到所需的信息，文章提出了几种自动过滤策略以确保训练数据的质量：

为了使嘴唇运动可见，头像的正面方向应朝向相机；
为了保证稳定性，视频中的面部动作要流畅，不能出现快速晃动；
为了过滤掉嘴唇动作和言语不一致的极端情况，应该删除头像戴口罩或保持沉默的帧。

本文在过滤后的数据上训练 VAE 和扩散模型。从实验结果来看，本文得到了三个关键结论：

GAIA 能够进行零样本说话虚拟人物生成，在自然度、多样性、口型同步质量和视觉质量方面具有优越的性能。根据研究者的主观评价，GAIA 显着超越了所有基线方法；
训练模型的大小从 150M 到 2B 不等，结果表明，GAIA 具有可扩展性，因为较大的模型会产生更好的结果；
GAIA 是一个通用且灵活的框架，可实现不同的应用，包括可控的说话虚拟人物生成和文本 - 指令虚拟人物生成。

GAIA 效果怎么样？

实验过程中，该研究将 GAIA 与三个强大的基线进行比较，包括 FOMM、HeadGAN 和 Face-vid2vid。结果如表 2 所示：GAIA 中的 VAE 比以前的视频驱动基线实现了持续的改进，这说明 GAIA 成功地分解了外貌和运动表示。

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

语音驱动结果。用语音驱动说话虚拟人物生成是通过从语音预测运动实现的。表 3 和图 2 提供了 GAIA 与 MakeItTalk、Audio2Head 和 SadTalker 方法的定量和定性比较。

从数据中可以清楚地看出，GAIA 在主观评价方面远远超过了所有基准方法。更具体地说，如图 2 所示，即使参考图像是闭眼或头部姿态不寻常，基准方法的生成结果通常高度依赖于参考图像；相比之下，GAIA 对各种参考图像都表现出鲁棒性，并生成具有更高自然度、口型高度同步、视觉质量更好以及运动多样性的结果

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

根据表3，最佳的MSI分数表明GAIA生成的视频具有出色的运动稳定性。Sync-D得分为8.528，接近真实视频得分（8.548），表明生成的视频具有出色的唇形同步性。该研究获得了与基线相当的FID分数，这可能是受到了不同头部姿态的影响，因为该研究发现未经扩散训练的模型在表中实现了更好的FID分数，详见表6

一张照片生成视频，张嘴、点头、喜怒哀乐，都可以打字控制

SongGeneration 2— 腾讯联合清华开源的音乐生成模型

StableDiffusion生成图片模糊怎么办_StableDiffusion清晰度提升方法【技巧】

LumaAI生成视频模糊怎么办_LumaAI清晰度优化技巧【解答】

OpenClaw运行慢怎么优化_OpenClaw性能故障解决【解答】

QClaw新版本和旧版本有什么区别_QClaw版本差异介绍【介绍】

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

4269

2026.01.21

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2915

2024.08.16

vsd文件打开方法

vsd文件打开方法有使用Microsoft Visio软件、使用Microsoft Visio查看器、转换为其他格式等。想了解更多vsd文件相关内容，可以阅读本专题下面的文章。

510

2023.10.30

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

网站特效

网站源码

网站素材

前端模板