0

0

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

王林

王林

发布时间:2023-12-03 11:17:21

|

1216人浏览过

|

来源于51CTO.COM

转载

最近,微软进行的一项研究揭示了视频处理软件PS的灵活程度有多高

在这项研究中,你只要给 AI 一张照片,它就能生成照片中人物的视频,而且人物的表情、动作都是可以通过文字进行控制的。比如,如果你给的指令是「张嘴」,视频中的人物就会真的张开嘴。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

如果你给的指令是「伤心」,她就会做出伤心的表情和头部动作。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

当给出指令「惊讶」,虚拟人物的抬头纹都挤到一起了。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

除此之外,您还可以提供一段语音,使虚拟角色的嘴型和动作与语音同步。或者,您可以提供一段真人视频供虚拟角色模仿

如果你对虚拟人物的动作有更多的自定义编辑需求,例如让他们点头、转头或歪头,这项技术也是支持的

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

这项研究名叫 GAIA(Generative AI for Avatar,用于虚拟形象的生成式 AI),其 demo 已经开始在社交媒体传播。不少人对其效果表示赞叹,并希望用它来「复活」逝者。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

但也有人担心,这些技术的持续进化会让网络视频变得更加真假难辨,或者被不法分子用于诈骗。看来,反诈手段要继续升级了。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

GAIA 有什么创新点?

零样本会说话的虚拟人物生成技术旨在根据语音合成自然视频,确保生成的嘴型、表情和头部姿势与语音内容一致。以往的研究通常需要针对每个虚拟人物进行特定训练或调整特定模型,或在推理过程中利用模板视频以实现高质量的结果。最近,研究人员致力于设计和改进零样本会说话的虚拟人物的生成方法,只需使用一张目标虚拟人物的肖像图片作为外貌参考即可。不过,这些方法通常采用基于warping的运动表示、3D Morphable Model(3DMM)等领域先验来降低任务难度。这类启发式方法虽然有效,但可能会限制多样性,导致不自然的结果。因此,从数据分布中直接学习是未来研究的重点

本文中,来自微软的研究者提出了 GAIA(Generative AI for Avatar),其能够从语音和单张肖像图片合成自然的会说话的虚拟人物视频,在生成过程中消除了领域先验。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

项目地址:https://microsoft.github.io/gaia/可以在此链接上找到相关项目的详细信息

论文链接: https://arxiv.org/pdf/2311.15230.pdf

松果AI写作
松果AI写作

专业全能的高效AI写作工具

下载

盖亚揭示了两个关键洞见:

  1. 用语音来驱动虚拟人物运动,而虚拟人物的背景和外貌(appearance)在整个视频中保持不变。受此启发,本文将每一帧的运动和外貌分开,其中外貌在帧之间共享,而运动对每一帧都是唯一的。为了根据语音预测运动,本文将运动序列编码为运动潜在序列,并使用以输入语音为条件的扩散模型来预测潜在序列;
  2. 当一个人在说出给定的内容时,表情和头部姿态存在巨大的多样性,这需要一个大规模和多样化的数据集。因此,该研究收集了一个高质量的能说话的虚拟人物数据集,该数据集由 16K 个不同年龄、性别、皮肤类型和说话风格的独特说话者组成,使生成结果自然且多样化。

根据上述两个洞见,本文提出了 GAIA 框架,其由变分自编码器 (VAE)(橙色模块)和扩散模型(蓝色和绿色模块)组成。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

VAE的主要功能是分解运动和外貌。它由两个编码器(运动编码器和外貌编码器)和一个解码器组成。在训练时,运动编码器的输入为面部关键点(landmarks)的当前帧,而外貌编码器的输入为当前视频剪辑中的随机采样帧

根据这两个编码器的输出,随后优化解码器以重建当前帧。一旦获得训练完成的VAE,就会得到所有训练数据的潜在动作(即运动编码器的输出)

然后,这篇文章使用扩散模型训练,以预测基于语音和视频剪辑中随机采样帧的运动潜在序列,从而为生成过程提供外貌信息

在推理过程中,给定目标虚拟人物的参考肖像图像,扩散模型将图像和输入语音序列作为条件,生成符合语音内容的运动潜在序列。然后,生成的运动潜在序列和参考肖像图像经过 VAE 解码器合成说话视频输出。

该研究在数据方面进行了构建,从不同的来源收集了数据集,包括 High-Definition Talking Face Dataset (HDTF) 和 Casual Conversation datasets v1&v2 (CC v1&v2)。除了这三个数据集之外,研究还收集了一个大规模的内部说话虚拟人物数据集,其中包含 7K 小时的视频和 8K 说话者 ID。数据集的统计概述如表 1 所示

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

为了学习到所需的信息,文章提出了几种自动过滤策略以确保训练数据的质量:

  1. 为了使嘴唇运动可见,头像的正面方向应朝向相机; 
  2. 为了保证稳定性,视频中的面部动作要流畅,不能出现快速晃动; 
  3. 为了过滤掉嘴唇动作和言语不一致的极端情况,应该删除头像戴口罩或保持沉默的帧。

本文在过滤后的数据上训练 VAE 和扩散模型。从实验结果来看,本文得到了三个关键结论:

  1. GAIA 能够进行零样本说话虚拟人物生成,在自然度、多样性、口型同步质量和视觉质量方面具有优越的性能。根据研究者的主观评价,GAIA 显着超越了所有基线方法; 
  2. 训练模型的大小从 150M 到 2B 不等,结果表明,GAIA 具有可扩展性,因为较大的模型会产生更好的结果; 
  3. GAIA 是一个通用且灵活的框架,可实现不同的应用,包括可控的说话虚拟人物生成和文本 - 指令虚拟人物生成。

GAIA 效果怎么样?

实验过程中,该研究将 GAIA 与三个强大的基线进行比较,包括 FOMM、HeadGAN 和 Face-vid2vid。结果如表 2 所示:GAIA 中的 VAE 比以前的视频驱动基线实现了持续的改进,这说明 GAIA 成功地分解了外貌和运动表示。

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

语音驱动结果。用语音驱动说话虚拟人物生成是通过从语音预测运动实现的。表 3 和图 2 提供了 GAIA 与 MakeItTalk、Audio2Head 和 SadTalker 方法的定量和定性比较。

从数据中可以清楚地看出,GAIA 在主观评价方面远远超过了所有基准方法。更具体地说,如图 2 所示,即使参考图像是闭眼或头部姿态不寻常,基准方法的生成结果通常高度依赖于参考图像;相比之下,GAIA 对各种参考图像都表现出鲁棒性,并生成具有更高自然度、口型高度同步、视觉质量更好以及运动多样性的结果

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

根据表3,最佳的MSI分数表明GAIA生成的视频具有出色的运动稳定性。Sync-D得分为8.528,接近真实视频得分(8.548),表明生成的视频具有出色的唇形同步性。该研究获得了与基线相当的FID分数,这可能是受到了不同头部姿态的影响,因为该研究发现未经扩散训练的模型在表中实现了更好的FID分数,详见表6

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

36

2026.01.21

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2021

2024.08.16

vsd文件打开方法
vsd文件打开方法

vsd文件打开方法有使用Microsoft Visio软件、使用Microsoft Visio查看器、转换为其他格式等。想了解更多vsd文件相关内容,可以阅读本专题下面的文章。

484

2023.10.30

html编辑相关教程合集
html编辑相关教程合集

本专题整合了html编辑相关教程合集,阅读专题下面的文章了解更多详细内容。

37

2026.01.21

三角洲入口地址合集
三角洲入口地址合集

本专题整合了三角洲入口地址合集,阅读专题下面的文章了解更多详细内容。

18

2026.01.21

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

233

2026.01.21

妖精漫画入口地址合集
妖精漫画入口地址合集

本专题整合了妖精漫画入口地址合集,阅读专题下面的文章了解更多详细内容。

61

2026.01.21

java版本选择建议
java版本选择建议

本专题整合了java版本相关合集,阅读专题下面的文章了解更多详细内容。

3

2026.01.21

Java编译相关教程合集
Java编译相关教程合集

本专题整合了Java编译相关教程,阅读专题下面的文章了解更多详细内容。

14

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.3万人学习

Go 教程
Go 教程

共32课时 | 4万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号