0

0

谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

WBOY

WBOY

发布时间:2024-03-21 12:21:38

|

1225人浏览过

|

来源于ZAKER

转载

谷歌发布了一个新的视频框架:

只需要一张你的头像、一段讲话录音,就能得到一个本人栩栩如生的演讲视频。

视频时长可变,目前看到的示例最高为 10s。

可以看到,无论是口型还是面部表情,它都非常自然。

如果输入图像囊括整个上半身,它也能配合丰富的手势:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

网友看完就表示:

有了它,以后咱开线上视频会议再也不需要整理好发型、穿好衣服再去了。

嗯,拍一张肖像,录好演讲音频就可以(手动狗头)

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

用声音控制肖像生成视频

这个框架名叫VLOGGER。

它主要基于扩散模型,并包含两部分:

一个是随机的人体到 3D 运动(human-to-3d-motion)扩散模型。

另一个是用于增强文本到图像模型的新扩散架构。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

其中,前者负责将音频波形作为输入,生成人物的身体控制动作,包括眼神、表情和手势、身体整体姿势等等。

后者则是一个时间维度的图像到图像模型,用于扩展大型图像扩散模型,使用刚刚预测的动作来生成相应的帧。

为了使结果符合特定的人物形象,VLOGGER 还将参数图像的 pose 图作为输入。

VLOGGER 的训练是在一个超大的数据集(名叫 MENTOR)上完成的。

有多大?全长 2200 小时,共包含 80 万个人物视频。

其中,测试集的视频时长也有 120 小时长,共计 4000 个人物。

谷歌介绍,VLOGGER 最突出的表现是具备多样性:

如下图所示,最后的像素图颜色越深(红)的部分,代表动作越丰富。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

而和业内此前的同类方法相比,VLOGGER 最大的优势则体现在不需要对每个人进行训练、也不依赖于面部检测和裁剪,并且生成的视频很完整(既包括面部和唇部,也包括肢体动作)等等。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

具体来看,如下表所示:

Synths.Video
Synths.Video

一键将文章转换为带有真人头像和画外音的视频

下载

Face Reenactment 方法无法用音频和文本来控制此类视频生成。

Audio-to-motion 倒是可以音频生成,方式也是将音频编码为 3D 人脸动作,不过它生成的效果不够逼真。

Lip sync 可以处理不同主题的视频,但只能模拟嘴部动作。

对比起来,后面的两种方法 SadTaker 和 Styletalk 表现最接近谷歌 VLOGGER,但也败在了不能进行身体控制上,并且也不能进一步编辑视频。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

说到视频编辑,如下图所示,VLOGGER 模型的应用之一就是这个,它可以一键让人物闭嘴、闭眼、只闭左眼或者全程睁眼:

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

另一个应用则是视频翻译:

例如将原视频的英语讲话改成口型一致的西班牙语。

网友吐槽

最后," 老规矩 ",谷歌没有发布模型,现在能看的只有更多效果还有论文。

嗯,吐槽也是不少的:

画质模型、口型抽风对不上、看起来还是很机器人等等。

因此,有人毫不犹豫打上差评:

这就是谷歌的水准吗?

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

有点对不起 "VLOGGER" 这个名字了。

 谷歌发布“ Vlogger ”模型:单张图片生成 10 秒视频

——和 OpenAI 的 Sora 对比,网友的说法确实也不是没有道理。。

大家觉得呢?

更多效果:

https://enriccorona.github.io/vlogger/

完整论文:

https://enriccorona.github.io/vlogger/paper.pdf

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1998

2024.08.16

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

9

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

59

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

80

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

38

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

17

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

155

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
550W粉丝大佬手把手从零学JavaScript
550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.2万人学习

尚硅谷JavaScript高级视频教程
尚硅谷JavaScript高级视频教程

共48课时 | 14.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号