0

0

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

PHPz

PHPz

发布时间:2024-07-05 08:10:01

|

996人浏览过

|

来源于机器之心

转载

沉睡了两千多年的兵马俑,苏醒了?

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

央视点赞国产ai复活召唤术,兵马俑竟与宝石老舅对唱rap?

一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石 Gem 同台对唱《从军行》。

「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

这场表演背后的「AI 复活召唤术」,叫做 EMO,来自阿里巴巴通义实验室。仅仅一张照片、一个音频,EMO 就能让静止形象变为惟妙惟肖的唱演视频,且精准卡点音频中的跌宕起伏、抑扬顿挫。

在央视《2024 中国・AI 盛典》中,同样基于 EMO 技术,北宋文学家苏轼被「复活」,与李玉刚同台合唱了一曲《水调歌头》。「AI 苏轼」动作古朴自然,仿佛穿越时空而来:

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

在 EMO 等 AI 领域前沿技术的激发下,首个以人工智能为核心的国家级科技盛宴《2024 中国・AI 盛典》盛大开幕,以「媒体 + 科技 + 艺术」的融合形式将最前沿的国产 AI 技术力量传递给节目前的每一位观众:央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?这不是 EMO 第一次「出圈」。曾在社交媒体爆火的「高启强化身罗翔普法」,也是出自 EMO 之手: 央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?
登陆通义 APP 之后,借助玩家各种脑洞大开的试玩,EMO 火热程度至今不减。还没有尝试的小伙伴可以前去下载这款应用,进入「频道」选择「全民舞台」,就可以丝滑体验了。

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

实际上,早在今年 2 月,通义实验室就公开了 EMO(Emote Portrait Alive) 相关论文。这篇论文上线之初就好评如潮,更是有人称赞:「EMO 是一项革命性的研究。」

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

  • 论文地址:https://arxiv.org/pdf/2402.17485
  • 项目主页:https://humanaigc.github.io/emote-portrait-alive/

为什么它能获得如此高度的评价?这还要从当前视频生成技术的发展现状和 EMO 的底层技术创新说起。

如此出圈,EMO 凭什么?

过去几年,AI 在图像生成方面的成功是有目共睹的。当前,AI 领域的研究热点是攻克一个更困难的任务:视频生成。

EMO 面对的恰好是其中非常难的一项任务:基于音频驱动的人物视频生成。

不同于常见的文生视频和图生视频玩法,基于音频驱动的人物视频生成是一个从音频直接跨越到视频模态的过程。这类视频的生成往往涉及头部运动、凝视、眨眼、唇部运动等多个要素,且要保持视频内容的一致性和流畅度。

在此前的方法中,模型大多先针对人脸、人头或者身体部分做 3D 建模或人脸关键点标记,以此作为中间表达再生成最终的视频。但借助中间表达的方法可能会导致音频中的信息被过度压缩,影响最终生成视频中的情绪表达效果。

通义实验室应用视觉团队负责人薄列峰表示,EMO 的关键创新点「弱控制设计」很好地解决了上述问题,不仅降低视频生成成本,还大幅提升了视频生成质量。

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

阿里云AI平台
阿里云AI平台

阿里云AI平台

下载
「弱控制」体现在两个方面:首先,EMO 无需建模,直接从音频中提取信息来生成表情动态和嘴唇同步的视频,从而在不需要复杂预处理的情况下,端到端地创造出自然流畅且表情丰富的人像视频。其次,EMO 对生成表情和身体动作不做过多「控制」,最终生成结果的自然和流畅,都是源于模型本身对高质量数据的学习而训练出的泛化能力。

拿兵马俑和宝石 Gem 同框对唱《从军行》来说,歌声中所要传达的情绪(如激扬)在其面部得到了很好的展现,不会给人违和感:

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

基于弱控制的理念,研究团队为 EMO 模型构建了一个庞大而多样的音视频数据集,总计超过 250 小时的录影和超过 1.5 亿张图像,涵盖各种内容,包括演讲、电影和电视片段以及歌唱表演,包括中文和英文在内的多种语言,视频的丰富多样性确保了训练材料捕捉了广泛的人类表达和声音风格。

学界有一种观点是,对于一个数据集最好的无损压缩,就是对于数据集之外的数据最佳泛化。能够实现高效压缩的算法往往能够揭示数据的深层规律,这也是智能的一个重要表现。

因此,团队在训练过程中设计了高保真数据编码算法,保证了在压缩或处理数据的过程中,尽可能保持原始信息的丰富细节和动态范围。具体到 EMO 的训练上,只有音频信息完整,人物情绪才能很好的展现。

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

视频生成赛道风起云涌
通义实验室如何跻身全球第一梯队?

今年 2 月初,Sora 的发布点燃了视频生成赛道,背后的多项技术随之受到关注,其中就包括 DiT(Diffusion Transformer )。

我们知道,扩散模型中的 U-Net 能模拟信号从噪声中逐渐恢复的过程,理论上能够逼近任意复杂的数据分布,在图像质量方面优于生成对抗网络(GAN)和变分自编码器(VAE),生成具有更自然纹理和更准确细节的现实世界图像。但 DiT 论文表明,U-Net 归纳偏置对扩散模型的性能并非不可或缺,可以很容易地用标准设计(如 Transformer)取代,这就是该论文提出的基于 Transformer 架构的新型扩散模型 DiT。

最重要的是,以 DiT 为核心的 Sora 验证了视频生成模型中仍存在 Scaling Law ,研究者们可以通过增加更多的参数和数据来扩大模型规模实现更好的结果。

DiT 模型在生成真实视频方面的成功,让 AI 社区看到了这一方法的潜力,促使视频生成领域从经典 U-Net 架构转变到基于 Transformer 的扩散主干架构的范式。基于 Transformer 注意力机制的时序预测、大规模的高质量视频数据都是推动这一转变的关键力量。

但纵观当前的视频生成领域,尚未出现一个「大一统」架构。

EMO 并不是建立在类似 DiT 架构的基础上,也就是没有用 Transformer 去替代传统 U-Net,同样能够很好地模拟真实物理世界,这给整个研究领域带来了启发。

未来,视频生成领域会出现哪些技术路线?不管是理论研究者还是从业者,都可以保持「相对开放的期待」。

薄列峰表示,本质上,当前的语言模型、图像 / 视频生成模型都没有超越统计机器学习的框架。即使是 Scaling Law ,也有自身的限制。尽管各个模型对强关系和中等关系的生成把握比较精准,但对弱关系的学习仍然不足。如果研究者们不能持续提供足够多的高质量数据,模型的能力就难以有质的提升。

换个角度来看,即使视频生成领域会出现一种「占据半壁江山」的大一统架构,也并不意味其具备绝对的优越性。就像是自然语言领域,一直稳居 C 位的 Transformer 也会面临被 Mamba 超越的情况。

具体到视频生成领域,每种技术路线都有适合自身的应用场景。比如关键点驱动、视频驱动更适合表情迁移的场景,音频驱动更适合人物讲话、唱演的场景。从条件控制的程度来说,弱控制的方法很适合创意类任务,同时很多专业、具体的任务更能受益于强控制的方法。

通义实验室是国内最早布局视频生成技术的机构之一,目前已有文生视频、图生视频等多个方向的研发积累,特别是在人物视频生成方面,已经形成了包括物动作视频生成框架 Animate Anyone、人物换装视频生成框架 Outfit Anyone、人物视频角色替换框架 Motionshop、人物唱演视频生成框架 Emote Portrait Alive 在内的完整研究矩阵。

央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?

                                   更多项目请关注:https://github.com/HumanAIGC

比如在 EMO 之前,Animate Anyone 一度霸屏社交媒体和朋友圈。该模型解决了人物运动视频生成中保持人物外观短时连续性和长时一致性的问题,随后上线通义 App「全民舞王」功能,掀起了一波全民热舞小高潮。央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?
从技术到现实世界

过去两年,语言模型展现了强大的对话、理解、总结、推理等文本方面的能力,图像生成模型展现了强大的自然生成、娱乐和艺术能力,两大赛道都诞生了很多爆款产品。这些模型的成功至少告诉我们一点:想在这个时代取得影响力的技术团队,需要学会「基础模型」和「超级应用」两条腿走路。

目前,视频内容呈现爆发式增长的趋势,人们都在期待能够出现一个人人「可用」且「实用」的 AI 视频生成平台。EMO 可能是打破这一局面的重要技术突破,通义 App 则提供了一个技术落地的广阔平台。

视频生成技术的下一个挑战,是如何攻克专业级的内容。

科技公司们希望将 AI 技术转化为真正的生产力工具,去服务短视频博主、影视制作人、广告和游戏创意人。这也是为什么视频生成应用不能只停留在「通用内容」的水准。

环顾目前大部分的视频生成应用,大多是基于 3 到 5 秒的视频生成模型,在应用和体验上的限制比较明显。但 EMO 技术对于音频时长的包容度很高,而且生成内容质量可以达到演播标准。比如登陆央视的这段「兵马俑唱演」,全程四分钟的兵马俑部分表演视频无一秒需要人工后期针对性「微调」。

如今看来,以 EMO 为代表的人物视频生成技术是最接近「专业级生成水准」的落地方向之一。相比于文生视频技术中用户 Prompt 存在的诸多不确定性,EMO 技术高度符合人物视频创作对内容连贯性和一致性的核心需求,展示了极具潜力的应用空间。

EMO 之所以「出圈」,人们看到的不光是研发团队的技术实力,更重要的是看到了视频生成技术落地的加速度。

「人均专业创作者」的时代,或许不远了。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

4288

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

500

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2917

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

25

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

43

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

50

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 4.2万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.6万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 94人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号