0

0

加特技只需一句话or一张图,Stable Diffusion的公司把AIGC玩出了新花样

PHPz

PHPz

发布时间:2023-04-12 23:46:01

|

1570人浏览过

|

来源于51CTO.COM

转载

相信很多人已经领会过生成式 AI 技术的魅力,特别是在经历了 2022 年的 AIGC 爆发之后。以 Stable Diffusion 为代表的文本到图像生成技术一度风靡全球,无数用户涌入,借助 AI 之笔表达自己的艺术想象……

相比于图像编辑,视频编辑是一个更具有挑战性的议题,它需要合成新的动作,而不仅仅是修改视觉外观,此外还需要保持时间上的一致性。

在这条赛道上探索的公司也不少。前段时间,谷歌发布的 Dreamix 以将文本条件视频扩散模型(video diffusion model, VDM)应用于视频编辑。

近日,曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」,该模型通过应用文本 prompt 或参考图像指定的任何风格,可将现有视频转化为新视频。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文链接:https://arxiv.org/pdf/2302.03011.pdf

项目主页:https://research.runwayml.com/gen1

2021 年,Runway 与慕尼黑大学的研究人员合作,建立了 Stable Diffusion 的第一个版本。随后英国的一家初创公司 Stability AI 介入,资助了在更多数据上训练模型所需的计算费用。2022 年,Stability AI 将 Stable Diffusion 纳入主流,将其从一个研究项目转变为一个全球现象。

Runway 表示,希望 Gen-1 能像 Stable Diffusion 在图像上所做的那样为视频服务。

「我们已经看到图像生成模型的大爆炸,」Runway 首席执行官兼联合创始人 Cristóbal Valenzuela 说。「我真的相信,2023 年将是视频之年。」

具体来说,Gen-1 支持几种编辑模式:

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。

2、故事板。将模型变成完全风格化和动画的渲染。

3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。

4、渲染。通过应用输入图像或 prompt,将无纹理渲染变成逼真的输出。

5、定制化。通过自定义模型以获得更高保真度的结果,释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中,展示了 Gen-1 如何丝滑地更改视频风格,来看几个示例。

比如将「街道上的人」变成「粘土木偶」,只需要一行 prompt:

图片

或者将「堆放在桌上的书」变成「夜晚的城市景观」:

图片

从「雪地上的奔跑」到「月球漫步」:

图片

年轻女孩,竟然秒变古代先哲:

图片

Wave.Video
Wave.Video

一个在线的AI自动化视频创作平台

下载

论文细节

视觉特效和视频编辑在当代媒体领域无处不在。随着以视频为中心的平台的普及,对更直观、性能更强的视频编辑工具的需求也在增加。然而,由于视频数据的时间性,在这种格式下的编辑仍然是复杂和耗时的。最先进的机器学习模型在改善编辑过程方面显示出了巨大的前景,但很多方法不得不在时间一致性和空间细节之间取得平衡。

由于引入了在大规模数据集上训练的扩散模型,用于图像合成的生成方法最近在质量和受欢迎程度上经历了一个快速增长阶段。一些文本条件模型,如 DALL-E 2 和 Stable Diffusion,使新手只需输入一个文本 prompt 就能生成详细的图像。潜在扩散模型提供了有效的方法,通过在感知压缩的空间中进行合成来生成图像。

在本论文中,研究者提出了一个可控的结构和内容感知的视频扩散模型,该模型是在未加字幕的视频和配对的文本 - 图像数据的大规模数据集上训练的。研究者选择用单目深度估计来表征结构,用预训练的神经网络预测的嵌入来表征内容。

该方法在其生成过程中提供了几种强大的控制模式:首先,与图像合成模型类似,研究者训练模型使推断出的视频内容,如其外观或风格,与用户提供的图像或文本 prompt 相匹配(图 1)。其次,受扩散过程的启发,研究者对结构表征应用了一个信息掩蔽过程,以便能够选择模型对给定结构的支持程度。最后,研究者通过一个自定义的指导方法来调整推理过程,该方法受到无分类指导的启发,以实现对生成片段的时间一致性的控制。

总体来说,本研究的亮点如下:

  • 通过在预训练图像模型中引入时间层,并在图像和视频上进行联合训练,将潜在扩散模型扩展到了视频生成领域;
  • 提出了一个结构和内容感知的模型,在样本图像或文本的指导下修改视频。编辑工作完全是在推理时间内进行的,不需要额外对每个视频进行训练或预处理;
  • 展示了对时间、内容和结构一致性的完全控制。该研究首次表明,对图像和视频数据的联合训练能够让推理时间控制时间的一致性。对于结构的一致性,在表征中不同的细节水平上进行训练,可以在推理过程中选择所需的设置;
  • 在一项用户研究中,本文的方法比其他几种方法更受欢迎;
  • 通过对一小部分图像进行微调,可以进一步定制训练过的模型,以生成更准确的特定主体的视频。

方法

就研究目的而言,从内容和结构的角度来考虑一个视频将是有帮助的。对于结构,此处指的是描述其几何和动态的特征,比如主体的形状和位置,以及它们的时间变化。对于内容,此处将其定义为描述视频的外观和语义的特征,比如物体的颜色和风格以及场景的照明。Gen-1 模型的目标是编辑视频的内容,同时保留其结构。

为了实现这一目标,研究者学习了视频 x 的生成模型 p (x|s, c),其条件是结构表征(用 s 表示)和内容表征(用 c 表示)。他们从输入视频推断出形状表征 s,并根据描述编辑的文本 prompt c 对其进行修改。首先,描述了对生成模型的实现,作为一个条件潜在的视频扩散模型,然后,描述了对形状和内容表征的选择。最后,讨论了模型的优化过程。

模型结构如图 2 所示。

图片

实验

为了评估该方法,研究者采用了 DAVIS 的视频和各种素材。为了自动创建编辑 prompt,研究者首先运行了一个字幕模型来获得原始视频内容的描述,然后使用 GPT-3 来生成编辑 prompt。

定性研究

如图 5 所示,结果证明,本文的方法在一些不同的输入上表现良好。

图片

用户研究

研究者还使用 Amazon Mechanical Turk(AMT)对 35 个有代表性的视频编辑 prompt 的评估集进行了用户研究。对于每个样本,均要求 5 个注解者在基线方法和本文方法之间对比对视频编辑 prompt 的忠实度(「哪个视频更好地代表了所提供的编辑过的字幕?」),然后以随机顺序呈现,并使用多数票来决定最终结果。

结果如图 7 所示:

图片

定量评估

图 6 展示了每个模型使用本文框架一致性和 prompt 一致性指标的结果。本文模型在这两方面的表现都倾向于超越基线模型(即,在图的右上角位置较高)。研究者还注意到,在基线模型中增加强度参数会有轻微的 tradeoff:更大的强度缩放意味着更高的 prompt 一致性,代价是更低的框架一致性。同时他们还观察到,增加结构缩放会导致更高的 prompt 一致性,因为内容变得不再由输入结构决定。

定制化

图 10 展示了一个具有不同数量的定制步骤和不同水平的结构依附性 ts 的例子。研究者观察到,定制化提高了对人物风格和外观的保真度,因此,尽管使用具有不同特征的人物的驱动视频,但结合较高的 ts 值,还是可以实现精确的动画效果。

图片

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
bootstrap安装教程
bootstrap安装教程

本专题整合了bootstrap安装相关教程,阅读专题下面的文章了解更多详细操作教程。

3

2026.03.18

bootstrap框架介绍
bootstrap框架介绍

本专题整合了bootstrap框架相关介绍,阅读专题下面的文章了解更多详细内容。

4

2026.03.18

vscode 格式化
vscode 格式化

本专题整合了vscode格式化相关内容,阅读专题下面的文章了解更多详细内容。

2

2026.03.18

vscode设置中文教程
vscode设置中文教程

本专题整合了vscode设置中文相关内容,阅读专题下面的文章了解更多详细教程。

0

2026.03.18

vscode更新教程合集
vscode更新教程合集

本专题整合了vscode更新相关内容,阅读专题下面的文章了解更多详细教程。

3

2026.03.18

Gemini网页版零基础入门:5分钟上手Gemini聊天指南
Gemini网页版零基础入门:5分钟上手Gemini聊天指南

本专题专为零基础用户打造,5分钟快速掌握Gemini网页版核心用法。从账号登录到界面布局,详解如何发起对话、优化提示词及利用多模态功能。通过实战案例,教你高效获取信息、创作内容与分析数据。无论学习还是工作,轻松开启AI辅助新时代,让Gemini成为你的得力智能助手。

9

2026.03.18

Python WebSocket实时通信与异步服务开发实践
Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践,系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例,帮助开发者构建高效稳定的实时通信系统,适用于聊天应用、实时数据推送等场景。

8

2026.03.18

Java Spring Security权限控制与认证机制实战
Java Spring Security权限控制与认证机制实战

本专题围绕 Java 后端安全体系建设展开,重点讲解 Spring Security 在权限控制与认证机制中的应用实践。内容涵盖用户认证流程、权限模型设计、JWT 鉴权方案、OAuth2 集成以及接口安全防护策略。通过实际项目案例,帮助开发者构建安全可靠的后端认证体系,提升系统安全性与可扩展能力。

26

2026.03.18

抖漫入口地址合集
抖漫入口地址合集

本专题整合了抖漫入口地址相关合集,阅读专题下面的文章了解更多详细地址。

176

2026.03.17

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.7万人学习

CSS 代码实例
CSS 代码实例

共45课时 | 18.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号