0

0

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

WBOY

WBOY

发布时间:2024-07-26 17:43:12

|

1101人浏览过

|

来源于机器之心

转载

智谱大模型团队自研打造。


自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。

刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
即日起,清影上线清言 App,所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App,你也可以在「AI 动态照片小程序」上进行操作,快速为手机里的照片实现动态效果。
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
智谱「清影」生成的视频时长有 6 秒,清晰度达到 1440×960,所有用户均可以免费使用。
智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
  • PC 端访问链接:https://chatglm.cn/
  • 移动端访问链接:https://chatglm.cn/download?fr=web_home

智谱 AI 表示,随着技术的不断发展,「清影」的生成能力很快将可以用于短视频制作,广告生成甚至电影剪辑等工作中。

在生成式 AI 视频模型的研发中,Scaling Law 继续在算法和数据两方面发挥作用。「我们积极在模型层面探索更高效的 scaling 方式。」在智谱 Open Day 上,智谱 AI CEO 张鹏表示:「随着算法、数据不断迭代,相信 Scaling Law 将继续发挥强有力作用。」

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

拿捏各种风格

从目前的一些 Demo,以及简单试用的情况看来,智谱 AI 的「清影」具有如下特点:

  • 在风景、动物、科幻、人文历史等类型的视频内容上生成的表现较好;
  • 擅长生成的视频风格包括卡通风格、真实摄影风格、二次元动漫风格等;
  • 实体类型呈现效果上看,动物 > 植物 > 物品 > 建筑 > 人物。

它既可以文字生成视频,也可以完成图生视频,生成的风格覆盖奇幻动画风格。

文生视频

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:一个法师正在海浪中施展法术,宝石将海水都聚集过来,打开了一道魔法传送门。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:蘑菇变成小熊。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

到真实景物:

提示词:在一片森林中,人视,参天大树遮蔽着太阳,树叶的缝隙中洒下一些阳光,丁达尔效应。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:一只水豚鼠像人一样站立着,手里拿着冰激凌,开心得吃起来。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

图生视频

除了文本生成视频,也可以到清影上玩图片生成视频。图生视频带来了更多的新玩法,包括表情包梗图、广告制作、剧情创作、短视频创作等。同时,基于清影的「老照片动起来」小程序也会同步上线,只需一步上传老照片,AI 就能让凝练在旧时光中的照片灵动起来。

提示词:一条自由移动的七彩鱼。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

讯飞开放平台
讯飞开放平台

科大讯飞推出的以语音交互技术为核心的AI开放平台

下载
提示词:图中男子站起来,风吹着他的头发。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:小黄鸭玩具漂浮在游泳池的水面,特写。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

再到现代艺术:

提示词:摄像机围绕着一大堆老式电视旋转,这些电视播放着不同的节目 ——20 世纪 50 年代的科幻电影、恐怖电影、新闻、静态、70 年代的情景喜剧等,背景设在纽约博物馆的一个大型画廊里。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

提示词:掏出一个苹果手机拍照。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

无提示词。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

你常用的表情包,智谱 AI 能把它延长成「连续剧」。

提示词:师徒四人伸出手互相击掌,脸上是困惑的表情。智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量提示词:小猫张大了嘴,脸上是困惑表情,很多问号。 智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量
可以看出,清影各类风格都可以拿捏,还有更多的玩法等待人们来发掘。只需要在智谱清言 PC/APP 上,点击「清影智能体」功能,就可以让你的每一个创意在瞬间化为现实。

全自研技术

All in 大模型的智谱 AI,很早就开始部署多模态生成式 AI 模型。从 2021 年开始,智谱 AI 先后发布了 CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)等多项研究。

据介绍,「清影」依托于智谱 AI 大模型团队自研打造的新一代视频生成大模型 CogVideoX。

去年 11 月,其团队基于文生图模型 CogView2 打造出了文本到视频生成模型 CogVideo,并随后将其开源。

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

CogVideo 拥有 94 亿参数,它通过 CogView2 生成一系列初始帧,基于双向注意力模型对图像进行插帧的方法实现视频生成。此外,CogVideo 根据文本描述生成 3D 环境,可直接利用预训练模型,避免了昂贵的训练,它也支持中文的 Prompt 输入。

本次清影底座的视频生成模型是 CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了 Sora 的算法设计,它也是一个 DiT 架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了 6 倍。

OpenAI 的 Sora 横空出世,让 AI 在视频生成方面取得了显著进展,但大多数模型在生成具有连贯性和逻辑一致性的视频内容方面仍然存在困难。 

为了解决这些问题,智谱 AI 自研了一个高效的三维变分自编码器结构(3D VAE),可以将原视频空间极致压缩到 2%,使得模型训练成本大幅下降,训练难度也大大降低。

模型结构采用因果三维卷积(Causal 3D convolution)为主要模型组件,并将自编码器中常用的注意力模块移除,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积使得模型视频编解码具备从前向后的序列独立性, 这有助于通过微调将模型扩展到更高帧率和更长时间的场景。 

除此以外,视频生成还面临这样一个问题,即视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱 AI 自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,进而构建海量的高质量视频文本对,使得训练出的模型指令遵循度高。
 
最后值得一提的是,智谱 AI 自研了一个将文本、时间、空间融合起来的 transformer 架构,该架构没有采用传统 cross attention 模块,而是在输入阶段就将文本嵌入和视频嵌入连接起来,以便更充分地进行两种模态的交互。

然而文本和视频特征空间存在很大差异,智谱 AI 通过 expert adaptive layernorm 对两者分别进行处理,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

智谱 AI 表示,通过优化技术,智谱 AI 生成式视频模型的推理速度提升了 6 倍。目前生成 6s 视频,模型花费的理论时间是 30 秒钟。

如今随着「清影」的上线,视频生成赛道又出现了智谱 AI 这位重磅玩家。

除了人人都能尝试的应用之外,清影 API 也同步上线大模型开放平台 bigmodel.cn,企业和开发者可以通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力。
 
随着各家公司 AI 视频生成功能的不断上线,今年的生成式 AI 竞赛已经进入白热化阶段。对于大多数用户来说,选择也更多了:现在,无论是完全没有视频制作基础的人,还是专业的内容创作者,都能借助大模型能力实现视频创作。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

430

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

599

2023.08.10

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

484

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2770

2024.08.16

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

48

2026.02.28

Golang 工程化架构设计:可维护与可演进系统构建
Golang 工程化架构设计:可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则,涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术,帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

44

2026.02.28

Golang 性能分析与运行时机制:构建高性能程序
Golang 性能分析与运行时机制:构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面,深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略,并结合实际案例剖析 Go 程序的运行时行为,帮助开发者掌握构建高性能应用的关键技能。

37

2026.02.28

Golang 并发编程模型与工程实践:从语言特性到系统性能
Golang 并发编程模型与工程实践:从语言特性到系统性能

本专题系统讲解 Golang 并发编程模型,从语言级特性出发,深入理解 goroutine、channel 与调度机制。结合工程实践,分析并发设计模式、性能瓶颈与资源控制策略,帮助将并发能力有效转化为稳定、可扩展的系统性能优势。

22

2026.02.27

Golang 高级特性与最佳实践:提升代码艺术
Golang 高级特性与最佳实践:提升代码艺术

本专题深入剖析 Golang 的高级特性与工程级最佳实践,涵盖并发模型、内存管理、接口设计与错误处理策略。通过真实场景与代码对比,引导从“可运行”走向“高质量”,帮助构建高性能、可扩展、易维护的优雅 Go 代码体系。

19

2026.02.27

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号