helios是什么
helios 是由北京大学联合字节跳动等机构共同研发的140亿参数实时长视频生成模型,可在单块h100 gpu上以19.5帧/秒(fps)的速度稳定输出分钟级高清视频。该模型突破性地摒弃了kv缓存、权重量化、因果掩码等传统加速手段,转而采用统一历史注入机制、深度压缩流架构与对抗分层蒸馏策略等原创技术,将实际计算开销压缩至仅相当于13亿参数模型的水平。helios原生兼容文本生成视频、图像生成视频及视频续写三大任务,在生成质量与推理效率两方面均显著优于当前主流方案,全部代码与预训练权重均已开源。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Helios的核心能力
- 文生视频:支持基于自然语言描述直接生成高保真、高连贯性的动态视频内容。
- 图生视频:可将单张静态图像智能延展为具有合理运动逻辑的短视频序列。
- 视频续写:具备对已有视频片段进行时序延续或风格重映射的能力,实现无缝衔接的动态扩展。
- 交互式生成:支持在视频生成过程中实时调整提示词,即时响应用户意图变化,提升创作灵活性。
- 长时序建模:可稳定生成长达1440帧(即24秒@60FPS或48秒@30FPS)的高质量连续视频,突破长视频一致性瓶颈。
Helios的技术亮点
- 统一历史注入机制:通过将历史帧与当前噪声帧拼接输入,将原本双向建模的Transformer结构重构为自回归生成器;历史帧的时间步统一设为0以保留原始视觉信息,噪声帧则参与标准去噪流程;该设计使同一网络结构能自适应切换三种生成模式——历史全零对应文生视频,仅末帧非零对应图生视频,任意中间帧非零则触发视频续写。
- 双路径注意力调控:在自注意力模块中,分别构建历史上下文与噪声上下文的独立查询、键、值矩阵,并通过头级别缩放因子动态调节历史信息权重;在交叉注意力模块中,仅向噪声上下文注入文本语义,防止历史帧语义被重复叠加,从而解耦时空与语言两种异构信息源的统计分布差异。
- 轻量抗漂移设计:引入相对位置编码固定时间索引范围,从根本上抑制长视频中的位置偏移现象;强制锁定首帧作为全局视觉锚点,有效缓解色彩与构图漂移;训练阶段对历史帧随机施加曝光扰动、高斯噪声或高斯模糊等增强操作,主动模拟推理过程中的误差传播,从源头削弱重复运动伪影。
- 深度压缩流架构:采用多阶段记忆分块策略,依据历史帧距当前帧的时间距离实施差异化压缩率,保障总令牌预算恒定;结合金字塔式统一预测-校正器,在多尺度潜空间中分阶段采样——低分辨率阶段快速确立全局运动结构,高分辨率阶段精细还原纹理与细节,最终将14B模型的实际计算负载降至1.3B模型量级。
- 对抗分层蒸馏框架:以高性能自回归教师模型为基准,通过反向仿真获取多尺度中间估计;借助动态重噪声调度实现渐进式课程学习;进一步引入对抗后训练机制,突破教师模型性能天花板,最终达成仅需3步采样即可完成高质量生成,且完全无需分类器引导(Classifier-Free Guidance)。
Helios的资源入口
- 项目主页:https://www.php.cn/link/7db4802a643d0f1c44c58047d03b81fc
- GitHub代码库:https://www.php.cn/link/38cdcd4e817aad01e8408901fa10f392
- Hugging Face模型中心:https://www.php.cn/link/fd5e90020fbd7cf001751decb2397038
- arXiv论文地址:https://www.php.cn/link/80cfbf53d537457298be2f3ffc1831d0
Helios的典型应用方向
- 影视工业化生产:凭借毫秒级响应与分钟级成片能力,可加速电影预告、广告创意、动态分镜等前期可视化流程,将传统依赖数小时渲染的环节压缩至分钟内闭环。
- 游戏引擎与沉浸式体验:作为轻量化世界模型核心组件,可实时驱动无限延展的游戏场景、动态环境与NPC行为动画,赋能开放世界游戏、VR/AR内容及交互式叙事系统。
- 社交平台与UGC生态:普通用户可通过简单输入文字或上传图片,一键生成专业级短视频,大幅降低视频创作门槛,助力个人创作者高效产出电影质感内容。
- 工业设计与产品验证:设计师可利用图生视频与视频续写功能,将静态UI界面、产品草图或3D渲染图快速转化为可交互的动态演示视频,显著缩短原型反馈周期与跨部门沟通成本。









