LongCat-Video是什么
longcat-video是由美团longcat团队推出的开源视频生成模型,拥有136亿参数规模。该模型在文本到视频(text-to-video)、图像到视频(image-to-video)以及视频续写(video-continuation)等多项任务中表现优异,尤其在高效生成高质量长视频方面具备突出能力。通过采用多奖励强化学习优化策略(grpo),其在内部测试与公开基准上均达到了与当前领先开源模型及先进商业方案相媲美的性能水平。
诚客在线考试是由南宁诚客网络科技有限公司开发的一款手机移动端的答题网站软件,它应用广泛适合各种学校、培训班、教育机构、公司企业、事业单位、各种社会团体、银行证券等用于学生学习刷题、员工内部培训,学员考核、员工对公司制度政策的学习……可使用的题型有:单选题、多选题、判断题支持文字,图片,音频,视频、数学公式。可以设置考试时间,答题时间,考试次数,是否需要补考,是否可以看到自己成绩。练习模式,支持学生
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
LongCat-Video的主要功能
- 长视频生成:基于视频续写的预训练机制,支持生成长达数分钟的连续视频内容,避免出现色彩偏移或画质衰减等问题。
- 统一多任务架构:将文本驱动、图像驱动和视频延续三种任务整合于同一框架之下,仅需一个模型即可灵活应对多种输入形式。
- 高效推理能力:结合“由粗到细”的生成流程与Block Sparse Attention技术,可在几分钟内完成720p分辨率、30fps帧率的视频生成。
- 多维度质量优化:利用多奖励Group Relative Policy Optimization(GRPO)方法,在文本匹配度、画面清晰度和动态流畅性等方面实现全面提升,确保输出视频的综合质量。
LongCat-Video的技术原理
- 统一建模架构:构建统一的视频生成网络结构,共享参数处理文本、图像和视频等多种输入模式,提升模型泛化能力和任务适应性。
- 长序列建模能力:通过在视频续写任务上的专项预训练,结合时序一致性约束和分段建模策略,实现长时间视频内容的稳定生成。
- 高效生成机制:采用先生成低频结构、再逐级细化细节的两阶段策略,并融合Block Sparse Attention以降低计算冗余,显著提升高分辨率视频的生成速度。
- 强化学习优化:引入多奖励GRPO训练范式,从语义对齐、视觉美感、运动自然性等多个维度指导模型优化,增强生成结果的真实感与连贯性。
LongCat-Video的项目地址
- 项目官网:https://www.php.cn/link/31f16d3ab7ac2c7e89fc56fe45eae7e1
- Github仓库:https://www.php.cn/link/252eea6c71cc7e5fd086ad26541740cb
- HuggingFace模型库:https://www.php.cn/link/f313349e6ef8ece66bfc2859d7b1df96










