LongCat-Video
扫码查看

LongCat-Video 是美团“长猫团队”推出的 13.6B 参数基础视频生成模型,支持文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)和视频续写(Video Continuation)三大任务。该模型原生支持分钟级长视频生成,且在生成过程中无色彩漂移或画质下降问题。其采用粗到精(coarse-to-fine)的时空生成策略和块稀疏注意力机制,兼顾生成质量与推理效率,适用于对长视频生成有高要求的研究者与开发者。

LongCat-Video

简介
LongCat-Video 是美团“长猫团队”推出的 13.6B 参数基础视频生成模型,支持文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)和视频续写(Video Continuation)三大任务。该模型原生支持分钟级长视频生成,且在生成过程中无色彩漂移或画质下降问题。其采用粗到精(coarse-to-fine)的时空生成策略和块稀疏注意力机制,兼顾生成质量与推理效率,适用于对长视频生成有高要求的研究者与开发者。

亮点

  • 行业领先的原生长视频生成能力,支持720p/30fps视频分钟级输出,无质量衰减
  • 统一架构支持多模态视频生成任务,单一模型覆盖三大主流视频生成场景
  • 采用多奖励强化学习(GRPO)优化,综合性能媲美主流开源与商业模型

主要功能
LongCat-Video 提供开箱即用的多任务视频生成能力,支持本地部署与GPU加速推理。

  • 文本生成视频:输入自然语言描述,生成高质量动态视频
  • 图像生成视频:基于单张图像生成连贯动态内容,保留原始图像细节
  • 视频续写:对已有视频进行时序延展,保持风格与动作一致性
  • 长视频生成:原生支持生成时长数分钟的连续视频,适用于叙事类内容创作

适用场景

  • 短视频/AIGC内容创作与自动化生产
  • 游戏、影视、广告行业的动态素材生成与预演

推荐理由
LongCat-Video 代表了当前开源视频生成模型在长视频能力上的重要突破,其统一架构大幅降低多任务部署成本。模型采用MIT许可证,对学术与商业应用友好,适合希望快速集成高质量视频生成能力的团队。随着AIGC向“世界模型”演进,LongCat-Video 的长时序建模能力契合未来内容生成的核心趋势,为开发者提供前瞻性技术储备。

微信微博Email复制链接