SkyReels-V2 – 打破视频时长限制的 AI 革新

SkyReels-V2 是什么

SkyReels-V2 是昆仑万维 SkyReels 团队推出的全球首个使用扩散强迫框架的无限时长电影生成模型,结合多模态大语言模型(MLLM)、多阶段预训练、强化学习等前沿技术,可生成高质量、无限时长的连贯视频内容,突破了传统模型在提示词遵循、视觉质量、运动动态和视频时长协调上的限制。

核心功能

  • 无限时长视频生成 :采用扩散强迫框架,支持生成理论上无限长的连贯视频,突破传统模型 5-10 秒的时长限制,目前可稳定生成 30-40 秒的电影级质量视频,并可拓展时长。
  • 智能故事编排 :根据叙事文本自动编排复杂动作序列,实现动态长镜头叙事,生成具有连贯叙事的视频,确保场景平滑过渡。
  • 图像转视频合成 :提供两种技术路径,即微调全序列文本到视频扩散模型和扩散强迫模型与帧条件结合,可将静态图像转化为影视级动态内容。
  • 专业摄像导演 :自动生成推拉摇移等电影级运镜效果,无需专业设备与人员,还针对摄像机运动数据不平衡问题进行了优化,提升摄影效果。
  • 多元素合成 :自由组合人物、物体、背景等视觉元素,生成符合文本引导的连贯视频,适用于短剧、音乐视频和虚拟电商内容创作等。

技术原理

  • 多模态大语言模型 :基于 MLM 生成视频描述,结合子专家模型提供详细镜头语言解析,准确识别视频中的主体类型、外观、表情、动作和位置等信息。
  • 渐进式分辨率训练 :从 256p 低分辨率逐步提升至 720p 高清,稳定提升模型生成能力,可生成更高分辨率的清晰视频。
  • 强化学习优化 :通过半自动数据管道生成偏好对比数据,显著提升运动物理合理性,使视频中的运动场景更加流畅自然。
  • 扩散强迫框架 :为每帧分配独立噪声水平,将连续帧去噪复杂度降低百万倍,提升生成效率和视频质量。
  • 高效计算优化 :采用 FP8 量化和多 GPU 并行等技术,使 14B 大模型可在消费级显卡运行,降低了硬件要求和使用成本。

支持平台

目前关于其支持平台的官方信息较少,但从其开源的特性以及相关的技术参数和运行示例来看,它可在搭载一定配置显卡的电脑上运行,用户可通过官网或 GitHub 仓库获取相关资源并在本地安装使用。

团队介绍

SkyReels-V2 由昆仑万维 SkyReels 团队推出。昆仑万维是一家在人工智能等领域具有深厚技术积累和创新能力的企业,为 SkyReels-V2 的研发提供了强大的技术支持和资源保障。其团队成员在人工智能、视频生成、多模态大语言模型等领域拥有丰富的专业经验和专业知识,能够不断创新和优化 SkyReels-V2 的技术架构和功能。

项目资源

业务场景

  • 电影制作 :可辅助生成电影中的长镜头、特效场景等,帮助导演和制作团队快速实现创意,降低制作成本和时间。
  • 广告创意 :广告公司可利用其快速生成广告视频,提高制作效率,如 1 小时产出季度 campaign。
  • 短剧创作 :能够生成连贯的剧情视频,为短剧制作提供更多的创意和可能性。
  • 音乐视频制作 :可将音乐与视频内容更好地结合,生成具有创意和吸引力的音乐视频。
  • 虚拟电商内容创作 :可生成虚拟的产品展示视频,提升电商内容的创意和吸引力。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注