FramePack – 视频生成领域的新突破

FramePack 是什么

FramePack 是斯坦福大学推出的一种开源视频生成技术,通过创新的帧上下文压缩方法,解决了传统视频生成模型中的 “遗忘” 和 “漂移” 问题,能让模型高效处理大量帧数据,同时保持较低的计算复杂度。其最低仅需 6GB 显存,就能在笔记本电脑 GPU 上运行 130 亿参数模型,生成长达 60 秒的 30fps 长视频。

核心功能

  • 低显存需求 :仅需 6GB 显存即可运行,适合在大多数普通用户的笔记本电脑 GPU 上使用,大幅降低了 AI 视频生成的硬件门槛。
  • 高效的帧生成能力 :基于 13B 模型,以 30fps 的帧率生成数千帧视频,能够满足用户对于长视频生成的需求。
  • 快速生成 :在个人 RTX 4090 显卡上,生成速度未优化时为 2.5 秒 / 帧,优化后可达 1.5 秒 / 帧,生成 1 分钟视频不到 1 小时,提高了视频生成的效率。
  • 实时预览 :支持在生成过程中实时查看视频效果,方便用户及时调整和优化,提升创作效率。
  • 多模态输入支持 :同时支持文本提示和图像输入,用户可以根据自己的需求和创意,选择不同的输入方式来生成视频,为创作提供了更大的灵活性。

技术原理

  • 帧上下文打包 :基于改变 Transformer 的 Patchify 分块核大小,对不同重要性的帧进行不同程度的压缩。关键帧保留更多细节,如 1536 个 token,次要帧则大幅压缩,如 192 个 token。帧的重要性根据其与目标帧的时间距离来判断,越接近目标帧的输入帧被认为越重要,从而在保持重要信息的同时大幅减少显存占用。
  • 抗漂移采样 :引入双向记忆法,让模型在生成当前帧时既能参考最近的帧,也能回溯到初始帧的核心特征,避免了长视频序列中的质量漂移问题,保证了生成视频的稳定性和连贯性。
  • 灵活的调度策略 :提供了几何压缩、首帧优先和对称压缩三种模式。几何压缩按照几何级数对帧进行压缩,适合实时生成场景;首帧优先在图生视频任务中,优先保留首帧的细节,确保生成的视频起点高质量;对称压缩对所有帧进行均衡处理,适合需要稳定连贯的视频生成场景。
  • 计算复杂度恒定 :通过上述压缩和调度策略,实现了计算资源消耗与生成帧数无关,无论生成多少帧,计算复杂度保持恒定,让模型能高效处理长视频生成任务,不会因帧数增加而显著降低速度。

支持平台

FramePack 支持 NVIDIA RTX 30XX/40XX/50XX 系列 GPU,最低 6GB 显存。其提供了简单的安装方式,包括一键整合包和源码安装,支持 Windows 和 Linux 系统,适用于多种硬件配置和开发环境。

团队介绍

FramePack 由斯坦福大学的研究人员 Lvmin Zhang 和 Maneesh Agrawala 联合开发。Lvmin Zhang 是 ControlNet 的作者,在 AI 领域有着丰富的经验和深厚的技术积累,其领导的研发团队在视频生成技术方面进行了深入的研究和探索,为 FramePack 的诞生和发展奠定了坚实的基础。

项目资源

业务场景

  • 内容创作 :视频创作者可以从一张角色图像生成舞蹈视频等动态短视频,用于社交媒体内容制作,即使是没有专业设备和高超技术的普通用户也能轻松上手,快速生成吸引人的视频内容。
  • 游戏开发 :游戏开发者可利用 FramePack 生成动态场景动画,如角色移动或环境变化,节省手动建模时间,提高游戏开发的效率和质量,同时其轻量化模型支持实时渲染可能性,为游戏画面的实时生成和更新提供了技术支持。
  • 教育和演示 :教师或培训师可从静态图像生成教学视频,展示动态过程,如科学实验模拟、历史事件重现等,使教学过程更加生动形象,帮助学生更好地理解和掌握知识,Gradio 界面操作简单,适合非技术用户使用。
  • 边缘计算 :FramePack 的 13 亿参数模型适合部署到边缘设备,如移动设备或嵌入式系统,用于本地化视频生成,在网络条件有限或对隐私要求较高的场景下,能够实现快速、高效的视频生成和处理,满足各种边缘计算应用的需求。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注