OmniCam – 重定义视频创作的多模态视频生成框架
OmniCam 是由浙江大学、上海交通大学等高校联合研发的先进多模态视频生成框架,通过摄像机控制实现高质量的视频生成,支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹,其结合了大型语言模型(LLM)和视频扩散模型,能生成时空一致的视频内容,通过三阶段训练策略,包括大规模模型训练、视频扩散模型训练以及强化学习微调,确保生成视频的准确性和连贯性。
核心功能
- 多模态输入支持 :用户可以提供文本或视频作为轨迹参考,以及图像或视频作为内容参考,实现对摄像机运动的精确控制。
- 高质量视频生成 :基于大型语言模型和视频扩散模型,生成时空一致的高质量视频。
- 灵活的摄像机控制 :支持帧级控制,可设置操作的起始和结束帧;支持任意方向的复合运动、相机拉近和推远,移动和旋转到任意角度;支持速度控制,为快速剪辑提供基础;支持多种操作的无缝连接,支持长序列操作,允许连续执行多个指令;支持常见的特效如相机旋转。
- 数据集支持 :引入了 OmniTr 数据集,是首个针对多模态相机控制的大型数据集,为模型训练提供了坚实的基础。
技术原理
- 轨迹规划 :用户输入文本或视频后,OmniCam 首先将其转化为离散运动表示,将复杂的指令拆解成一个个简单的动作。通过精准的轨迹规划算法,计算出每一帧画面中相机的具体位置和姿态,为后续的生成做好准备。具体来说,算法将相机运动围绕物体中心建模为球面运动,计算出轨迹上每一点的空间位置,转换为相机外参序列。
- 内容渲染 :结合用户提供的内容参考(图像或视频)以及规划好的相机轨迹,OmniCam 运用先进的 3D 重建技术,渲染出初始视角的视频帧,在渲染过程中,会使用点云、相机内参和外参等信息,通过特定算法优化相机内参,完成视频帧的渲染。
- 细节完善 :在渲染过程中,OmniCam 的扩散模型会基于自身的先验知识,对视频帧进行细节补充,填补那些空白区域,最终生成出完整、精美的视频。
- 大规模模型训练 :以 Llama3.1 为骨干网络进行微调,训练大规模模型。
- 视频扩散模型训练 :对视频扩散模型进行训练。
- 强化学习微调 :冻结下游视频生成模型,将其作为奖励模型,利用 PPO 算法对轨迹大模型进行微调,以优化模型性能。
支持平台
目前 OmniCam 的相关代码和文档已在 GitHub 等平台开放,用户可以在其官网 https://omni-cam.github.io/ 以及 GitHub 仓库 https://github.com/omni-cam 上获取更多信息并参与项目贡献。
团队介绍
OmniCam 由浙江大学、上海交通大学等国内顶尖高校联合研发,其背后是强大的科研团队支持,这些高校在人工智能、计算机视觉等领域都有着深厚的学术积累和研究实力,为 OmniCam 的研发和优化提供了坚实的理论基础和技术保障。
项目资源
- 技术论文 :https://arxiv.org/pdf/2504.02312
- 官网 :https://omni-cam.github.io/
- GitHub 仓库 :https://github.com/omni-cam
业务场景
- 影视制作 :可以帮助导演和制片人快速生成复杂的镜头运动,实现更多的创意想法,提升影视制作效率,降低制作成本,已有剧组用它 1 天做完原本需要两周的分镜测试。
- 广告宣传 :广告商可以利用 OmniCam 快速制作更具吸引力的广告视频,通过灵活的摄像机控制和高质量的视频生成,突出产品特点,提升广告效果,吸引消费者的注意力。
- 教育培训 :能够生成生动形象的教学视频,将抽象的知识内容以更加直观、易懂的方式呈现出来,提高学习效率和学习兴趣,例如在讲解物理、化学等学科的实验现象时,可以通过精确的摄像机控制和细节丰富的视频展示,帮助学生更好地理解和掌握知识点。
- 智能安防 :实现多部门视频资源整合与联动,提升安防效率,通过对监控视频的智能分析和处理,实现对异常行为的自动检测和报警,提高安防监控的智能化水平。