Step-Video-TI2V – 开源图生视频生成的重磅利器

未分类 2025-06-23 0:45

Step-Video-TI2V 是由上海追趣智能科技有限公司旗下的阶跃星辰团队推出的一款开源图生视频模型。其基于 30B 参数的 Step-Video-T2V 训练而成，能够根据文本描述和图像输入生成最长 102 帧、5 秒、540P 分辨率的视频，在参数规模上为相关研究提供了更高上限。

图生视频生成 ：用户只需提供一张图片和相关文本描述，模型就能生成一段连贯的视频。
高质量视频输出 ：可生成最多 102 帧、5 秒、540P 分辨率的视频，满足多种创作需求。
动态性调节 ：通过设置运动分数（motion score）控制视频动态性。运动分数为 2 时，视频更稳定但动态性较差；分数为 10 或 20 时，动态性更强。
平衡动态与稳定 ：用户可根据创作需求，通过调节运动分数，在动态效果和稳定性间找到最佳平衡。
镜头运动控制 ：支持多种运镜方式，包括固定镜头、上下左右移动、上下左右摇、放大缩小、推进拉远、旋转、环绕以及焦点转移等，还能生成类似电影级别的复杂运镜效果，满足专业创作需求。
动漫效果优化 ：在动漫风格视频生成方面表现出色，能生成具有虚化背景、动态动作等特效的视频，适合动画创作、短视频制作等应用场景。
灵活的视频尺寸 ：支持多种尺寸的图生视频，包括横屏、竖屏和方屏，用户可依不同创作需求和平台特性选择合适的视频尺寸。
多语言支持 ：配备双语文本编码器，支持中英文提示输入，方便不同语言背景的用户使用。
特效生成能力 ：初步具备特效生成能力，未来将通过技术优化进一步提升特效生成效果。

深度压缩的变分自编码器（Video-VAE） ：实现了 16×16 的空间压缩和 8× 的时间压缩，显著降低了视频生成任务的计算复杂度，同时保持了优异的视频重建质量。其采用的双路径架构，能有效分离高低频信息，进一步优化视频生成的效果。
基于扩散的 Transformer（DiT）架构 ：包含 3D 全注意力机制，通过 Flow Matching 训练方法，将输入噪声逐步去噪为潜在帧，将文本嵌入和时间步作为条件因子。这种架构在生成具有强烈运动动态和高美学质量的视频方面表现出色。
双语文本编码器 ：能处理中英文提示，使模型可以直接理解中文或英文输入，生成与文本描述相符的视频。
直接偏好优化（DPO） ：通过人类偏好数据对模型进行微调，减少伪影并增强视觉效果，使生成的视频更加平滑和真实。
级联训练策略 ：采用包括文本到图像（T2I）预训练、文本到视频 / 图像（T2VI）预训练、文本到视频（T2V）微调和直接偏好优化（DPO）训练在内的级联训练流程，加速了模型的收敛，充分利用了不同质量的视频数据。

目前 Step-Video-TI2V 已完成与华为昇腾计算平台的适配，并在魔乐社区（Modelers）上线。

Step-Video-TI2V 的开发团队为上海追趣智能科技有限公司旗下的阶跃星辰团队。上海追趣智能科技有限公司成立于 2024 年 2 月 2 日，是一家致力于智能科技、人工智能、计算机科技领域内的技术开发、技术咨询、技术服务、技术转让，以及从事智能控制系统集成和数据处理服务的公司。