万相首尾帧模型 – 开启视频创作新时代

未分类 2025-06-22 23:52

万相首尾帧模型是阿里通义实验室推出的业界首个百亿参数规模的开源首尾帧生视频模型。用户只需提供首帧和尾帧图片，它便能生成一段 720p 高清视频，实现首尾画面的自然衔接，满足延时摄影、变身等更可控、更定制化的视频生成需求。

首尾帧控制生成 ：用户上传起始帧和结束帧两张图片，模型自动推理中间动画过程，可实现自然场景转换、物体形态演变、艺术风格渐变等效果，如日出到日落、花朵绽放、水墨到油画的转变。
文本引导创作 ：支持复杂语义理解，能将如 “一只穿着西装的金毛犬在办公室打字，逐渐变成程序猿加班场景” 这类文本指令分解为角色属性保持、场景渐变、动作连贯等要素并生成相应视频。
视频编辑增强 ：具备智能补帧、内容扩展、缺陷修复等功能，可修复低帧率视频、延展现有视频时长、自动消除画面抖动与噪点。

DiT 架构 ：以 DiT（Diffusion in Time）架构为核心，通过 Full Attention 机制优化时空依赖建模，精准捕捉视频的长时程时空依赖，确保视频连贯性。
高效视频压缩 VAE 模型 ：采用 Wan-VAE 技术，将高清画面压缩至 1/128 尺寸，同时保留细微动态细节，显著降低显存需求。
条件控制分支 ：首帧与尾帧同若干零填充的中间帧拼接构成控制视频序列，再与噪声及掩码拼接，作为扩散变换模型的输入，实现流畅且精准的首尾帧变换。
交叉注意力机制 ：提取首帧和尾帧的 CLIP 语义特征，通过交叉注意力机制将其注入到 DiT 的生成过程中，确保生成视频与输入图像在语义和视觉上高度一致。
训练与推理 ：采用数据并行与完全分片数据并行结合的分布式训练策略，分三个阶段逐步提升模型性能。

万相首尾帧模型支持多种平台，用户可在通义万相官网免费体验，也可在 GitHub、Hugging Face、魔搭社区等平台下载模型进行本地部署和二次开发。

万相首尾帧模型由阿里通义实验室研发。该团队在人工智能领域具有深厚的技术积累和创新能力，致力于推动 AI 技术在视频生成等领域的应用和发展，其推出的通义万相系列模型在业界产生了广泛影响。