SketchVideo – 基于草图的视频生成与编辑新纪元

未分类 2025-06-22 14:08

SketchVideo 是由中国科学院大学、香港科技大学和快手可灵团队联合开发的创新框架，旨在通过手绘草图实现视频生成与编辑。它突破了传统视频制作的复杂流程，将创作门槛大幅降低，让普通用户也能通过简单的草图和文本描述，快速实现高质量的视频创作。

核心功能

SketchVideo 的核心功能围绕草图驱动展开，用户仅需绘制关键帧草图并结合文本描述，系统即可自动生成完整视频。它支持动态场景与角色动作的生成，同时具备时空一致性优化，确保帧间连贯性。此外，该框架还支持对已有视频的局部区域进行草图修改，实现内容替换或特效添加。其多模态输入功能允许结合文本描述、参考图像或视频片段，进一步增强生成结果的语义准确性。

技术原理

SketchVideo 基于扩散模型（VDM），通过逐步去噪生成视频帧。它设计了专门的草图控制网络，包含多个草图控制块，预测残差特征以实现草图引导生成。帧间注意力机制通过稀疏方式传播关键帧控制信号，确保时序一致性。此外，局部融合策略在隐空间中融合原始视频与编辑结果，保留非编辑区域内容。

支持平台

SketchVideo 支持多种主流平台，包括 Windows 和 Linux 系统。它还提供了与 Blender 等专业工具的集成支持，进一步拓展了其在创意产业中的应用范围。

团队介绍

该框架由中国科学院大学、香港科技大学和快手可灵团队联合开发。团队成员在计算机视觉、深度学习和视频生成领域拥有丰富的研究经验和技术创新能力。通过跨学科合作，团队成功将学术研究转化为实际可用的技术工具。

项目资源

项目官网：http://geometrylearning.com/SketchVideo
GitHub 仓库：https://github.com/IGLICT/SketchVideo
技术论文：https://arxiv.org/pdf/2503.23284

业务场景

SketchVideo 在多个创意产业领域具有广泛的应用前景。在影视动画制作中，它可以将导演手绘故事板实时转化为 3D 动画预览，显著缩短创作决策周期。在游戏开发中，它能够自动生成 NPC 的日常活动动画库，提升开发效率。此外，它还适用于广告制作、教育领域和虚拟现实等场景。