GPDiT – 重新定义视频生成的未来

未分类 2025-06-22 14:14

GPDiT（Generative Pre-trained Autoregressive Diffusion Transformer）是由北京大学、清华大学、StepFun公司以及中国科学技术大学联合推出的一款新型视频生成模型。它结合了扩散模型和自回归模型的优势，通过自回归方式预测未来的潜在帧，自然地建模运动动态和语义一致性。

核心功能

GPDiT的核心功能主要体现在以下几个方面：

高质量视频生成：能够生成具有高时间一致性和运动连贯性的长序列视频，满足广告、影视和动画等领域的创作需求。
视频表示学习：通过自回归建模和扩散过程，深入提取视频的语义信息和动态特征，并将其应用于下游任务中。
少样本学习：在少样本条件下，能够快速适应风格转换、边缘检测等多样化视频处理任务。
多任务处理：支持包括灰度图像转换、深度估计和人物检测在内的多种视频处理任务，展现出强大的通用性。

技术原理

GPDiT的技术原理包括以下几个关键点：

自回归扩散框架：采用自回归方式预测未来的潜在帧，自然地实现了对运动动态和语义一致性的建模。
轻量级因果注意力机制：通过消除训练期间干净帧之间的注意力计算，减少计算成本，同时保持生成性能的稳定性。
旋转基时间条件机制：提出无参数的旋转基时间条件策略，将噪声注入过程重新解释为数据和噪声分量定义的复平面上的旋转，有效提升了时间信息的编码效率。
连续潜在空间建模：在连续潜在空间中进行建模，显著提高了生成质量和表示能力。

支持平台

GPDiT目前主要支持基于Python的开发环境，并且可以在主流的深度学习框架下运行，如PyTorch。

团队介绍

GPDiT由北京大学、清华大学、StepFun公司以及中国科学技术大学联合开发。该团队汇聚了来自学术界和工业界的顶尖人才，他们在视频生成、深度学习和人工智能领域拥有丰富的研究经验和创新成果。

项目资源

技术论文：https://arxiv.org/pdf/2505.07344。

业务场景

GPDiT的应用场景广泛，主要包括：

视频创作：用于广告、影视和动画等领域的高质量视频生成。
视频编辑：实现风格转换、色彩校正和分辨率提升等多种编辑操作。
内容理解：提供视频自动标注、分类和检索功能，助力内容管理和分析。
创意激发：为艺术家和设计师提供灵感，生成具有艺术风格的创新视频作品。