BlockDance – 扩散模型加速革命的创新利器
BlockDance是什么
BlockDance 是复旦大学与字节跳动智能创作团队联合推出的一种扩散模型加速方法。它通过识别重用相邻时间步中结构相似的时空特征(STSS),减少冗余计算,从而提升推理速度,最高可加速 50%,并且专注于去噪后期的结构特征,避免因重用低相似度特征导致的图像质量下降。此外,BlockDance 还引入了 BlockDance-Ada,基于强化学习动态分配计算资源,根据不同实例的复杂性调整加速策略,进一步优化内容质量和推理速度。
核心功能
- 加速推理过程 :基于减少冗余计算,将 DiTs 的推理速度提升 25% 至 50%,提高模型在实际应用中的效率。
- 保持生成质量 :在加速的同时,保持与原始模型一致的生成效果,确保图像和视频的视觉质量、细节表现和对提示的遵循程度。
- 动态资源分配 :基于 BlockDance-Ada,根据不同生成任务的复杂性动态调整计算资源分配,实现更优的速度与质量平衡。
- 广泛的适用性 :支持无缝应用于多种扩散模型和生成任务,如图像生成、视频生成等,具有很强的通用性。
技术原理
- 特征相似性分析 :在扩散模型的去噪过程中,相邻时间步的特征之间存在高度相似性,尤其是在模型的浅层和中层模块中。这些模块主要负责生成图像的结构信息,而结构信息在去噪过程的早期阶段就已经相对稳定。BlockDance 基于分析特征的相似性,识别出结构相似的时空特征(Structurally Similar Spatio-Temporal,STSS),作为加速的关键点。
- 缓存与重用机制 :将去噪过程分为 “缓存步骤” 和 “重用步骤”。在缓存步骤中,模型保存当前步骤中某些模块的特征输出。在后续的重用步骤中,模型直接使用之前缓存的特征,跳过模块的重复计算,节省计算资源。
- 动态决策网络(BlockDance-Ada) :引入基于强化学习的轻量级决策网络 BlockDance-Ada。根据当前生成任务的复杂性(例如图像的结构复杂性、对象数量等),动态决定哪些步骤应该进行缓存,哪些步骤能进行重用。这种动态调整机制让 BlockDance 在不同的生成任务和模型上实现更优的速度与质量平衡。
- 强化学习优化 :用强化学习中的策略梯度方法训练决策网络。基于设计奖励函数,平衡图像质量和计算效率之间的权衡。奖励函数包括图像质量奖励(如视觉美感、对提示的遵循程度)和计算奖励(如重用步骤的比例)。基于最大化预期奖励,决策网络能学习到最优的缓存和重用策略,在保持生成质量的同时实现最大的加速效果。
支持平台
BlockDance 支持多种扩散模型和生成任务,如图像生成、视频生成等,展现出极强的通用性。它已整合进字节跳动最新的视频生成管线,能够秒出高清序列。
团队介绍
BlockDance 是由复旦大学与字节跳动智能创作团队共同开发的。复旦大学在科研领域有着深厚的实力和丰富的经验,字节跳动则在人工智能应用方面具有强大的技术优势和广泛的用户基础,双方的合作为 BlockDance 的研发和应用提供了有力保障。
项目资源
- 官网:https://openi.cn/302990.html
- arXiv 技术论文:https://arxiv.org/pdf/2503.15927
- GitHub 源码:https://github.com/BlockDance-Official/BlockDance
业务场景
BlockDance 已在游戏、影视、广告等多个领域得到应用。例如,游戏公司利用它实时渲染 CG,广告团队依靠它批量生成营销素材,大幅提升了工作效率和内容质量,降低了算力成本。