DreamO – 图像定制生成的多面手
DreamO是什么
DreamO是由字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院共同研发的统一图像定制生成框架,于2025年5月13日在Hugging Face平台正式开源。它基于预训练的扩散变换器(DiT)模型,支持身份、主体、风格、背景等多种条件的无缝集成,能够实现换装、换脸、风格迁移、虚拟试穿、多主体融合等复杂图像生成任务,旨在通过单一模型降低多任务处理的成本与复杂度,同时保持生成结果的高质量与一致性。
核心功能
- 换装与虚拟试穿 :用户上传照片与服装图片,即可自动生成试穿效果,还支持背景移除与主体聚焦。通过IP(Item Prompt)参数精准控制服装与物体的替换,结合特征路由约束确保主体与服装的融合自然。
- 换脸与面部一致性 :基于ID参数实现面部特征的精准保留与融合,支持多语言语音驱动的面部动画生成。类似PuLID技术,通过低秩自适应(LoRA)模块优化模型,确保换脸后的人物面部特征高度一致。
- 风格迁移 :用户上传普通照片与风格参考图,就能生成相同风格的图像,适用于艺术创作与设计灵感探索。通过Style参数激活风格任务,结合Flux模型的VAE编码器将条件图像映射到隐空间,实现风格迁移。
- 多主体融合 :支持多个主体的自由组合,可生成包含复杂场景的图像,如“让隔着时间或空间的人出现在同一张照片上”。通过分阶段训练策略,确保多主体融合时的一致性与保真度。
技术原理
- 扩散变换器(DiT)框架 :以扩散模型为核心架构,通过逐步去除噪声生成图像,同时利用变换器架构提升模型对输入条件的理解和处理能力,可统一处理不同类型的数据输入,包括文本描述、图像数据以及各种条件信息。
- 特征路由约束 :为提高生成结果与目标参考的一致性,对条件图像与生成图像之间的注意力机制进行优化,确保关键特征能够准确传递到目标区域,同时有效降低不同条件之间的耦合效应。
- 占位符策略 :在文本描述中插入特定的占位符,如 [ref#1],将条件图像与文本描述中的具体对象建立关联,实现对生成图像中各条件的位置和布局的精确控制。
- 分阶段训练策略 :采用三阶段渐进式训练方法,包括初始阶段、扩展阶段以及质量优化阶段,循序渐进地提升模型的稳定性和生成效果,使模型在复杂数据分布下顺利收敛,保持高质量生成。
支持平台
DreamO支持在Windows、Linux、macOS等操作系统上运行,对CUDA和GPU有一定要求,如CUDA11.7及以上版本,同时支持多种常见的深度学习框架。
团队介绍
DreamO由字节跳动创作团队与北京大学深圳研究生院电子与计算机工程学院联合推出。字节跳动创作团队在人工智能和内容创作领域具有丰富的经验和技术积累;北京大学深圳研究生院电子与计算机工程学院在相关学术研究方面实力强劲,双方合作为DreamO的研发提供了坚实的技术支持和创新动力。
项目资源
- 项目官网 :https://mc-e.github.io/project/DreamO/
- GitHub仓库 :https://github.com/bytedance/DreamO
- arXiv技术论文 :https://arxiv.org/pdf/2504.16915
业务场景
- 电商与广告 :可用于虚拟试衣、产品展示、个性化营销内容的生成等,帮助商家降低创作成本与时间,为消费者提供更直观的产品体验。
- 创意设计 :艺术家可以利用风格迁移功能快速生成不同画风的作品,或通过换装功能为虚拟角色设计多样化造型,激发创作灵感。
- 社交媒体与短视频创作 :换脸、造型调整、风格迁移等功能可帮助创作者打造更具吸引力的视觉内容,提升作品的传播力和影响力。