UNO – 创新 AI 图像生成框架
UNO 是什么
UNO 是由字节跳动推出的一款创新 AI 图像生成框架,它突破了传统模型在多主体生成中的局限,通过独特的 “少到多” 泛化方法,能够高质量地生成单主体和多主体图像,并成功解决了复杂场景下各主体间的一致性难题。
核心功能
- 单主体定制生成 :可根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像,适用于漫画创作等多种场景,确保主体在不同情节中的形象稳定。
- 多主体组合生成 :能接收多个参考图像作为输入,生成包含所有参考主体的新图像,可应用于产品设计等领域,将多种元素自然融合到同一场景中。
- 虚拟试穿与产品展示 :支持虚拟试穿功能,可将特定的产品如服装、饰品等放置在不同的人物模型上,还可将产品放置在各种场景中,保持产品的原始特征,助力电商平台实现更直观的产品展示。
- 风格化生成 :对参考主体进行风格转换,生成不同风格的图像,为创意设计提供更多的风格选择。
- 强大的泛化能力 :在多个任务中展现了强大的泛化能力,能适应多种应用场景,如单主体和多主体驱动的图像生成,可泛化到 id、tryon、style 等场景。
技术原理
- 高一致性数据合成管道 :利用扩散变换器的内在上下文生成能力,生成高一致性的多主体配对数据,自动创建大规模、高质量的训练数据,解决了数据获取的难题。
- 渐进式跨模态对齐 :将训练过程分为两个阶段。第一阶段使用单主体上下文生成的数据对预训练的文本到图像模型进行微调,使其具备处理单主体驱动生成任务的能力;第二阶段引入多主体数据继续训练,增强模型处理复杂场景的能力。
- 通用旋转位置嵌入(UnoPE) :有效解决了在扩展视觉主体控制时的属性混淆问题,通过为文本和图像标记分配特定的位置索引,调控多模态标记之间的交互,使模型专注于从文本特征中获取布局信息,在保持良好文本可控性的同时,提高主体相似性。
- 模型架构 :以开源模型 FLUX.1 dev 为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架,通过独特的渐进式跨模态对齐和通用旋转位置嵌入等机制,实现了在单主体和多主体驱动生成中既能保持高一致性又能确保可控性。
支持平台
UNO 支持 PyTorch 等主流的深度学习框架,在多种操作系统上均可运行,包括常见的 Linux、Windows 等,且对硬件的适配性良好,能够在一定范围内的不同配置的显卡上运行,如 10 系显卡即可运行,为开发者和企业提供了便利,降低了使用门槛,使其能够在不同的硬件环境下灵活部署和应用。
团队介绍
UNO 由字节跳动的顶级研究团队开发,该团队在人工智能领域拥有深厚的技术积累和丰富的研发经验,尤其在计算机视觉和深度学习方面有着众多的研究成果和实践经验。团队成员包括众多在 AI 领域具有影响力的专家和学者,他们致力于推动 AI 技术的创新和发展,并将其应用于实际产品中,为用户带来更好的体验。
项目资源
业务场景
- 电商领域 :可用于产品的虚拟试穿和展示,让消费者更直观地看到产品在不同场景和人物模型上的效果,提升购物体验和购买意愿。例如,服装电商可利用 UNO 生成模特试穿不同款式服装的图像,减少实物拍摄成本和时间。
- 广告营销 :能够为广告创意提供丰富的素材生成,将品牌元素与各种场景和主体自然融合,创造出更具吸引力和个性化的广告内容,提高广告的点击率和转化率。
- 创意设计 :为设计师提供强大的辅助工具,帮助他们快速生成多种设计草图和创意概念,探索不同的设计风格和元素组合,激发更多创意灵感,提高设计效率和质量。
- 影视制作 :可用于生成影视场景中的特效元素、虚拟角色等,降低影视制作的成本和难度,缩短制作周期,同时为影视作品带来更加丰富和奇幻的视觉效果。
- 游戏开发 :助力游戏中的角色、道具、场景等元素的设计和生成,使游戏内容更加丰富多样,提升游戏的视觉表现力和玩家的沉浸感。
- 教育领域 :可用于生成教育课件中的插图、示例等,将抽象的知识内容以更直观、生动的图像形式呈现,增强教学效果和学生的学习兴趣。