Jodi – 视觉生成与理解的统一框架
Jodi是什么
Jodi是由中国科学院计算技术研究所和中国科学院大学联合开发的视觉理解与生成统一模型。它基于扩散模型架构,通过联合建模图像域和多个标签域,实现了视觉生成与理解任务的高度统一。这一创新突破了传统视觉AI将生成与理解视为独立任务的局限,仅需较少的数据即可支持多种视觉任务。
核心功能
Jodi的核心功能包括三种主要任务模式:
- 联合生成:同时生成图像和多个标签(如深度图、法线图、边缘图等),确保生成结果在语义和空间上的一致性。
- 可控生成:根据给定的标签组合生成图像,用户可以指定某些标签作为条件输入,从而控制生成图像的特定属性或特征。
- 图像感知:从给定的图像中同时预测多个标签,实现对图像的多维度理解和分析。
技术原理
Jodi的技术原理基于线性扩散Transformer和角色切换机制。通过联合建模图像域和多个标签域的分布,模型能够学习到不同任务之间的深层次关联。角色切换机制允许模型在生成和理解任务之间灵活切换,而线性扩散Transformer则通过高效的计算架构支持多任务学习。
支持平台
Jodi支持多种主流计算框架,包括PyTorch等。用户可以在多种硬件平台上运行模型,包括高性能GPU集群。
团队介绍
Jodi由中科院计算所的VIPL-GENUN团队开发,该团队在计算机视觉和深度学习领域拥有丰富的研究经验。团队成员包括多位在视觉生成和理解领域有深厚背景的研究人员,致力于推动多任务学习和多模态应用的发展。
项目资源
- 官方网站:https://vipl-genun.github.io/Project-Jodi/
- GitHub仓库:https://github.com/VIPL-GENUN/Jodi
- HuggingFace模型库:https://huggingface.co/VIPL-GENUN/Jodi
- 技术论文:https://arxiv.org/pdf/2505.19084
业务场景
Jodi适用于多种业务场景,包括但不限于:
- 创意内容生成:为艺术家和设计师提供灵感,快速生成具有特定风格或元素的图像。
- 多模态数据增强:生成高质量的多模态数据,增强机器学习模型的训练数据集。
- 图像编辑与修复:根据用户输入修复或编辑图像,生成缺失部分或调整风格。
- 视觉理解与分析:预测多种视觉标签,辅助图像理解任务,如医学图像分析。
- 虚拟现实与增强现实:生成逼真的虚拟场景和标注信息,提升VR和AR应用的体验。