Jodi – 视觉生成与理解的统一框架

未分类 2025-06-22 13:49

Jodi是什么

Jodi是由中国科学院计算技术研究所和中国科学院大学联合开发的视觉理解与生成统一模型。它基于扩散模型架构，通过联合建模图像域和多个标签域，实现了视觉生成与理解任务的高度统一。这一创新突破了传统视觉AI将生成与理解视为独立任务的局限，仅需较少的数据即可支持多种视觉任务。

核心功能

Jodi的核心功能包括三种主要任务模式：

技术原理

Jodi的技术原理基于线性扩散Transformer和角色切换机制。通过联合建模图像域和多个标签域的分布，模型能够学习到不同任务之间的深层次关联。角色切换机制允许模型在生成和理解任务之间灵活切换，而线性扩散Transformer则通过高效的计算架构支持多任务学习。

支持平台

Jodi支持多种主流计算框架，包括PyTorch等。用户可以在多种硬件平台上运行模型，包括高性能GPU集群。

团队介绍

Jodi由中科院计算所的VIPL-GENUN团队开发，该团队在计算机视觉和深度学习领域拥有丰富的研究经验。团队成员包括多位在视觉生成和理解领域有深厚背景的研究人员，致力于推动多任务学习和多模态应用的发展。

项目资源

业务场景

Jodi适用于多种业务场景，包括但不限于：