Mogao – 多模态生成的全能基础模型

未分类 2025-06-22 14:26

Mogao 是什么 ：Mogao 是由字节跳动 Seed 团队推出的一款先进的交错多模态生成全基础模型，旨在处理和生成多种模态数据，尤其是文本和图像。它打破了传统单模态生成模型或基于多模态条件生成模型的局限，能够生成交错的文本和图像序列，开启从 “能写会画” 到 “边写边画” 的新转变。
核心功能 ：
- 多模态理解和生成 ：可处理文本和图像的交错序列，实现高质量的多模态理解和生成。既能根据文本描述生成高质量图像，也能依据图像生成相关文本内容，在多模态理解任务中，文本标记会关注历史序列中的视觉变换器（ViT）标记和文本标记，从而更好地理解图像内容。
- 零样本图像编辑与组合生成 ：在没有额外训练的情况下，可对图像进行编辑和修改，还能将不同元素组合生成新图像，具有很强的一致性和连贯性。
- 高质量图像生成 ：在真实感、图形设计、动漫、插图等多个风格分类上表现优异，支持最高 2K 分辨率的图像生成，能生成具有高细节和高质量的图像。
- 文本渲染能力提升 ：文本可用率高达 94%，有效解决了以往图像生成中中文字渲染难题。
技术原理 ：
- 双视觉编码器 ：使用变分自编码器（VAE）和视觉变换器（ViT）作为视觉编码器。当图像作为条件输入时，同时提取 VAE 和 ViT 的视觉特征，将它们附加到历史序列中。对于多模态理解任务，文本标记仅关注 ViT 标记和文本标记；对于多模态生成任务，噪声 VAE 标记会关注历史序列中的所有标记。
- 深度融合架构 ：基于预训练的大语言模型（LLM），使用统一的自注意力层同时处理视觉和文本序列，并在前馈网络（FFN）中使用不同的多层感知机（MLP）来分别处理视觉和文本模态。
- 交错旋转位置嵌入（IL-RoPE） ：用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系，使模型能更好地处理交错的文本和图像序列。
- 混合分辨率训练 ：在不同宽高比和分辨率的图像上进行预训练和微调，从低分辨率到高分辨率，引入尺寸嵌入使模型能够感知目标分辨率。
- 跨模态 RoPE ：将文本 token 视为二维 token，应用二维 RoPE，进一步增强视觉和文本 token 的对齐效果。
- 后训练阶段 ：包括持续训练（CT）、监督微调（SFT）、人工反馈对齐（RLHF）和提示工程（PE），以提升模型的性能和可控性。
- 缺陷感知型训练范式 ：引入缺陷检测器，精确定位缺陷区域，通过掩码隐含空间优化，有效扩展训练数据集。
- Hyper-SD 和 RayFlow ：优化生成路径，引导每个数据点至特定实例的目标分布，减少路径碰撞，提高生成稳定性和样本多样性。
- 重要性采样机制 ：学习在训练过程中关注最关键的时间步，支持高效的少步数采样，同时不影响生成质量。
支持平台 ：Mogao 目前主要在字节跳动旗下的即梦和豆包平台上线。
团队介绍 ：Mogao 由字节跳动 Seed 团队开发，该团队实力雄厚，成员包括 Chao Liao、Liyang Liu、Xun Wang、Zhengxiong Luo、Xinyu Zhang、Wenliang Zhao、Jie Wu、Liang Li、Zhi Tian 和 Weilin Huang 等研究员，他们在多模态 AI 领域有着深入的研究和丰富的经验，致力于推动统一多模态系统的发展。
项目资源 ：arXiv 技术论文
业务场景 ：
- 内容创作 ：可根据文本描述生成高质量图像，也可依据图像生成相关文本描述，为设计师、作家等提供创意灵感和素材。
- 智能助手 ：结合语音、图像和文本等多种模态，实现更自然、更智能的人机交互，提升用户体验。
- 图像和文本的相互检索 ：用户可以通过输入文本描述来查找相关的图像，或者通过上传图像来获取相关的文本描述，提高信息检索的效率和准确性。
- 虚拟现实与增强现实 ：用于生成虚拟环境和互动元素，提升虚拟现实和增强现实的用户体验，使其更加逼真和丰富。
- 医疗影像分析 ：将不同模态的医疗影像与文本描述相结合，提高疾病诊断的准确性和早期发现能力。

Mogao – 多模态生成的全能基础模型

发表回复 取消回复

发表回复取消回复