Mogao – 多模态生成的全能基础模型

  • Mogao 是什么 :Mogao 是由字节跳动 Seed 团队推出的一款先进的交错多模态生成全基础模型,旨在处理和生成多种模态数据,尤其是文本和图像。它打破了传统单模态生成模型或基于多模态条件生成模型的局限,能够生成交错的文本和图像序列,开启从 “能写会画” 到 “边写边画” 的新转变。
  • 核心功能
    • 多模态理解和生成 :可处理文本和图像的交错序列,实现高质量的多模态理解和生成。既能根据文本描述生成高质量图像,也能依据图像生成相关文本内容,在多模态理解任务中,文本标记会关注历史序列中的视觉变换器(ViT)标记和文本标记,从而更好地理解图像内容。
    • 零样本图像编辑与组合生成 :在没有额外训练的情况下,可对图像进行编辑和修改,还能将不同元素组合生成新图像,具有很强的一致性和连贯性。
    • 高质量图像生成 :在真实感、图形设计、动漫、插图等多个风格分类上表现优异,支持最高 2K 分辨率的图像生成,能生成具有高细节和高质量的图像。
    • 文本渲染能力提升 :文本可用率高达 94%,有效解决了以往图像生成中中文字渲染难题。
  • 技术原理
    • 双视觉编码器 :使用变分自编码器(VAE)和视觉变换器(ViT)作为视觉编码器。当图像作为条件输入时,同时提取 VAE 和 ViT 的视觉特征,将它们附加到历史序列中。对于多模态理解任务,文本标记仅关注 ViT 标记和文本标记;对于多模态生成任务,噪声 VAE 标记会关注历史序列中的所有标记。
    • 深度融合架构 :基于预训练的大语言模型(LLM),使用统一的自注意力层同时处理视觉和文本序列,并在前馈网络(FFN)中使用不同的多层感知机(MLP)来分别处理视觉和文本模态。
    • 交错旋转位置嵌入(IL-RoPE) :用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系,使模型能更好地处理交错的文本和图像序列。
    • 混合分辨率训练 :在不同宽高比和分辨率的图像上进行预训练和微调,从低分辨率到高分辨率,引入尺寸嵌入使模型能够感知目标分辨率。
    • 跨模态 RoPE :将文本 token 视为二维 token,应用二维 RoPE,进一步增强视觉和文本 token 的对齐效果。
    • 后训练阶段 :包括持续训练(CT)、监督微调(SFT)、人工反馈对齐(RLHF)和提示工程(PE),以提升模型的性能和可控性。
    • 缺陷感知型训练范式 :引入缺陷检测器,精确定位缺陷区域,通过掩码隐含空间优化,有效扩展训练数据集。
    • Hyper-SD 和 RayFlow :优化生成路径,引导每个数据点至特定实例的目标分布,减少路径碰撞,提高生成稳定性和样本多样性。
    • 重要性采样机制 :学习在训练过程中关注最关键的时间步,支持高效的少步数采样,同时不影响生成质量。
  • 支持平台 :Mogao 目前主要在字节跳动旗下的即梦和豆包平台上线。
  • 团队介绍 :Mogao 由字节跳动 Seed 团队开发,该团队实力雄厚,成员包括 Chao Liao、Liyang Liu、Xun Wang、Zhengxiong Luo、Xinyu Zhang、Wenliang Zhao、Jie Wu、Liang Li、Zhi Tian 和 Weilin Huang 等研究员,他们在多模态 AI 领域有着深入的研究和丰富的经验,致力于推动统一多模态系统的发展。
  • 项目资源arXiv 技术论文
  • 业务场景
    • 内容创作 :可根据文本描述生成高质量图像,也可依据图像生成相关文本描述,为设计师、作家等提供创意灵感和素材。
    • 智能助手 :结合语音、图像和文本等多种模态,实现更自然、更智能的人机交互,提升用户体验。
    • 图像和文本的相互检索 :用户可以通过输入文本描述来查找相关的图像,或者通过上传图像来获取相关的文本描述,提高信息检索的效率和准确性。
    • 虚拟现实与增强现实 :用于生成虚拟环境和互动元素,提升虚拟现实和增强现实的用户体验,使其更加逼真和丰富。
    • 医疗影像分析 :将不同模态的医疗影像与文本描述相结合,提高疾病诊断的准确性和早期发现能力。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注