Seedream 2.0 – 原生中英双语图像生成的之力革新

未分类 2025-06-23 10:10

Seedream 2.0 是由字节跳动豆包大模型团队推出的原生中英双语图像生成基础模型。自 2024 年 12 月初在豆包 APP 和即梦平台上线以来，已服务上亿 C 端用户，其出色的中英文理解与图像生成能力受到专业设计师和 AIGC 爱好者的广泛好评。

数据预处理 ：从高质量数据对、分布维持数据、知识注入数据和针对性补充数据四个部分精心策划预训练数据，并通过多阶段过滤方法确保数据质量和相关性。同时，利用主动学习引擎优化图像分类器，确保训练数据集的高质量，还生成通用标题和专业标题涵盖多种描述类型，以及构建大规模视觉文本渲染数据集用于文本渲染任务。
模型预训练 ：采用扩散变换器（DiT）处理图像和文本标记，使用缩放版二维旋转位置嵌入（Scaling RoPE），支持未训练分辨率的泛化。以自研双语大语言模型（LLM）作为文本编码器，直接从海量数据中学习本土知识，支持高保真图像生成，并应用 Glyph-Aligned ByT5 模型实现灵活的字符级文本渲染。
模型后训练 ：包括持续训练（CT）、监督微调（SFT）、人类反馈对齐（RLHF）、提示工程（PE）等多种优化方法。其中，持续训练通过高质量数据集延长训练，提升生成图像的美感；监督微调使用少量高质量图像微调模型，提升艺术美感；人类反馈对齐结合偏好数据、奖励模型和反馈学习算法，提升多方面性能；提示工程利用微调的 LLM 重写用户提示，提升生成图像质量。

Seedream 2.0 主要在字节跳动的豆包 APP 和即梦平台上线并为用户提供更优质的图像生成服务。

Seedream 2.0 由字节跳动豆包大模型团队开发，该团队在大模型领域拥有丰富的研发经验和专业的技术实力，能够不断创新和优化模型性能，以满足用户对高质量图像生成的需求。