Seedream 2.0 – 原生中英双语图像生成的之力革新
Seedream 2.0 是什么
Seedream 2.0 是由字节跳动豆包大模型团队推出的原生中英双语图像生成基础模型 。自 2024 年 12 月初在豆包 APP 和即梦平台上线以来,已服务上亿 C 端用户,其出色的中英文理解与图像生成能力受到专业设计师和 AIGC 爱好者的广泛好评。
核心功能
- 强大的双语理解能力 :支持中英文指令的高精度理解与遵循,能生成具有文化细微差别的中文或英文美学表达图像,打破不同语言与视觉的次元壁。
- 优秀的文本渲染能力 :大幅降低文字崩坏率,字体变化呈现更自然、更具美感,在国风图案与元素的生成上,能输出高品质结果。
- 多分辨率生成能力 :通过三重升级的 DiT 架构,实现多分辨率生成和训练稳定性提升,能生成从未训练过的图像尺寸和各种分辨率。
- 基于人类反馈的强化学习(RLHF)优化 :通过自研奖励模型与反馈学习算法,提升模型在图像文本对齐、美学、结构正确性、文本渲染等方面的整体性能。
技术原理
- 数据预处理 :从高质量数据对、分布维持数据、知识注入数据和针对性补充数据四个部分精心策划预训练数据,并通过多阶段过滤方法确保数据质量和相关性。同时,利用主动学习引擎优化图像分类器,确保训练数据集的高质量,还生成通用标题和专业标题涵盖多种描述类型,以及构建大规模视觉文本渲染数据集用于文本渲染任务。
- 模型预训练 :采用扩散变换器(DiT)处理图像和文本标记,使用缩放版二维旋转位置嵌入(Scaling RoPE),支持未训练分辨率的泛化。以自研双语大语言模型(LLM)作为文本编码器,直接从海量数据中学习本土知识,支持高保真图像生成,并应用 Glyph-Aligned ByT5 模型实现灵活的字符级文本渲染。
- 模型后训练 :包括持续训练(CT)、监督微调(SFT)、人类反馈对齐(RLHF)、提示工程(PE)等多种优化方法。其中,持续训练通过高质量数据集延长训练,提升生成图像的美感;监督微调使用少量高质量图像微调模型,提升艺术美感;人类反馈对齐结合偏好数据、奖励模型和反馈学习算法,提升多方面性能;提示工程利用微调的 LLM 重写用户提示,提升生成图像质量。
支持平台
Seedream 2.0 主要在字节跳动的豆包 APP 和即梦平台上线并为用户提供更优质的图像生成服务。
团队介绍
Seedream 2.0 由字节跳动豆包大模型团队开发,该团队在大模型领域拥有丰富的研发经验和专业的技术实力,能够不断创新和优化模型性能,以满足用户对高质量图像生成的需求。
项目资源
业务场景
- 创意设计 :为设计师提供灵感激发和创意实现的工具,快速生成各种风格的设计草图、海报、插画等,提高设计效率和质量。
- 广告营销 :帮助广告公司和营销人员根据不同的广告文案和目标受众,生成吸引人的广告图像,提升广告效果和转化率。
- 文化艺术 :在文化传承和创新方面发挥作用,能够生成具有特定文化元素和风格的图像,如国风插画、传统纹样等,促进文化的传播和发展。
- 教育出版 :为教育工作者和出版机构生成生动形象的教学图片、插图等,丰富教学资源,提高教学效果和学习兴趣。
- 影视制作 :协助影视后期制作人员快速生成概念图、场景设计图等,为影视作品的创作提供视觉参考和创意支持。