SimpleAR – 自回归图像生成新势力

未分类 2025-06-22 14:59

SimpleAR 是什么

SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。它采用简洁的自回归架构，通过优化训练和推理过程，仅用 5 亿参数即可生成 1024×1024 分辨率的高质量图像，在 GenEval 等基准测试中取得了优异成绩。

核心功能

高质量文本到图像生成 ：作为纯自回归的视觉生成框架，仅用 5 亿参数就能生成 1024×1024 分辨率的高质量图像，在 GenEval 等基准测试中取得了 0.59 的优异成绩。
多模态融合生成 ：将文本和视觉 token 平等对待，集成在一个统一的 Transformer 架构中，支持多模态建模，能更好地进行文本引导的图像生成。

技术原理

自回归生成机制 ：采用经典的自回归生成方式，通过 “下一个 token 预测” 的形式逐步生成图像内容。将图像分解为一系列离散的 token，然后逐个预测这些 token，从而构建出完整的图像。
多模态融合 ：将文本编码和视觉生成集成在一个 decoder-only 的 Transformer 架构中，提高了参数的利用效率，更好地支持了文本和视觉模态之间的联合建模，使模型能更自然地理解和生成与文本描述对应的图像。
三阶段训练方法 ：
- 预训练 ：通过大规模数据预训练，学习通用的视觉和语言模式。
- 有监督微调（SFT） ：在预训练基础上，通过有监督学习进一步提升生成质量和指令跟随能力。
- 强化学习（GRPO） ：基于简单的 reward 函数（如 CLIP）进行后训练，优化生成内容的美学性和多模态对齐。
推理加速技术 ：通过 vLLM 等技术优化推理过程，显著缩短了图像生成时间。例如，0.5B 参数的模型可以在 14 秒内生成 1024×1024 分辨率的高质量图像。
视觉 tokenizer 的选择 ：使用 Cosmos 作为视觉 tokenizer，在低分辨率图像和细节重建上存在局限，仍有改进空间。

支持平台

SimpleAR 目前主要支持 Linux 等平台，其在 Python 环境下可通过相关库的安装进行部署和运行，以实现图像生成等功能。

团队介绍

SimpleAR 由复旦大学视觉与学习实验室和字节 Seed 团队联合开发。复旦大学视觉与学习实验室在计算机视觉和机器学习领域有着深厚的研究积累和技术实力；字节 Seed 团队则在大规模数据处理、模型优化和实际应用开发等方面具有丰富的经验，双方的强强联合为 SimpleAR 的研发和优化提供了有力保障。

项目资源

业务场景

广告设计 ：能够快速生成符合广告创意的高质量图像，提高广告制作效率，降低制作成本，帮助广告团队在短时间内完成季度提案等任务。
游戏开发 ：可用于生成游戏中的角色、场景、道具等图像资源，加速游戏开发流程，为游戏增添丰富多样的视觉元素，提升游戏的沉浸感和吸引力。
创意设计 ：为设计师提供灵感启发和素材辅助，根据设计主题和创意概念快速生成相关的图像，助力设计师探索更多设计可能性，拓展设计思路。
内容创作 ：帮助创作者生成与文章、故事等内容相关的配图，增强内容的视觉表现力和吸引力，提升用户对内容的兴趣和关注度。
教育领域 ：可用于生成教学课件中的插图、示意图等，使教学内容更加生动形象，有助于提高教学效果和学生的学习积极性。