Step1X-Edit – 开源图像编辑新标杆

未分类 2025-06-22 14:50

Step1X-Edit 是什么

Step1X-Edit 是由阶跃星辰团队推出的一款通用图像编辑框架，于 2025 年 4 月 25 日正式开源。其创新性地结合了多模态大语言模型（MLLM）和扩散模型技术，通过处理参考图像和用户指令来生成目标图像，致力于缩小开源图像编辑模型与闭源模型之间的性能差距。

多样化编辑能力 ：支持多种图像编辑任务，涵盖主体添加、移除、替换，背景更改，色彩调整，材质修改，风格转换，肖像美化，文字修改，色调变化等 11 类高频图像编辑任务类型，能够满足用户在多样化图像编辑中的广泛需求。
自然语言指令驱动 ：用户可通过自然语言描述编辑需求，模型能理解并执行复杂的编辑指令，无需模板，灵活应对多轮、多任务编辑需求，同时支持对图像中文字进行识别、替换与重构。
高质量图像生成 ：基于 DiT 风格的架构进行高保真图像生成，可在 512x512 分辨率下于 42GB 显存中 5 秒内完成编辑，1024x1024 分辨率需 50GB 显存、耗时约 22 秒，确保生成图像的细节和视觉一致性。
真实世界场景适配 ：基于大规模高质量数据集训练，处理过超 100 万对图像和指令对，涵盖多种编辑任务类别，能应对真实世界中的各种复杂编辑场景。

多模态大语言模型（MLLM） ：处理参考图像和用户的编辑指令，提取语义信息，生成与编辑任务相关的嵌入向量，其强大的语义理解能力为精准编辑提供基础。
扩散模型（Diffusion Model） ：作为图像生成器，根据 MLLM 提供的嵌入向量解码为目标图像，利用其高保真生成能力，确保图像细节保真与风格统一。
数据生成管道 ：构建大规模、高质量的数据生成管道，生成超 100 万对图像和指令对，覆盖多种编辑任务类别，为模型训练提供了丰富的多样化数据，提升其在复杂场景下的鲁棒性。
训练策略 ：从文本到图像模型初始化，保留美学质量和视觉一致性；基于联合训练连接模块和下游扩散模型，优化整体性能。

Step1X-Edit 支持在单块 H800 GPU 上运行，推荐使用 80GB 显存以获得最佳生成质量。其支持 Python 3.10 及以上版本，兼容主流深度学习框架如 PyTorch 2.3.1 及 2.5.1。

Step1X-Edit 由 Stepfun AI 团队开发，这是一支在人工智能领域具有深厚技术积累和创新能力的团队，他们在多模态大语言模型和扩散模型的研究与应用方面有着丰富的经验，致力于推动人工智能技术在图像编辑等领域的创新与发展。