Flex.2-preview – 开源文本到图像扩散模型的创新之作

未分类 2025-06-22 14:54

Flex.2-preview 是什么

Flex.2-preview 是由 Ostris 团队开源的一款文本到图像扩散模型，拥有 80 亿参数，专为多控制输入场景优化，支持通用控制输入，如线条、姿态、深度等，还具备内置修复功能，可基于长文本输入生成高质量图像，能理解复杂描述并生成对应图像内容，目前处于早期预览阶段，但已展现出强大的灵活性和潜力，适合创意生成和实验性开发。

核心功能

文本到图像生成 ：支持长达 512 个 token 的文本输入，可准确还原复杂场景中的细节元素，依据文本描述生成高质量图像。
内置修复功能 ：支持在图像特定区域进行修复或替换，用户通过掩码标记修改区域，实现局部重绘，不影响整体构图。
通用控制输入 ：支持线条图、姿态图、深度图等多种控制信号输入，指导图像生成方向，如基于深度图生成 3D 风格场景、基于线稿生成精细插图。
灵活的微调能力 ：用户可基于 LoRA 等技术对模型微调，适应特定风格或任务需求，降低微调成本。
高效生成与兼容性 ：基于 80 亿参数的精简架构，生成 1024x1024 高分辨率图像仅需 50 步推理，适合 16GB VRAM 的消费级 GPU，且支持通过 ComfyUI 或 Diffusers 库快速部署。

技术原理

扩散模型框架 ：基于逐步去除噪声的方式生成图像，从随机噪声开始，逐步学习转化为符合文本描述的图像。
多通道输入 ：包括文本嵌入，将文本描述转换为模型理解的嵌入向量；控制输入，基于额外输入如姿态图、深度图引导图像生成方向；修复输入，结合修复图像和修复掩码在指定区域生成新内容。
16 通道潜在空间 ：模型采用 16 通道的潜在空间，支持噪声输入、修复图像、修复掩码和控制输入等，通过跨注意力机制将控制信号与文本嵌入向量对齐。
优化的推理算法 ：如 “指导嵌入器”（Guidance Embedder）等技术，显著提升生成速度，保持高质量输出，生成速度较同类模型有明显提升。

支持平台

Flex.2-preview 支持基于 ComfyUI 或 Diffusers 库使用，专为集成到 ComfyUI 工作流设计，提供节点化工作流支持，简化复杂任务配置，如文本到图像、图像到图像与控制网络的组合。

团队介绍

Flex.2-preview 由 Ostris 团队推出，该团队在 AI 模型研发方面具有专业能力，从 Flux.1Schnell 到 OpenFlux.1、Flex.1-alpha 等一系列模型的开发与优化，积累了丰富的经验和技术实力，不断推动文本到图像扩散模型的演进和创新。

项目资源

官网：Ostris 官网。
源码：HuggingFace 模型库。

业务场景

创意设计 ：助力艺术家和设计师快速生成概念图、插画，提高创作效率，激发灵感。
图像修复 ：可用于修复照片瑕疵、填补缺失部分，适用于图像编辑工作。
内容创作 ：生成广告、视频、游戏等素材，提升内容制作效率和质量。
教育与研究 ：为教育领域生成教学材料，提供 AI 研究实验平台，推动 AI 教学与研究发展。
个性化定制 ：满足用户特定需求，生成符合个人风格的图像，实现个性化的视觉体验。