Flex.2-preview – 开源文本到图像扩散模型的创新之作

Flex.2-preview 是什么

Flex.2-preview 是由 Ostris 团队开源的一款文本到图像扩散模型,拥有 80 亿参数,专为多控制输入场景优化,支持通用控制输入,如线条、姿态、深度等,还具备内置修复功能,可基于长文本输入生成高质量图像,能理解复杂描述并生成对应图像内容,目前处于早期预览阶段,但已展现出强大的灵活性和潜力,适合创意生成和实验性开发。

核心功能

  • 文本到图像生成 :支持长达 512 个 token 的文本输入,可准确还原复杂场景中的细节元素,依据文本描述生成高质量图像。
  • 内置修复功能 :支持在图像特定区域进行修复或替换,用户通过掩码标记修改区域,实现局部重绘,不影响整体构图。
  • 通用控制输入 :支持线条图、姿态图、深度图等多种控制信号输入,指导图像生成方向,如基于深度图生成 3D 风格场景、基于线稿生成精细插图。
  • 灵活的微调能力 :用户可基于 LoRA 等技术对模型微调,适应特定风格或任务需求,降低微调成本。
  • 高效生成与兼容性 :基于 80 亿参数的精简架构,生成 1024x1024 高分辨率图像仅需 50 步推理,适合 16GB VRAM 的消费级 GPU,且支持通过 ComfyUI 或 Diffusers 库快速部署。

技术原理

  • 扩散模型框架 :基于逐步去除噪声的方式生成图像,从随机噪声开始,逐步学习转化为符合文本描述的图像。
  • 多通道输入 :包括文本嵌入,将文本描述转换为模型理解的嵌入向量;控制输入,基于额外输入如姿态图、深度图引导图像生成方向;修复输入,结合修复图像和修复掩码在指定区域生成新内容。
  • 16 通道潜在空间 :模型采用 16 通道的潜在空间,支持噪声输入、修复图像、修复掩码和控制输入等,通过跨注意力机制将控制信号与文本嵌入向量对齐。
  • 优化的推理算法 :如 “指导嵌入器”(Guidance Embedder)等技术,显著提升生成速度,保持高质量输出,生成速度较同类模型有明显提升。

支持平台

Flex.2-preview 支持基于 ComfyUI 或 Diffusers 库使用,专为集成到 ComfyUI 工作流设计,提供节点化工作流支持,简化复杂任务配置,如文本到图像、图像到图像与控制网络的组合。

团队介绍

Flex.2-preview 由 Ostris 团队推出,该团队在 AI 模型研发方面具有专业能力,从 Flux.1Schnell 到 OpenFlux.1、Flex.1-alpha 等一系列模型的开发与优化,积累了丰富的经验和技术实力,不断推动文本到图像扩散模型的演进和创新。

项目资源

业务场景

  • 创意设计 :助力艺术家和设计师快速生成概念图、插画,提高创作效率,激发灵感。
  • 图像修复 :可用于修复照片瑕疵、填补缺失部分,适用于图像编辑工作。
  • 内容创作 :生成广告、视频、游戏等素材,提升内容制作效率和质量。
  • 教育与研究 :为教育领域生成教学材料,提供 AI 研究实验平台,推动 AI 教学与研究发展。
  • 个性化定制 :满足用户特定需求,生成符合个人风格的图像,实现个性化的视觉体验。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注