OmniSVG – 重新定义矢量图形生成的多模态 AI 工具

未分类 2025-06-23 0:08

OmniSVG 是复旦大学与 StepFun 联合推出的全球首个端到端多模态 SVG（可缩放矢量图形）生成模型。它基于预训练视觉语言模型 Qwen-VL 构建，并创新性地集成了 SVG 标记化器，能够通过文本描述、图像参考或角色参考等多种输入方式，生成从简单图标到复杂动漫角色等各类高品质矢量图形。

多模态生成 ：支持文字生成 SVG、图片转 SVG 以及角色参考 SVG 生成。用户输入简单文本描述，如 “生成一个极简风格的科技公司 LOGO”，或上传图像文件，OmniSVG 就能将其转化为相应的 SVG 图形；还可根据提供的角色参考图像或描述，生成匹配的 SVG 角色图形。
高效处理与高质量生成 ：可处理长达 30,000 令牌的序列，能生成色彩丰富、细节生动的复杂矢量图形，克服了传统方法生成结果单一、结构松散、计算成本高昂等问题，生成的 SVG 图形视觉效果出色且具备可编辑性。
智能优化与专业兼容 ：自动减少 47% 冗余路径，显著降低文件体积，生成的 SVG 文件具有无限可缩放性和完全可编辑性，可无缝集成到专业设计工作流程中，如 Adobe Illustrator 等工具。

基于预训练视觉语言模型 ：OmniSVG 以 Qwen-VL 作为基础，该模型能深度融合图像和文本信息，为多模态生成提供了强大的基础。
SVG 标记化方法 ：创新性地将 SVG 命令和坐标参数化为离散令牌，通过类似自然语言处理的方式处理 SVG 的生成，实现了结构逻辑与几何细节的解耦，在训练过程中分离了结构逻辑与几何细节，使训练效率较传统方法提升了 3 倍以上，同时保留了生成复杂 SVG 结构的能力。
端到端多模态生成框架 ：支持从文本描述、图像参考或角色参考等多种输入方式直接生成 SVG 图形，能够生成色彩丰富、细节生动的矢量图形。

OmniSVG 支持多种平台，包括 Windows、macOS 和 Linux，方便用户在不同的操作系统上使用。

OmniSVG 由复旦大学和 StepFun 联合开发。复旦大学在人工智能领域有着深厚的研究基础和丰富的技术积累，StepFun 则在 AI 应用开发和创新方面具有独特的优势，双方的合作为 OmniSVG 的研发和优化提供了强大的支持。