OmniSVG – 重新定义矢量图形生成的多模态 AI 工具
OmniSVG 是什么
OmniSVG 是复旦大学与 StepFun 联合推出的全球首个端到端多模态 SVG(可缩放矢量图形)生成模型。它基于预训练视觉语言模型 Qwen-VL 构建,并创新性地集成了 SVG 标记化器,能够通过文本描述、图像参考或角色参考等多种输入方式,生成从简单图标到复杂动漫角色等各类高品质矢量图形。
核心功能
- 多模态生成 :支持文字生成 SVG、图片转 SVG 以及角色参考 SVG 生成。用户输入简单文本描述,如 “生成一个极简风格的科技公司 LOGO”,或上传图像文件,OmniSVG 就能将其转化为相应的 SVG 图形;还可根据提供的角色参考图像或描述,生成匹配的 SVG 角色图形。
- 高效处理与高质量生成 :可处理长达 30,000 令牌的序列,能生成色彩丰富、细节生动的复杂矢量图形,克服了传统方法生成结果单一、结构松散、计算成本高昂等问题,生成的 SVG 图形视觉效果出色且具备可编辑性。
- 智能优化与专业兼容 :自动减少 47% 冗余路径,显著降低文件体积,生成的 SVG 文件具有无限可缩放性和完全可编辑性,可无缝集成到专业设计工作流程中,如 Adobe Illustrator 等工具。
技术原理
- 基于预训练视觉语言模型 :OmniSVG 以 Qwen-VL 作为基础,该模型能深度融合图像和文本信息,为多模态生成提供了强大的基础。
- SVG 标记化方法 :创新性地将 SVG 命令和坐标参数化为离散令牌,通过类似自然语言处理的方式处理 SVG 的生成,实现了结构逻辑与几何细节的解耦,在训练过程中分离了结构逻辑与几何细节,使训练效率较传统方法提升了 3 倍以上,同时保留了生成复杂 SVG 结构的能力。
- 端到端多模态生成框架 :支持从文本描述、图像参考或角色参考等多种输入方式直接生成 SVG 图形,能够生成色彩丰富、细节生动的矢量图形。
支持平台
OmniSVG 支持多种平台,包括 Windows、macOS 和 Linux,方便用户在不同的操作系统上使用。
团队介绍
OmniSVG 由复旦大学和 StepFun 联合开发。复旦大学在人工智能领域有着深厚的研究基础和丰富的技术积累,StepFun 则在 AI 应用开发和创新方面具有独特的优势,双方的合作为 OmniSVG 的研发和优化提供了强大的支持。
项目资源
- 项目官网 :https://omnisvg.github.io/
- Github 仓库 :https://github.com/OmniSVG
- Huggingface 模型库 :https://huggingface.co/OmniSVG
- arXiv 技术论文 :https://arxiv.org/pdf/2504.06263
业务场景
- 品牌图标设计 :可根据文本描述快速生成品牌图标,减少设计师手动设计时间。
- 网页开发 :能根据文本描述或图像参考生成矢量图标,适用于不同分辨率设备。
- 角色与场景设计 :可用于生成游戏角色、场景等图形素材,为游戏增添独特艺术风格。
- 动态角色生成 :基于角色参考,能生成保持相同角色特征但姿势或场景不同的矢量图形。
- 快速原型设计 :内容创作者可用其快速生成图标、插图或角色图形的原型,加速创作流程。