UniTok – 字节联合高校推出的创新视觉分词器
UniTok 是什么
UniTok 是由字节跳动联合香港大学和华中科技大学共同推出的一款用于视觉生成和理解的统一视觉分词器 ,能够高效地将视觉信息转化为 token,适用于多种自回归生成模型和多模态理解模型。它通过创新的视觉分词技术,解决了传统分词器在细节捕捉与语义理解之间的矛盾,在图像生成和理解任务中表现出色,例如在 ImageNet 上的零样本分类准确率达到 78.6%,重建质量(rFID)仅为 0.38,显著优于现有分词器。
核心功能
- 统一视觉表示 :可将图像编码为离散的视觉 token,这些 token 既能用于图像生成任务,如文生图,也可用于视觉理解任务,如视觉问答。
- 高质量图像重建 :在保持图像细节的同时进行高效的图像重建,即使在低 token 数量下,也能实现高重建质量,如在 256 个 token 下的重建误差仅为 0.39。
- 语义对齐 :结合对比学习和重建损失,确保生成的视觉 token 与文本描述对齐,从而提升视觉理解能力。
- 支持多模态大语言模型(MLLM) :作为 MLLM 的视觉输入模块,支持模型在多模态任务中的统一处理和生成,能实现对图像和文本信息的联合编码与解码,显著提升模型的整体性能。
技术原理
- 多码本量化 :将视觉特征分割成多个小块,每块用独立的子码本进行量化,使视觉 token 的词汇量呈指数级增长,极大地扩展了离散 token 的表示能力。
- 注意力分解 :采用多头注意力模块替代传统的线性投影层进行 token 分解,更好地保留原始 token 中的语义信息,提升分解后特征的表达能力,并使用因果注意力确保与自回归生成任务的兼容性。
- 统一的训练目标 :基于 VQVAE 的重建损失确保图像细节的准确重建,同时引入类似 CLIP 的对比损失,确保生成的视觉 token 与文本描述对齐,最终的总损失是重建损失和对比损失的加权和,以此同时优化生成和理解任务。
支持平台
UniTok 主要支持以下平台:
- PyTorch :在 PyTorch 框架下进行了实现和优化,可充分利用 PyTorch 的各种功能和工具进行模型训练和部署。
- TensorFlow :也支持 TensorFlow 平台,为开发者提供了更多的选择和灵活性。
团队介绍
UniTok 的研发团队由字节跳动联合香港大学和华中科技大学的科研人员组成。字节跳动作为全球领先的技术公司,在人工智能、计算机视觉等领域拥有丰富的研发经验和强大的技术实力。香港大学和华中科技大学在学术研究方面具有深厚的底蕴和专业的人才队伍,三方合作充分发挥了各自的优势,共同推动了 UniTok 这一创新技术的研发和应用。
项目资源
业务场景
- 图像生成 :可用于生成高质量的图像内容,如根据文本描述生成相应的图像,为创意设计、艺术创作等领域提供新的可能性。
- 视觉问答 :帮助模型更好地理解图像内容,从而更准确地回答与图像相关的问题,在智能客服、图像检索等领域具有重要应用。
- 图像分类 :通过其强大的视觉表示能力,可提高图像分类的准确率和效率,适用于各种需要对图像进行分类的场景,如医疗影像分析、安防监控等。
- 多模态内容创作 :作为多模态大语言模型的视觉输入模块,支持更丰富的多模态内容创作,如生成图文并茂的文章、视频字幕等。