GigaTok – 开启图像生成新纪元的视觉分词器
GigaTok是什么
GigaTok 是由香港大学与字节跳动联合研发的视觉分词器,参数量高达 30 亿,专为自回归图像生成任务设计。它通过创新的语义正则化技术,将分词器特征与预训练视觉编码器的语义特征对齐,有效约束了潜在空间的复杂度,解决了图像重建与生成质量之间的矛盾。
核心功能
- 高质量图像重建 :成功扩展到 30 亿参数规模,通过语义正则化技术保持重建质量,防止潜在空间复杂度过高,可将图像更精确地压缩成紧凑的离散潜在标记,从而提高图像重建质量。
- 提升生成性能 :在下游自回归生成任务中表现出色,解决了重建质量与生成质量之间的矛盾,借助语义正则化和优化扩展策略,实现了更出色的质量和泛化能力。
- 优化表示学习 :显著提升下游模型的表示学习质量,使线性探测准确率等取得突破,能够生成更具语义一致性的潜在空间,为多模态理解与生成提供更好的基础。
- 创新扩展策略 :提出一维分词器架构,相比传统二维分词器具有更好的可扩展性,优先扩展解码器,并引入熵损失稳定训练。
技术原理
- 混合架构设计 :结合 CNN 和 Transformer,编码器通过 CNN 块逐步下采样图像,然后经 Transformer 层和向量量化器生成离散的潜在编码,解码器则通过 Transformer 层和 CNN 解码器将潜在编码重建为图像,支持一维和二维分词器,其中一维分词器在扩展性上更优。
- 语义正则化 :通过对比学习框架,强制分词器的中间特征与预训练模型的语义空间对齐,约束潜在空间复杂度,防止分词器学习过于复杂的潜在标记依赖关系,从而提升下游 AR 模型的学习效率。
- 非对称扩展策略 :优先扩展解码器,而非编码器,这是因为解码器在从有损潜在代码中重建图像时面临更大的挑战,如此可更高效地分配计算资源,避免编码器过度复杂导致潜在空间失控。
- 熵损失 :鼓励更高的码本使用率,确保模型在训练过程中保持稳定,避免因复杂度增加而导致训练崩溃,通过最小化量化误差的期望和最大化代码本向量的均匀使用,解决大规模分词器训练中的收敛问题。
支持平台
GigaTok 主要支持以下平台:
- GitHub 平台 :其源码在 GitHub 上开源,便于开发者获取和研究相关代码,进而进行学习、拓展或应用。
- 常见的深度学习框架 :如 PyTorch 等,可与之兼容,方便开发者在熟悉的开发环境中进行项目构建和模型训练。
团队介绍
GigaTok 背后的团队是香港大学与字节跳动。香港大学在学术研究领域具有深厚的底蕴和专业的科研能力,字节跳动则在人工智能应用和大规模数据处理等方面有着丰富的经验和技术积累,双方的强强联合为 GigaTok 的研发提供了坚实的智力支持和技术保障,使其在技术创新和实际应用方面都具有显著的优势。
项目资源
- 官网 :https://silentview.github.io/GigaTok/
- 源码 :https://github.com/SilentView/GigaTok
- 论文 :https://arxiv.org/pdf/2504.08736
业务场景
- 图像生成与编辑 :可用于高质量的图像生成任务,如游戏中的场景原画生成、创意设计图像的制作等,为艺术家和设计师提供灵感和辅助创作工具,提高创作效率和质量。
- 图像重建与修复 :在医疗影像、卫星遥感等领域,对受损或模糊的图像进行重建和修复,帮助获取更清晰、更准确的图像信息,从而更好地支持相关领域的分析和决策。
- 数据增强 :为图像分类、目标检测等计算机视觉任务生成更多的训练数据,丰富数据集的多样性和规模,进而提高模型的鲁棒性和性能。
- 多模态学习与理解 :与其他模态的数据相结合,如文本、语音等,实现更深层次的多模态学习和理解,推动人工智能在更广泛的应用场景中实现突破,例如智能图像描述、视觉问答等。