BAGEL – 开源多模态AI的全能选手

未分类 2025-06-22 14:02

BAGEL是什么

BAGEL是由字节跳动Seed团队开发的一款开源多模态基础模型，旨在实现文本、图像和视频的统一理解和生成。它拥有14亿总参数和7亿活跃参数，基于混合变换器专家（MoT）架构，通过大规模交错多模态数据预训练，展现出卓越的性能。

核心功能

BAGEL的核心功能覆盖了多模态领域的多个方面：

技术原理

BAGEL的技术核心在于其混合变换器专家（MoT）架构，包含两个独立编码器：一个处理图像的像素级特征，另一个专注于语义级特征。此外，模型通过“下一个标记组预测”范式进行训练，使用数万亿标记的交错多模态数据。这种架构和训练方式使其在复杂任务中展现出强大的推理和组合能力。

支持平台

BAGEL支持多种平台，包括但不限于：

团队介绍

BAGEL由字节跳动Seed团队开发，该团队致力于推动多模态AI技术的发展，并通过开源的方式与社区分享研究成果。团队成员在多模态领域拥有深厚的技术背景和丰富的研究经验。

项目资源

业务场景

BAGEL在多个业务场景中展现出广泛的应用潜力：