AReaL-boba – 开源强化学习训练框架的革新之力
AReaL-boba 是什么
AReaL-boba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架,是 AReaL 的升级版本。它通过工程优化显著降低了强化学习训练门槛,创新性地集成 SGLang 推理框架,支持从小规模单机到千卡级集群的分布式训练。框架采用数据蒸馏等前沿技术,在 32B 模型尺寸上仅用 200 条数据和 200 美元成本即可复现顶级模型的推理效果。其开源的 7B 模型在数学推理任务中表现卓越,刷新了 AIME 基准测试的同尺寸模型分数纪录,同时提供完整的训练数据、脚本和模型权重。
核心功能
- 高效训练 :基于 SGLang 框架深度优化,训练吞吐量最高提升 73%,支持单节点至千卡级分布式训练。
- 推理能力提升 :7B 模型在 AIME 数学推理测试中达到 61.9 分,超越所有同尺寸开源模型。
- 低资源适配 :创新数据蒸馏技术仅需 200 条数据即可训练 32B 模型,成本控制在 200 美元内。
- 全栈开源 :完整公开代码、数据集、训练脚本及评估方案,确保全流程可复现。
技术原理
- 强化学习优化 :通过奖励信号动态调整模型行为,在数学推理等任务上实现生成能力突破。
- SGLang 集成 :首个全面兼容 SGLang 推理框架的训练系统,实现计算效率质的飞跃。
- 数据蒸馏 :从海量数据中提取关键特征样本,使 32B 模型训练数据量缩减至 200 条。
- 工程创新 :采用并行计算与显存管理等技术,在不同规模硬件上均实现训练加速。
支持平台
AReaL-boba 支持多种计算资源,可无缝适配各种硬件环境,无论是单机还是大规模分布式训练集群,都能高效运行,突破了传统强化学习训练对资源的高要求瓶颈,让用户可以根据自身实际条件灵活选择训练平台。
团队介绍
AReaL-boba 由蚂蚁技术研究院与清华大学联合开发。蚂蚁技术研究院在金融科技、人工智能等领域拥有深厚的技术积累和丰富的实践经验;清华大学作为顶尖学府,在计算机科学与技术等相关学科领域具备强大的科研实力和人才优势。双方强强联合,致力于推动强化学习技术的创新与发展,为 AI 社区贡献开源力量。
项目资源
- GitHub 仓库 :https://github.com/inclusionAI/AReaL
- HuggingFace 模型库 :https://huggingface.co/collections/inclusionAI/areal-boba
业务场景
- 数学推理与教育 :开发智能教育工具,辅助学生解决复杂数学问题,提升数学教学效果与学习体验。
- 自然语言处理任务 :提升文本生成、问答系统、机器翻译等性能,为相关应用提供更准确、流畅的语言交互能力。
- 智能体开发 :用于游戏、机器人控制等领域智能体的训练,使智能体能够更好地学习和适应复杂环境,做出更优决策。
- 低资源模型训练 :适用于数据资源有限的环境,进行高效模型训练,降低训练成本,扩大模型应用范围。
- 学术研究与社区协作 :作为研究工具,促进学术交流和技术共享,推动强化学习领域的前沿研究与发展。