Skywork-OR1 – 开源推理模型的新突破

  • Skywork-OR1 是什么 :Skywork-OR1 是昆仑万维推出的开源高性能推理模型系列,由天工团队研发。该系列包含三款模型,分别是专注于数学领域的 Skywork-OR1-Math-7B、兼具数学和代码能力的通用模型 Skywork-OR1-7B-Preview 以及适合更高复杂度任务的旗舰版本 Skywork-OR1-32B-Preview,旨在突破大模型在逻辑推理和复杂任务求解方面的能力瓶颈。
  • 核心功能
    • 逻辑推理 :具备强大的逻辑推理能力,能处理复杂的逻辑关系和多步骤推理任务,比如在面对高难度的数学竞赛题时,可逐步分析问题并推理出答案。
    • 编程任务支持 :可生成高质量的代码,支持多种编程语言,涵盖从基础代码编写到复杂算法实现等多种场景,为开发者提供便利。
    • 代码优化与调试 :对代码进行优化和调试,提高代码的可读性和执行效率,有助于开发者提升代码质量,减少错误和性能问题。
    • 多领域任务适应 :具备通用推理能力,支持处理其他领域的复杂任务,可在不同领域为用户提供更智能的解决方案。
    • 多轮对话与交互 :支持多轮对话,根据上下文信息逐步解决问题,能够更好地理解用户的意图和需求,提供更连贯、更准确的推理过程和答案。
  • 技术原理
    • 高质量数据集 :基于高质量的数学数据集,如从约 89.6 万题的数学库中筛选出的 NuminaMath-1.5(约 11 万道数学题目),以及以 LeetCode 和 TACO 数据为主,经过严格筛选和去重,保留单元测试完整、验证通过的 13.7K 条高质量代码问题。
    • 数据预处理与过滤 :每道题进行多轮采样验证答案,剔除 “全对” 或 “全错” 的题目,避免无效数据影响训练。结合人类评审和 LLM 自动判题机制,清理语义不清、信息不全、格式错误或含有无关内容的题目。
    • 训练策略 :基于 GRPO 进行模型训练,采用多阶段训练逐步增加上下文窗口长度,提升模型的长链思维能力。在训练前和训练过程中分别进行离线和在线过滤,动态剔除无效样本,确保训练数据的有效性和挑战性。强化学习采样时用高采样温度(τ=1.0),基于自适应熵控制机制,增强模型的探索能力,避免过早陷入局部最优。
    • 损失函数优化 :在训练中移除 KL 损失项,让模型充分地探索和优化推理能力,将策略损失在训练批次内的所有 token 上进行平均,提升优化过程的一致性与稳定性。
  • 支持平台 :可在支持 CUDA 并安装 PyTorch 的 Linux 系统上运行,推荐使用 Python 3.8 及以上版本、PyTorch 2.0 及以上版本和 transformers 4.28.0 及以上版本。同时,该项目的模型权重、训练数据集和完整训练代码均已开源,可在 GitHub 和 Huggingface 平台获取,配套的技术博客发布于 Notion 平台。
  • 团队介绍 :由昆仑万维的天工团队推出。昆仑万维在人工智能领域具有丰富的经验和技术实力,天工团队专注于大模型的研发和创新,致力于推动 AI 技术的发展和应用,并以开源的方式回馈开发者社区,促进技术的交流和共享。
  • 项目资源 :项目官网为https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reasoner,GitHub 仓库地址是https://github.com/SkyworkAI/Skywork-OR1,HuggingFace 模型库页面为https://huggingface.co/collections/Skywork/skywork-or1
  • 业务场景
    • 教育领域 :可作为数学解题辅助工具,帮助学生解答复杂的数学问题,提供详细的解题步骤和思路引导。也可用于编程教学演示,辅助教师讲解编程知识和技巧,提高教学效果。
    • 开发领域 :作为代码开发工具的智能助手,为开发者提供代码建议、错误检测和优化服务,提高代码质量和开发效率。还可用于算法竞赛训练,帮助开发者更好地准备竞赛,提升编程能力。
    • 科研领域 :在数学研究中,可辅助研究人员进行数学证明验证、公式推导等,加快科研进度。同时,能够协助科研人员优化科研代码,提高代码性能,实现数据处理自动化,从而让科研人员更专注于核心的研究工作。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注