Skywork-OR1 – 开源推理模型的新突破

未分类 2025-06-23 0:01

Skywork-OR1 是什么 ：Skywork-OR1 是昆仑万维推出的开源高性能推理模型系列，由天工团队研发。该系列包含三款模型，分别是专注于数学领域的 Skywork-OR1-Math-7B、兼具数学和代码能力的通用模型 Skywork-OR1-7B-Preview 以及适合更高复杂度任务的旗舰版本 Skywork-OR1-32B-Preview，旨在突破大模型在逻辑推理和复杂任务求解方面的能力瓶颈。
核心功能 ：
- 逻辑推理 ：具备强大的逻辑推理能力，能处理复杂的逻辑关系和多步骤推理任务，比如在面对高难度的数学竞赛题时，可逐步分析问题并推理出答案。
- 编程任务支持 ：可生成高质量的代码，支持多种编程语言，涵盖从基础代码编写到复杂算法实现等多种场景，为开发者提供便利。
- 代码优化与调试 ：对代码进行优化和调试，提高代码的可读性和执行效率，有助于开发者提升代码质量，减少错误和性能问题。
- 多领域任务适应 ：具备通用推理能力，支持处理其他领域的复杂任务，可在不同领域为用户提供更智能的解决方案。
- 多轮对话与交互 ：支持多轮对话，根据上下文信息逐步解决问题，能够更好地理解用户的意图和需求，提供更连贯、更准确的推理过程和答案。
技术原理 ：
- 高质量数据集 ：基于高质量的数学数据集，如从约 89.6 万题的数学库中筛选出的 NuminaMath-1.5（约 11 万道数学题目），以及以 LeetCode 和 TACO 数据为主，经过严格筛选和去重，保留单元测试完整、验证通过的 13.7K 条高质量代码问题。
- 数据预处理与过滤 ：每道题进行多轮采样验证答案，剔除 “全对” 或 “全错” 的题目，避免无效数据影响训练。结合人类评审和 LLM 自动判题机制，清理语义不清、信息不全、格式错误或含有无关内容的题目。
- 训练策略 ：基于 GRPO 进行模型训练，采用多阶段训练逐步增加上下文窗口长度，提升模型的长链思维能力。在训练前和训练过程中分别进行离线和在线过滤，动态剔除无效样本，确保训练数据的有效性和挑战性。强化学习采样时用高采样温度（τ=1.0），基于自适应熵控制机制，增强模型的探索能力，避免过早陷入局部最优。
- 损失函数优化 ：在训练中移除 KL 损失项，让模型充分地探索和优化推理能力，将策略损失在训练批次内的所有 token 上进行平均，提升优化过程的一致性与稳定性。
支持平台 ：可在支持 CUDA 并安装 PyTorch 的 Linux 系统上运行，推荐使用 Python 3.8 及以上版本、PyTorch 2.0 及以上版本和 transformers 4.28.0 及以上版本。同时，该项目的模型权重、训练数据集和完整训练代码均已开源，可在 GitHub 和 Huggingface 平台获取，配套的技术博客发布于 Notion 平台。
团队介绍 ：由昆仑万维的天工团队推出。昆仑万维在人工智能领域具有丰富的经验和技术实力，天工团队专注于大模型的研发和创新，致力于推动 AI 技术的发展和应用，并以开源的方式回馈开发者社区，促进技术的交流和共享。
项目资源 ：项目官网为https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reasoner，GitHub 仓库地址是https://github.com/SkyworkAI/Skywork-OR1，HuggingFace 模型库页面为https://huggingface.co/collections/Skywork/skywork-or1。
业务场景 ：
- 教育领域 ：可作为数学解题辅助工具，帮助学生解答复杂的数学问题，提供详细的解题步骤和思路引导。也可用于编程教学演示，辅助教师讲解编程知识和技巧，提高教学效果。
- 开发领域 ：作为代码开发工具的智能助手，为开发者提供代码建议、错误检测和优化服务，提高代码质量和开发效率。还可用于算法竞赛训练，帮助开发者更好地准备竞赛，提升编程能力。
- 科研领域 ：在数学研究中，可辅助研究人员进行数学证明验证、公式推导等，加快科研进度。同时，能够协助科研人员优化科研代码，提高代码性能，实现数据处理自动化，从而让科研人员更专注于核心的研究工作。

Skywork-OR1 – 开源推理模型的新突破

发表回复 取消回复

发表回复取消回复