MetaStone-L1-7B – 高性能轻量级推理模型的典范

MetaStone-L1-7B 是 MetaStone 系列中的一款轻量级推理模型,专为提升复杂下游任务的性能而设计,在数学和代码等核心推理基准测试中达到了并行模型的顶尖水平(SOTA),其性能与 Claude-3.5-Sonnet-1022 和 GPT4o-0513 等 API 模型相当,且基于 DeepSeek-R1-Distill-Qwen-7B 由 GRPO 训练而成。

核心功能

  • 强大的推理能力 :在数学和代码等核心推理基准测试中表现出色,能达到并行模型的顶尖水平(SOTA),与 Claude-3.5-Sonnet-1022 和 GPT4o-0513 等 API 模型的性能相当,可为用户在处理复杂问题时提供高效的推理支持。
  • 优化的训练基础 :基于 DeepSeek-R1-Distill-Qwen-7B 训练,具备坚实性能基础,确保模型在各种任务中都能有良好的表现。
  • 灵活的使用设置 :建议使用温度为 0.6、顶部采样概率为 0.95,最大生成长度为 32k,用户可根据具体需求灵活调整这些参数,以获得最佳性能。
  • 针对特定问题的优化提示 :对于数学问题,提示中添加 “Please reason step by step, and put your final answer within \boxed{}”;对于代码问题,添加特定格式要求,可进一步提升模型的推理效果,使模型生成的结果更符合用户的预期和需求。

技术原理

  • 基于 DeepSeek-R1 的技术架构 :MetaStone-L1-7B 基于 DeepSeek-R1-Distill-Qwen-7B 通过 GRPO 训练而成。DeepSeek-R1 采用先进的视觉强化微调(Visual Fine-Tuning,V-FT)技术,结合跨模态对比学习、梯度解耦训练及注意力门控机制等创新方法,显著增强模型的视觉理解和多模态对齐能力。
  • 跨架构计算集群支持 :元石智算提出 RISC-V

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注