MetaStone-L1-7B – 高性能轻量级推理模型的典范

未分类 2025-06-23 10:02

MetaStone-L1-7B 是 MetaStone 系列中的一款轻量级推理模型，专为提升复杂下游任务的性能而设计，在数学和代码等核心推理基准测试中达到了并行模型的顶尖水平（SOTA），其性能与 Claude-3.5-Sonnet-1022 和 GPT4o-0513 等 API 模型相当，且基于 DeepSeek-R1-Distill-Qwen-7B 由 GRPO 训练而成。

核心功能

强大的推理能力 ：在数学和代码等核心推理基准测试中表现出色，能达到并行模型的顶尖水平（SOTA），与 Claude-3.5-Sonnet-1022 和 GPT4o-0513 等 API 模型的性能相当，可为用户在处理复杂问题时提供高效的推理支持。
优化的训练基础 ：基于 DeepSeek-R1-Distill-Qwen-7B 训练，具备坚实性能基础，确保模型在各种任务中都能有良好的表现。
灵活的使用设置 ：建议使用温度为 0.6、顶部采样概率为 0.95，最大生成长度为 32k，用户可根据具体需求灵活调整这些参数，以获得最佳性能。
针对特定问题的优化提示 ：对于数学问题，提示中添加 “Please reason step by step, and put your final answer within \boxed{}”；对于代码问题，添加特定格式要求，可进一步提升模型的推理效果，使模型生成的结果更符合用户的预期和需求。

技术原理

基于 DeepSeek-R1 的技术架构 ：MetaStone-L1-7B 基于 DeepSeek-R1-Distill-Qwen-7B 通过 GRPO 训练而成。DeepSeek-R1 采用先进的视觉强化微调（Visual Fine-Tuning，V-FT）技术，结合跨模态对比学习、梯度解耦训练及注意力门控机制等创新方法，显著增强模型的视觉理解和多模态对齐能力。
跨架构计算集群支持 ：元石智算提出 RISC-V

发表回复取消回复