QwenLong-L1-32B – 阿里巴巴的长文本推理新突破

未分类 2025-06-22 13:52

QwenLong-L1-32B 是阿里巴巴 Qwen-Doc 团队开源的首个长文本推理大模型，专为处理复杂的长文本任务而设计。该模型基于强化学习框架，通过渐进式上下文扩展和混合奖励机制，显著提升了长文本推理的准确性和效率。

QwenLong-L1-32B 的核心功能包括：

长文本推理：能够处理复杂的多跳推理、逻辑推理和数学推理问题，适用于法律、金融、科研等多个领域。
稳定训练：通过课程引导的强化学习和难度感知的回顾性采样策略，确保训练过程稳定。
混合奖励：结合基于规则和基于模型的奖励，平衡精确性和召回率。
高性能表现：在多个长文本文档问答（DocQA）基准测试中，表现优于现有的旗舰模型，如 OpenAI-o3-mini 和 Qwen3-235B-A22B。

QwenLong-L1-32B 的技术原理基于以下几点：

QwenLong-L1-32B 支持多种平台，包括：

QwenLong-L1-32B 由阿里巴巴 Qwen-Doc 团队开发，该团队专注于长文本推理和强化学习技术的研究与开发。团队成员包括 Fanqi Wan、Weizhou Shen、Shengyi Liao 等多位资深研究人员。

QwenLong-L1-32B 适用于多种业务场景，包括但不限于：