ReasonIR-8B – 引领推理密集型检索的新引擎

未分类 2025-06-22 14:37

ReasonIR-8B 是由 Meta AI 推出的首个专门针对通用推理任务训练的检索器，基于 LLaMA3.1-8B 训练，采用双编码器架构，并结合创新的数据生成工具 ReasonIR-SYNTHESIZER 构建。

复杂查询处理 ：能有效处理长篇和跨领域的复杂查询，支持长达 2000 个 token 的多样长度查询以及需要逻辑推理的困难查询。
推理精度提升 ：在 BRIGHT 基准测试中，原查询得分达 24.4 nDCG@10，结合 Qwen2.5 重排序器后提升至 36.9。在 RAG 任务中，使 MMLU 和 GPQA 性能分别提升 6.4% 和 22.6%。
合成数据生成 ：通过 ReasonIR-SYNTHESIZER 构建模拟真实推理挑战的合成查询和文档对，更精准地支持复杂任务。

双编码器架构 ：将查询和文档分别独立编码为嵌入向量，通过余弦相似度进行评分，有效处理长篇和复杂查询。
Varied-Length Data (VL) 与 Hard Query Data (HQ) ：生成不同长度的查询及其对应的合成文档，扩展检索器的有效上下文长度；基于高质量文档生成推理密集型查询，并通过多轮方法生成 “难负样本”。
对比学习 ：结合合成数据和公共数据的混合训练，优化检索器将查询嵌入到与相关文档更接近的向量空间中，同时远离不相关的文档。
测试时优化 ：通过语言模型将原始查询重写为更长、更详细的信息性查询，还可结合语言模型对检索结果进行重排，进一步提升检索的准确性和相关性。

目前 ReasonIR-8B 的相关项目资源托管于以下几个平台：

ReasonIR-8B 由 Meta AI 团队开发，该团队在人工智能领域具有深厚的底蕴和丰富的实践经验，一直致力于推动 AI 技术的创新与发展，其研究成果在业界具有广泛的影响力。