PaperBench – 开源 AI 智能体评测基准

未分类 2025-06-23 0:17

PaperBench 是什么

PaperBench 是 OpenAI 开源的 AI 智能体评测基准，用于评估智能体复现顶级学术论文的能力，要求智能体从理解论文内容到编写代码、执行实验，全面展现从理论到实践的自动化能力。

全流程评估 ：覆盖论文理解、代码实现、实验执行完整复现链条，能全面考核智能体的理论理解、代码开发和实验执行等多方面能力。
自动化评分 ：拥有 8316 个节点组成的层次化评分树，结合大模型自动评分，可高效、精准地对智能体的表现进行量化评估，并且评分结果与人类专家评估具有高度一致性。
环境标准化 ：在 Ubuntu 24.04 的 Docker 容器中运行智能体，保证测试环境的一致性和可重复性，杜绝因环境差异导致的测试结果不准确。
资源可控 ：限制智能体的 GPU 和 API 使用，确保评估反映智能体的真实能力，避免其依赖现有代码或资源。
轻量级变体 ：提供简化版评估方案，降低参与门槛，吸引更多研究者参与。

任务模块 ：定义智能体需要完成的理论解析、代码生成、实验执行三类核心任务，全面覆盖从理论到实践的各个环节。
评分标准 ：评分标准以层次化的树形结构组织，将评分节点细分为 8316 个任务，从高层次的总体要求逐步细化到具体实现细节。每个叶节点代表一个二元判断（通过 / 未通过），父节点的得分是其子节点得分的加权平均，使评分标准能捕捉到复现尝试的部分进展。
规则模块 ：规定智能体在执行任务时使用的资源，确保智能体的能力基于自身的理解和实现。
测试环境 ：基于 Docker 的测试环境配备 A10 GPU 和可控 API 访问，为智能体提供稳定、一致的运行环境。
智能体配置 ：支持 SimpleAgent、IterativeAgent 等不同工作模式对比研究，如 IterativeAgent 基于修改系统提示，要求智能体每次只进行下一步操作，移除提交工具，确保智能体在整个可用时间内持续工作。

PaperBench 支持在 Ubuntu 24.04 的 Docker 容器中运行，容器能访问单个 A10 GPU，具备联网能力，并提供 HuggingFace 和 OpenAI API 的密钥。

PaperBench 是 OpenAI 推出的项目，OpenAI 作为人工智能领域的翘楚，持续加大对 AI 应用的研发投入，在 AI 领域具有深厚的技术积累和强大的研发实力，其推出的 ChatGPT 等产品也取得了巨大成功，为 PaperBench 的开发和应用提供了有力保障。