WebThinker – 深度研究智能体的创新突破

未分类 2025-06-22 14:29

WebThinker 是由中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构联合推出的深度研究智能体，旨在赋能大型推理模型（LRMs），使其在推理过程中能够自主进行网络搜索、网页导航和报告撰写，从而提升其在复杂推理和知识密集型任务中的表现。

深度网页探索器（Deep Web Explorer） ：使 LRM 能够基于点击链接和按钮等交互元素在网页间导航，自主决定搜索查询，持续探索直至收集到足够信息，返回精炼总结。它还可根据当前查询的搜索结果发起后续搜索并遍历更深层次的链接，支持跨平台数据源比对，能动态调整搜索策略，自动识别信息可信度指标，提取高质量信息。
基于强化学习的训练策略 ：采用迭代式的在线直接偏好优化（DPO）训练，构建包含 30 万条推理轨迹的训练集，优先选择能得出正确答案、生成高质量报告且工具使用更高效的推理路径，从而提升 LRM 对研究工具的利用效率，系统可自主优化工具调用时机、信息筛选标准、报告结构编排等。
运行模式 ：问题解决模式为 LRM 配备深度网页探索器，用于解决数学证明、工程问题等需逐步推导的任务；报告生成模式赋予 LRM 写作、检查和编辑能力，可迭代式撰写全面的研究报告，在思考和搜索的同时完成报告生成。

WebThinker 支持多种 LRM 主干网络适配，如在 DeepSeek-R1-7B 基础上，GAIA 任务提升 174.4%，对 Qwen 系列模型的适配耗时小于 3 人日，其内存占用可控制在单卡 A100 可运行范围，同时支持 Linux、macOS 系统。

WebThinker 的开发团队汇聚了中国人民大学自然语言处理实验室、北京智源人工智能研究院和华为泊松实验室等机构的专业研究人员。这些机构在人工智能领域具有深厚的学术造诣和技术实力，其研究成果不仅推动了人工智能技术的发展，也为 WebThinker 的研发提供了坚实的理论基础和实践支持。