WebThinker – 深度研究智能体的创新突破

WebThinker 是由中国人民大学、北京智源人工智能研究院和华为泊松实验室等机构联合推出的深度研究智能体,旨在赋能大型推理模型(LRMs),使其在推理过程中能够自主进行网络搜索、网页导航和报告撰写,从而提升其在复杂推理和知识密集型任务中的表现。

核心功能

  • 自主决策 :LRM 可自主判断推理时是否需要外部知识以及是否要更新报告,智能决策知识获取与报告优化时机。
  • 深度探索 :支持多步搜索和页面导航,能深入挖掘信息,凭借深度网页探索器超越传统简单搜索,通过交互元素导航网页,收集全面信息。
  • 动态撰写 :模型可实时撰写、修改报告内容,配备写作、检查、编辑等专门工具集,保障报告连贯性与完整性。
  • 工具优化 :基于强化学习的训练策略,优化 LRM 对研究工具的使用效率,提升工具调用准确率,降低长链推理任务的错误率。

技术原理

  • 深度网页探索器(Deep Web Explorer) :使 LRM 能够基于点击链接和按钮等交互元素在网页间导航,自主决定搜索查询,持续探索直至收集到足够信息,返回精炼总结。它还可根据当前查询的搜索结果发起后续搜索并遍历更深层次的链接,支持跨平台数据源比对,能动态调整搜索策略,自动识别信息可信度指标,提取高质量信息。
  • 基于强化学习的训练策略 :采用迭代式的在线直接偏好优化(DPO)训练,构建包含 30 万条推理轨迹的训练集,优先选择能得出正确答案、生成高质量报告且工具使用更高效的推理路径,从而提升 LRM 对研究工具的利用效率,系统可自主优化工具调用时机、信息筛选标准、报告结构编排等。
  • 运行模式 :问题解决模式为 LRM 配备深度网页探索器,用于解决数学证明、工程问题等需逐步推导的任务;报告生成模式赋予 LRM 写作、检查和编辑能力,可迭代式撰写全面的研究报告,在思考和搜索的同时完成报告生成。

支持平台

WebThinker 支持多种 LRM 主干网络适配,如在 DeepSeek-R1-7B 基础上,GAIA 任务提升 174.4%,对 Qwen 系列模型的适配耗时小于 3 人日,其内存占用可控制在单卡 A100 可运行范围,同时支持 Linux、macOS 系统。

团队介绍

WebThinker 的开发团队汇聚了中国人民大学自然语言处理实验室、北京智源人工智能研究院和华为泊松实验室等机构的专业研究人员。这些机构在人工智能领域具有深厚的学术造诣和技术实力,其研究成果不仅推动了人工智能技术的发展,也为 WebThinker 的研发提供了坚实的理论基础和实践支持。

项目资源

业务场景

  • 科研支持 :在科研领域,WebThinker 能够帮助研究人员快速获取大量文献信息,分析数据,为科研项目提供有力支持,提高科研效率和质量。
  • 市场竞争分析 :在商业领域,WebThinker 可收集和分析市场数据,助力企业了解竞争对手动态,把握市场趋势,制定有效的市场竞争策略。
  • 教育辅助 :在教育领域,为学生和教师提供个性化的学习和教学支持,帮助学生提高学习效果,为教师提供教学资源和教学方法的优化建议。
  • 信息整合与报告生成 :能够整合多领域信息,快速生成高质量研究报告,为决策者提供全面、准确的信息支持,辅助其做出科学决策。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注