RAGEN – AI推理新范式,引领多轮决策突破

RAGEN是什么

RAGEN 是一款开源的强化学习框架,专为在交互式、随机环境中训练大型语言模型(LLM)推理 Agent 而设计。其核心是 StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持 PPO、GRPO 等多种优化策略,有效解决了多轮强化学习中的不稳定性,提升了训练的稳定性和效率。

核心功能

  • 多轮交互与轨迹优化 :借助 StarPO 框架,将 Agent 与环境的交互形式化为马尔可夫决策过程(MDP),优化整个交互轨迹,使 Agent 能在复杂环境中做出更合理的决策。
  • 强化学习算法支持 :支持 PPO、GRPO 和 BRPO 等多种强化学习算法,为研究者提供灵活的算法选择。
  • 易于扩展的环境支持 :支持 Sokoban、FrozenLake 等多种环境,且提供了添加自定义环境的接口,方便研究者进行实验。
  • 稳定性和效率提升 :通过基于方差的轨迹过滤、引入 “评论家” 以及解耦裁剪等技术,有效提高了训练的稳定性和效率。

技术原理

  • MDP 形式化 :将 Agent 与环境的交互形式化为 MDP,其中状态和动作是 token 序列,支持 LLM 对环境动态进行推理。
  • StarPO 框架 :包含 Rollout 阶段和 Update 阶段。在 Rollout 阶段,LLM 生成多条推理引导的交互轨迹;在 Update 阶段,使用重要性采样优化整个轨迹的预期奖励,实现长远推理。
  • 渐进式奖励归一化策略 :为解决多轮训练中的不稳定性,引入了基于不确定性的过滤、移除 KL 惩罚和不对称 PPO 裁剪等策略。
  • 优化策略 :StarPO 支持多种强化学习算法,如 PPO 和 GRPO,适应不同的训练需求。

支持平台

RAGEN 支持多种环境,如 Sokoban、FrozenLake 等,并提供了添加自定义环境的接口,方便研究者进行实验。其代码结构经过优化,分为环境管理器、上下文管理器和代理代理三个模块,方便扩展和实验。

团队介绍

RAGEN 由西北大学、华盛顿大学、斯坦福大学、微软、纽约大学、新加坡管理大学和帝国理工学院等多所知名高校和机构的研究人员共同开发,这些研究人员在人工智能领域具有深厚的专业知识和丰富的研究经验。

项目资源

官网:https://ragen-ai.github.io/ ^1^

源码:https://github.com/RAGEN-AI/RAGEN ^1^

论文:https://ragen-ai.github.io/pdf/RAGEN.pdf ^1^

业务场景

  • 游戏娱乐 :可用于训练智能体在各种游戏中进行多轮决策和推理,如 Sokoban、FrozenLake 等,提高游戏的可玩性和挑战性。
  • 教育培训 :在教育领域,可开发智能辅导系统,根据学生的学习进度和反馈,进行个性化的教学指导和问题解答。
  • 金融领域 :可应用于金融风险评估、投资决策等方面,通过对市场数据的多轮分析和推理,为金融机构提供更准确的决策支持。
  • 医疗保健 :有助于开发医疗诊断辅助系统,智能体可以根据患者症状、病历等信息进行多轮推理,为医生提供诊断建议和治疗方案。
  • 智能机器人 :使机器人能够在复杂环境中进行多轮交互和决策,更好地完成任务,如导航、物体识别与操纵等。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注