AndroidGen – 开启智能代理新纪元

AndroidGen是什么

AndroidGen 是智谱技术团队推出的一款用于增强基于大语言模型(LLM)的智能代理(Agent)能力的框架,尤其在数据稀缺的情况下表现出色。该框架通过收集人类的任务轨迹,并基于这些轨迹训练语言模型,成功开发出无需人工标注的智能代理,极大地增强了 LLM 执行复杂任务的能力。

核心功能

  • 无需人工标注的数据收集与训练 :AndroidGen 能在无需人工标注轨迹的情况下,通过收集人类任务轨迹并基于这些轨迹训练语言模型,开发出高效的智能代理。
  • 增强代理的任务执行能力 :通过四个核心模块显著提升 LLM 执行复杂任务的能力。其中,ExpSearch(经验搜索)通过检索已完成的类似轨迹,帮助 LLM 进行上下文学习,从而提升 Agent 的能力,帮助其实现从简单任务到复杂任务的泛化;ReflectPlan(反思计划)对当前环境进行自我反思并更新计划状态,增强 Agent 的长期推理能力;AutoCheck(自动检查)主动验证每个 Agent 操作的有效性,降低因操作失误导致任务失败的风险;StepCritic(步骤评估)将任务分解为多个子目标,并提供逐步轨迹评估,为模型优化提供细粒度标签。
  • 高效的数据收集管道 :AndroidGen 建立了一个高效的数据收集管道,能够生成大量高质量的 Android 浏览轨迹。

技术原理

  • 模型训练 :利用 LoRA 技术,对自动构建的数据集进行微调,包括 GLM-4-9B 和 Llama-3-70B,从而得到 Android Agent 模型。无需人工标注轨迹,通过将轨迹中的每一步作为样本进行训练,充分挖掘数据集中的信息。同时,将规划与执行步骤结合进行微调,使 LLM 同时具备规划与执行的能力。
  • 数据收集流程 :基于 GPT-4o 从 AndroidWorld 中生成约 300 条任务指令,再基于 AndroidWorld 和 GPT-4o 对每个任务的轨迹进行采样,记录每一步的环境和操作信息,构建可复现的 Android 导航轨迹,接着使用 StepCritic 对记录的轨迹进行评估,确保每个子目标的完成,最终扩充高质量数据集,构建了一个包含 1000 多个轨迹的数据集。

支持平台

AndroidGen 主要支持 Android 平台,可在 Android 设备上实现智能化操作,为用户提供准确高效的任务执行能力。

团队介绍

AndroidGen 由智谱技术团队开发。该团队在人工智能领域具有深厚的技术积累和丰富的研发经验,成员来自清华大学等知名高校,致力于推动 AI 技术的创新与发展。其研发的多个 AI 产品和解决方案在行业内具有广泛的应用和影响力。

项目资源

  • 官网:https://androidgen.openi.com.cn/
  • 源码:https://github.com/thunlp/AndroidGen

业务场景

  • 自动化任务处理 :通过自然语言指令,智能代理能够自动完成发送邮件、设置提醒、查询信息等任务,提高工作效率,节省用户时间。
  • 跨应用操作 :智能代理能够在不同应用之间进行交互,实现如从一个应用复制数据到另一个应用等操作,打破应用之间的壁垒,提升用户体验。
  • 智能导航 :在 Android 设备上,智能代理能够根据用户指令进行导航,如打开特定应用、查找文件等,方便用户快速找到所需内容。
  • 智能交互 :通过自然语言理解,智能代理能够与用户进行互动,提供更加智能的用户体验,如智能客服、智能助手等场景,为用户提供更贴心的服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注