Amazon Nova Act – 重塑网页操作的 AI 代理
Amazon Nova Act 是什么
Amazon Nova Act 是亚马逊 AGI 实验室研发的通用网页操作智能体,于 2025 年 4 月 1 日推出研究预览版。其核心突破在于将人类经验转化为可编程的浏览器原子操作,不同于传统 RPA 工具,能理解模糊指令并自动分解为精准动作,如理解 “下个月每周三下午 3 点订会议室” 并分解为日历跳转、时间选择等操作。该系统采用 “人类示范 - AI 学习 - 自动优化” 的三阶段训练模式,开发者可通过 SDK 快速构建定制化智能体,其在机票预订场景中,任务完成速度比人工操作快 15 倍,且能自动规避附加保险等商业陷阱。
核心功能
- 任务原子化 :将复杂任务如 “提交报销” 拆解为登录系统、上传发票、填写金额等基础操作链,提升任务执行的可靠性和效率。
- 意图理解增强 :支持 “避开高峰时段” 等语义约束,自动选择最优时间窗口,确保任务按用户预期执行。
- 多线程引擎 :可并行处理日历管理、邮件收发等独立任务,资源利用率提升 80%,如同时处理请假申请、餐厅预订和邮件回复。
- 沙盒调试 :提供可视化执行轨迹回放,方便快速定位表单填写失败等异常节点。
- 网页精准操控 :通过自然语言指令点击按钮、填写表单、导航页面,支持主流 Web 框架和传统 HTML 页面。
- 数据提取与整合 :从网页结构化提取信息并生成报告,便于后续分析和处理。
技术原理
- 混合解析架构 :BERT 模型理解用户指令,XPath 定位网页元素,形成操作指令树,准确解析网页结构和用户意图。
- 浏览器操作抽象层 :基于 Playwright 封装 300 + 基础动作,支持动态页面元素捕获,实现对浏览器的精准操控。
- 强化学习优化器 :通过蒙特卡洛树搜索选择最优操作路径,持续降低任务失败率,如在预订餐厅遇错时调整策略。
- 分布式执行监控 :每个原子操作独立容错,失败时自动触发备用方案切换,确保任务整体的顺利完成。
支持平台
Amazon Nova Act 主要运行在网页浏览器环境中,支持主流的 Web 框架如 React 和 Vue 等,以及传统的 HTML 页面,可广泛应用于各种基于网页的操作场景。
团队介绍
Amazon Nova Act 由亚马逊 AGI 实验室开发,该实验室由前 OpenAI 研究员 David Luan 和 Pieter Abbeel 共同领导。这两位专家在被亚马逊聘用主导 AI 智能体研发工作之前,分别创立了 AI 初创公司 Adept 和 Covariant。
项目资源
业务场景
- 电商购物 :用户可通过简单指令让 Nova Act 完成商品搜索、筛选、下单等操作,还能设置如 “不要接受保险推销” 等特殊要求,提升购物体验和效率。
- 办公自动化 :帮助员工自动处理日常办公流程,如提交请假申请、费用报销、日历管理等,节省时间和精力,提高工作效率。
- 旅行预订 :根据用户需求自动预订机票、酒店、餐厅等,快速准确地完成各项预订任务,方便出行安排。
- 客户服务 :在客服领域,可自动回答常见问题、处理客户咨询和投诉,提供 24/7 的在线服务,提升客户满意度。
- 信息获取与整理 :从各个网页中提取所需信息,如新闻资讯、行业数据等,并进行整理和汇总,为用户提供全面准确的信息支持。