AgentCPM-GUI – 开源端侧GUI智能体模型的创新突破
AgentCPM-GUI是由清华大学与面壁智能团队联合开发的一款开源端侧图形用户界面(GUI)代理工具,专为中文应用进行深度优化。基于MiniCPM-V模型(80亿参数),AgentCPM-GUI能够接收智能手机屏幕截图作为输入,并自主完成用户指定的任务。通过对大规模中文安卓应用界面数据的预训练,该模型显著提升了对GUI元素的理解和定位能力,成为首个针对中文应用进行精细优化的开源GUI代理。
核心功能
AgentCPM-GUI的主要功能包括:
- 中文应用操作:能够理解并操作多种主流中文应用程序,如高德地图、大众点评、哔哩哔哩和小红书等。
- 任务自动化执行:接受用户指令后,自动拆分任务步骤,并在相应应用中准确执行,例如点单、播放视频等。
- 高质量GUI定位:能够精准识别屏幕上的按钮、输入框、标签等各类GUI控件,确保操作的准确性。
- OCR定位与识别:具备强大的文本识别能力,可以根据屏幕上显示的文字内容执行对应的操作。
技术原理
AgentCPM-GUI的技术架构包括:
- 预训练机制:基于大规模中文安卓应用界面数据进行预训练,覆盖按钮、输入框、标签、图标等常见GUI控件。通过高质量的GUI Grounding预训练,显著提升了模型对视觉元素的理解和定位能力,同时具备OCR Grounding能力,能够精准识别屏幕中的文本内容。
- 强化微调(RFT):采用创新性的奖励机制设计,在动作格式、类型和参数三个维度定义奖励函数,引导模型生成高质量的思维链过程。通过奖励函数的反馈,模型不断优化策略,最终实现更高的任务执行成功率。
- 紧凑的动作空间设计:基于简洁的JSON格式,将平均动作长度压缩至9.7个token,有效降低了推理时的计算和内存消耗。这种紧凑的设计使得模型更加适合在移动设备上部署,显著提升了端侧推理效率,并更好地保障了用户隐私安全。
支持平台
AgentCPM-GUI主要面向Android生态系统,支持多种主流中文应用。其紧凑的动作空间设计和高效的推理能力使其能够在普通Android设备上快速响应,运行体验接近原生应用。
团队介绍
AgentCPM-GUI由清华大学自然语言处理实验室(THUNLP)与面壁智能团队联合开发。清华大学在自然语言处理和人工智能领域具有深厚的技术积累,而面壁智能则在模型优化和应用开发方面拥有丰富的经验。双方的合作为AgentCPM-GUI的研发提供了强大的技术支持。
项目资源
- GitHub仓库:https://github.com/OpenBMB/AgentCPM-GUI
- HuggingFace模型库:https://huggingface.co/openbmb/AgentCPM-GUI
业务场景
AgentCPM-GUI在多个业务场景中展现出强大的应用潜力:
- 导航与路线规划:在高德地图中,用户可以通过语音指令让AgentCPM-GUI自动规划路线并导航。
- 内容浏览与信息获取:在哔哩哔哩上,用户可以通过指定指令让AgentCPM-GUI自动浏览视频内容,检查UP主是否更新。
- 生活服务预订:在大众点评中,用户可以通过截图和指令快速获取餐厅信息并完成预订。