DeepEyes – 多模态深度思考模型的创新与应用

DeepEyes是什么

DeepEyes是由小红书团队与西安交通大学联合研发的多模态深度思考模型,旨在通过“用图思考”的能力,实现视觉与文本信息的深度融合。该模型基于端到端强化学习技术,无需依赖传统的监督微调(SFT),即可在推理过程中动态调用图像工具(如裁剪和缩放),显著提升视觉推理的准确性和可靠性。

核心功能

DeepEyes具备以下核心功能:

  • 用图思考:模型能够将图像信息深度融入推理过程,不仅“看图”,还能“用图思考”,显著增强对细节的感知与理解。
  • 视觉搜索:在高分辨率图像中快速定位小物体或模糊区域,通过裁剪和缩放工具进行详细分析,提升搜索准确率。
  • 幻觉缓解:通过聚焦图像细节,减少模型生成回答时可能出现的幻觉现象,提升回答的准确性和可靠性。
  • 多模态推理:实现视觉与文本推理的无缝融合,在复杂任务中展现出强大的综合推理能力。
  • 动态工具调用:模型可根据需求自主决定何时调用图像处理工具,无需外部干预。

技术原理

DeepEyes的技术原理包括:

  • 端到端强化学习:通过奖励信号直接优化模型行为,无需冷启动监督微调(SFT),使模型自主学习如何在推理过程中有效利用图像信息。
  • 交错多模态思维链(iMCoT):支持模型在推理过程中动态交替使用视觉和文本信息,通过生成边界框坐标裁剪图像中的关键区域,将区域重新输入模型作为新的视觉证据。
  • 工具使用导向的数据选择:训练数据经过精心筛选,确保样本有效促进模型的工具调用能力,提升泛化能力。
  • 动态工具调用行为:模型的工具调用行为从初始探索逐步发展到高效利用,最终实现与人类类似的视觉推理过程。

支持平台

DeepEyes支持多种部署方式,包括在线演示平台、API调用以及本地部署。用户可以通过官方提供的在线DEMO页面体验其多模态推理能力,开发者也可以申请API调用权限,将模型集成到自己的应用中。

团队介绍

DeepEyes由小红书团队与西安交通大学联合研发。小红书团队在人工智能领域拥有丰富的技术积累和实践经验,而西安交通大学则在学术研究和技术创新方面提供了强大的支持。双方的合作使得DeepEyes在技术创新和实际应用中都取得了显著成果。

项目资源

业务场景

DeepEyes在多个领域展现了强大的应用潜力:

  • 医疗影像分析:辅助医生快速定位病灶位置,提高诊断效率。
  • 工业质检:对产品表面缺陷进行多尺度检测,降低漏检率。
  • 教育辅助:自动解析几何题目中的隐藏条件,或从教科书插图中构建知识图谱。
  • 自动驾驶:实时分析高分辨率道路图像,精准识别交通标志与行人位置。
  • 金融文档处理:提取复杂图表中的关键数据,辅助投资决策分析。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注