DeepEyes – 多模态深度思考模型的创新与应用

未分类 2025-06-22 13:42

DeepEyes是由小红书团队与西安交通大学联合研发的多模态深度思考模型，旨在通过“用图思考”的能力，实现视觉与文本信息的深度融合。该模型基于端到端强化学习技术，无需依赖传统的监督微调（SFT），即可在推理过程中动态调用图像工具（如裁剪和缩放），显著提升视觉推理的准确性和可靠性。

DeepEyes具备以下核心功能：

DeepEyes的技术原理包括：

端到端强化学习：通过奖励信号直接优化模型行为，无需冷启动监督微调（SFT），使模型自主学习如何在推理过程中有效利用图像信息。
交错多模态思维链（iMCoT）：支持模型在推理过程中动态交替使用视觉和文本信息，通过生成边界框坐标裁剪图像中的关键区域，将区域重新输入模型作为新的视觉证据。
工具使用导向的数据选择：训练数据经过精心筛选，确保样本有效促进模型的工具调用能力，提升泛化能力。
动态工具调用行为：模型的工具调用行为从初始探索逐步发展到高效利用，最终实现与人类类似的视觉推理过程。

DeepEyes支持多种部署方式，包括在线演示平台、API调用以及本地部署。用户可以通过官方提供的在线DEMO页面体验其多模态推理能力，开发者也可以申请API调用权限，将模型集成到自己的应用中。

DeepEyes由小红书团队与西安交通大学联合研发。小红书团队在人工智能领域拥有丰富的技术积累和实践经验，而西安交通大学则在学术研究和技术创新方面提供了强大的支持。双方的合作使得DeepEyes在技术创新和实际应用中都取得了显著成果。

DeepEyes在多个领域展现了强大的应用潜力：