InternVL3 – 重新定义多模态 AI 边界的开源模型

未分类 2025-06-22 23:53

InternVL3 是什么

InternVL3 是上海人工智能实验室开源的多模态大型语言模型系列，包含从 1B 到 78B 共 7 种参数规模的版本，创新性地采用原生多模态预训练方法，将文本、图像、视频等模态数据在统一框架下进行训练，突破了传统模型需要分别训练再对齐的局限，通过混合偏好优化算法和动态预处理技术，在保持强大语言能力的同时，显著提升了多模态理解与推理性能。

核心功能

多模态感知与推理 ：能同时处理文本、图像和视频等多种信息，展现出卓越的多模态感知和推理能力，可应用于图像分类、目标检测、视频描述生成等任务。
扩展的多模态能力 ：涵盖工具使用、GUI 代理、工业图像分析、3D 视觉感知等更多应用场景，比如作为图形用户界面智能体操作专业软件，处理建筑图纸理解、空间感知推理等复杂工业场景图像。
原生多模态预训练 ：将语言和多模态学习整合到同一个预训练阶段，提升了多模态能力的同时，也增强了纯语言能力。
长上下文理解 ：通过集成可变视觉位置编码（V2PE），在长上下文理解能力上表现更出色，能够处理超长视频或图文混合文档并保持高准确率。
高效部署与调用 ：可通过 LMDeploy 的 api_server 部署为 OpenAI 兼容 API，用户可以轻松调用模型。

技术原理

原生多模态预训练 ：与传统的先单独训练语言模型再适配多模态任务的方法不同，InternVL3 直接将大规模的多模态数据与纯文本数据混合训练，使模型能同时学习语言和视觉表示，在处理视觉语言任务时更加高效，无需额外的对齐模块。
监督微调 ：在微调阶段，使用了随机 JPEG 压缩、平方损失重加权和多模态数据打包等技术，进一步扩展了高质量的训练样本，增强模型在复杂场景下的稳健性。
混合偏好优化 ：引入 MPO 技术，结合偏好损失、质量损失和生成损失，通过引入正负样本的额外监督，使模型的输出更接近真实分布，减少推理过程中的偏差，从而显著提升了模型的推理性能。
动态预处理与多模态输入处理 ：支持动态预处理，能根据输入图像的宽高比动态调整图像大小并分割成多个小块，适应模型的输入要求，且支持多图输入、视频输入等多种多模态对话场景。

支持平台

InternVL3 支持多种平台，包括 Linux、macOS 等操作系统，以及 PyTorch 等深度学习框架，用户可以根据自身需求和开发环境进行选择和使用。

团队介绍

InternVL3 由上海人工智能实验室开发和维护，该团队在人工智能领域具有深厚的技术积累和丰富的研发经验，致力于推动人工智能技术的发展和应用，其研究成果在多个领域产生了广泛的影响。

项目资源

HuggingFace 模型库 ：https://huggingface.co/OpenGVLab/InternVL3-78B
技术论文 ：https://huggingface.co/papers/2504.10479 。

业务场景

图像和视频理解 ：可用于图像分类、目标检测、视频描述生成等任务，为内容创作和自动化编辑提供支持，比如自动生成图片或视频的描述文字，辅助视频制作人员进行创作。
智能交互与工具使用 ：支持工具使用和 GUI 代理功能，可以作为图形用户界面智能体，遵循指令操作电脑或手机上的专业软件，提高工作效率。
工业图像分析与 3D 视觉感知 ：能够处理复杂的工业场景图像，支持建筑图纸理解、空间感知推理等任务，助力工业领域的智能化发展，如对建筑图纸进行分析和审核，为建筑设计和施工提供参考。
智能客服与语言模型应用 ：基于其强大的语言生成能力，可用于开发智能客服系统，提供更高效、准确的客户支持，解答用户的问题，提升客户服务体验。