InternVL3 – 重新定义多模态 AI 边界的开源模型
InternVL3 是什么
InternVL3 是上海人工智能实验室开源的多模态大型语言模型系列,包含从 1B 到 78B 共 7 种参数规模的版本,创新性地采用原生多模态预训练方法,将文本、图像、视频等模态数据在统一框架下进行训练,突破了传统模型需要分别训练再对齐的局限,通过混合偏好优化算法和动态预处理技术,在保持强大语言能力的同时,显著提升了多模态理解与推理性能。
核心功能
- 多模态感知与推理 :能同时处理文本、图像和视频等多种信息,展现出卓越的多模态感知和推理能力,可应用于图像分类、目标检测、视频描述生成等任务。
- 扩展的多模态能力 :涵盖工具使用、GUI 代理、工业图像分析、3D 视觉感知等更多应用场景,比如作为图形用户界面智能体操作专业软件,处理建筑图纸理解、空间感知推理等复杂工业场景图像。
- 原生多模态预训练 :将语言和多模态学习整合到同一个预训练阶段,提升了多模态能力的同时,也增强了纯语言能力。
- 长上下文理解 :通过集成可变视觉位置编码(V2PE),在长上下文理解能力上表现更出色,能够处理超长视频或图文混合文档并保持高准确率。
- 高效部署与调用 :可通过 LMDeploy 的 api_server 部署为 OpenAI 兼容 API,用户可以轻松调用模型。
技术原理
- 原生多模态预训练 :与传统的先单独训练语言模型再适配多模态任务的方法不同,InternVL3 直接将大规模的多模态数据与纯文本数据混合训练,使模型能同时学习语言和视觉表示,在处理视觉语言任务时更加高效,无需额外的对齐模块。
- 监督微调 :在微调阶段,使用了随机 JPEG 压缩、平方损失重加权和多模态数据打包等技术,进一步扩展了高质量的训练样本,增强模型在复杂场景下的稳健性。
- 混合偏好优化 :引入 MPO 技术,结合偏好损失、质量损失和生成损失,通过引入正负样本的额外监督,使模型的输出更接近真实分布,减少推理过程中的偏差,从而显著提升了模型的推理性能。
- 动态预处理与多模态输入处理 :支持动态预处理,能根据输入图像的宽高比动态调整图像大小并分割成多个小块,适应模型的输入要求,且支持多图输入、视频输入等多种多模态对话场景。
支持平台
InternVL3 支持多种平台,包括 Linux、macOS 等操作系统,以及 PyTorch 等深度学习框架,用户可以根据自身需求和开发环境进行选择和使用。
团队介绍
InternVL3 由上海人工智能实验室开发和维护,该团队在人工智能领域具有深厚的技术积累和丰富的研发经验,致力于推动人工智能技术的发展和应用,其研究成果在多个领域产生了广泛的影响。
项目资源
- HuggingFace 模型库 :https://huggingface.co/OpenGVLab/InternVL3-78B
- 技术论文 :https://huggingface.co/papers/2504.10479 。
业务场景
- 图像和视频理解 :可用于图像分类、目标检测、视频描述生成等任务,为内容创作和自动化编辑提供支持,比如自动生成图片或视频的描述文字,辅助视频制作人员进行创作。
- 智能交互与工具使用 :支持工具使用和 GUI 代理功能,可以作为图形用户界面智能体,遵循指令操作电脑或手机上的专业软件,提高工作效率。
- 工业图像分析与 3D 视觉感知 :能够处理复杂的工业场景图像,支持建筑图纸理解、空间感知推理等任务,助力工业领域的智能化发展,如对建筑图纸进行分析和审核,为建筑设计和施工提供参考。
- 智能客服与语言模型应用 :基于其强大的语言生成能力,可用于开发智能客服系统,提供更高效、准确的客户支持,解答用户的问题,提升客户服务体验。