Dolphin – 开源多模态文档解析大模型

Dolphin是什么

Dolphin是由字节跳动开源的多模态文档图像解析模型,于 2025 年 5 月 19 日发布,专为处理包含文本、表格、图形和公式等交织元素的复杂文档图像而设计,采用创新的分析 - 解析范式,通过两阶段方法实现高效解析,第一阶段进行页面级布局分析,生成自然阅读顺序的元素序列,第二阶段利用异构锚点和任务特定提示并行解析不同元素。

核心功能

  • 两阶段解析 :先进行页面级布局分析,识别文档中的各种元素并按自然阅读顺序生成元素序列,再利用异构锚点和任务特定提示并行解析文本、表格、图形和公式等不同元素,提升处理效率。
  • 多模态处理 :能够处理文档图像中的文本段落、表格、图形和公式等多种元素,全面解析复杂文档内容,并将解析结果输出为结构化的 JSON 和 Markdown 格式,方便后续处理和集成。
  • 轻量级与高效 :模型参数量为 322M 或 398M 等不同版本,体积小、运行速度快,适合在资源受限的环境中使用,且支持 I64 和 FP16 张量类型,适合多种硬件环境部署。

技术原理

Dolphin 基于视觉编码器 - 解码器架构,其视觉编码器采用 Swin Transformer 提取视觉特征,该 Transformer 以层级化的特征表示和高效的移位窗口自注意力机制著称,能捕捉图像的全局布局信息和局部细节特征。文本解码器基于 MBart 架构进行修改,通过交叉注意力机制有效融合视觉特征和输入的文本提示,将视觉信息 “翻译” 成相应的语言描述。此外,Dolphin 还引入异构锚点提示技术,在第二阶段的元素级内容解析中,为不同类型的文档元素设计专门的提示词,以引导模型准确识别和解析元素内容及其结构关系。

支持平台

Dolphin 以 MIT 许可证发布,托管在 Hugging Face,并通过 GitHub 提供详细代码和使用说明,与 Transformers 库无缝集成,方便开发者快速集成到项目中。

团队介绍

Dolphin 由字节跳动的团队开发,字节跳动在人工智能领域尤其是自然语言处理和计算机视觉方面有着深厚的技术积累和丰富的产品实践,其团队成员在多模态模型的研发和优化方面具有专业的技术能力,使得 Dolphin 能够在文档解析领域表现出色。

项目资源

业务场景

  • 学术研究 :解析论文中的文本、公式和图表,助力文献整理和数据分析,帮助研究人员快速提取关键信息。
  • 商业办公 :提取商业文档的关键信息,便于合同审查和报告生成,可用于解析商业报表、合同等文档,实现复杂报表、合同等文档的智能解析与结构化存储。
  • 教育领域 :将教材和试卷数字化,支持在线学习和多语言教学,可用于教材、试卷等教学资料的自动识别与分析。
  • 法律服务 :辅助律师快速处理各类法律文件,提取重要条款和信息,可用于解析法律文件。
  • 文档数字化 :将扫描文档、数字 PDF 或其他图像格式的文档转换为可搜索的数字格式,适用于档案管理或电子化流程。
  • 数据提取 :从复杂文档中提取特定数据点,如表格中的数值或公式中的变量,适合数据分析或数据库录入。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注