Dolphin – 开源多模态文档解析大模型
什么是Dolphin?
Dolphin是由字节跳动开发的一款开源多模态文档解析大模型,专注于高效处理复杂文档图像中的文本、表格、公式等元素。它通过创新的“先解析结构后解析内容”的两阶段方法,结合异构锚点提示技术,显著提升了解析精度和效率。Dolphin支持页面级和元素级解析,能够将文档图像转换为结构化的JSON或Markdown格式,适用于学术论文、金融报告、法律文件等多种场景。
核心功能
- 布局分析:识别文档中的各种元素(如标题、图表、表格、脚注等),按照自然阅读顺序生成元素序列。
- 内容提取:将整个文档页面解析为结构化的JSON格式或Markdown格式。
- 文本段落解析:准确识别和提取文档中的文本内容,支持多语言(如中文和英文)。
- 公式识别:支持复杂公式的识别,包括行内公式和块级公式,输出LaTeX格式。
- 表格解析:支持解析复杂的表格结构,提取单元格内容并生成HTML格式的表格。
- 轻量级架构:模型参数量为322M,体积小,运行速度快,适合在资源受限的环境中使用。
- 支持多种输入格式:支持处理多种类型的文档图像,包括学术论文、商业报告、技术文档等。
- 多样化的输出格式:支持将解析结果输出为JSON、Markdown、HTML等多种格式。
技术原理
Dolphin采用视觉编码器-解码器架构,视觉编码器使用Swin Transformer提取视觉特征,文本解码器基于MBart架构进行修改。其工作流程分为两阶段:
- 第一阶段:布局分析:利用Swin Transformer对文档页面进行分割和元素识别,按照自然阅读顺序生成元素序列。
- 第二阶段:内容解析:基于第一阶段提取的布局信息,并行处理每个元素的内容解析任务,通过异构锚点提示技术,针对不同类型的文档元素设计专门的提示词,从而提升解析效率和准确性。
支持平台
Dolphin支持多种平台和环境,包括但不限于:
- GitHub仓库:开发者可以通过GitHub获取Dolphin的源代码。
- Hugging Face模型库:Dolphin的预训练模型托管在Hugging Face,方便开发者直接使用。
- 本地部署:Dolphin支持在本地环境中部署,适合对数据隐私和安全有较高要求的场景。
团队介绍
Dolphin由字节跳动的AI团队开发。该团队在自然语言处理和计算机视觉领域拥有深厚的技术积累和丰富的实践经验,致力于推动多模态AI技术的发展。
项目资源
- 官方GitHub仓库:https://github.com/bytedance/Dolphin
- Hugging Face模型库:https://huggingface.co/ByteDance/Dolphin
- 技术论文:https://arxiv.org/pdf/2505.14059
- 在线体验Demo:http://115.190.42.15:8888/dolphin/
业务场景
Dolphin凭借其强大的文档解析能力,可以在多个领域发挥重要作用:
- 学术研究:用于论文和研究报告的自动化处理,帮助研究人员快速提取关键信息。
- 企业文档管理:实现复杂报表、合同等文档的智能解析与结构化存储。
- 教育领域:支持教材、试卷等教学资料的自动识别与分析。
- 法律服务:辅助律师快速处理各类法律文件,提取重要条款和信息。