Dolphin:基于异构锚点提示的文档图像解析新星

你是否曾经为解析复杂文档图像中的文本段落、图表、公式和表格而头疼?Dolphin 的出现,旨在彻底解决这个问题。它是一个基于“分析后解析”范式的新型多模态文档图像解析模型,能够高效地将文档图像转换为结构化数据。本文将带你全面了解这一来自字节跳动的潜力项目。

截至收录:
Dolphin stars数:6435
Dolphin forks数:524

Dolphin项目目录截图

Dolphin核心亮点

🌟 两阶段解析范式:采用独特的“分析后解析”方法,首先生成自然阅读顺序的元素序列,再进行并行解析。
🎯 异构锚点提示:针对不同文档元素(文本、表格、公式)设计专用提示机制,提升解析精度。
⚡ 高效并行处理:轻量级架构结合并行解析机制,显著提升处理效率。
🤗 多框架支持:同时支持原生框架和Hugging Face Transformers,便于集成和使用。

Dolphin快速开始

只需几步,你就能开始使用Dolphin进行文档解析:

  1. 安装环境
    git clone https://github.com/ByteDance/Dolphin.git
    cd Dolphin
    pip install -r requirements.txt
  2. 下载预训练模型
    # 使用Hugging Face CLI下载
    pip install huggingface_hub
    huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model
  3. 运行页面级解析
    python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results

Dolphin应用场景

场景一:学术文档数字化:研究人员可使用Dolphin将论文PDF中的公式、表格和文本内容提取为结构化数据。
场景二:企业文档处理:帮助企业将扫描版合同、报告等文档快速转换为可编辑的Markdown或JSON格式。
场景三:教育资料整理:教师和学生可以方便地提取教材中的关键内容,用于制作学习资料。
技术优势:Dolphin在ACL 2025上发表,其创新性的异构锚点提示方法在文档解析任务上表现出色。

Dolphin项目链接

bytedance / Dolphin项目地址:https://github.com/bytedance/Dolphin

本文地址:https://www.tgoos.com/11689

声明:本站资源均整理自互联网,版权归原作者所有,仅供学习交流使用,请勿直接商用,若需商用请购买正版授权。因违规使用产生的版权及法律责任由使用者自负。部分资源可能包含水印或引流信息,请自行甄别。若链接失效可联系站长尝试补链。若侵犯您的权益,请邮件(将 # 替换为 @)至 feedback#tgoos.com,我们将及时处理删除。转载请保留原文链接,感谢支持原创。