Dolphin异构锚点提示文档图像解析模型，高效提取文本表格公式结构化数据-tgoo分享

Dolphin：基于异构锚点提示的文档图像解析新星

你是否曾经为解析复杂文档图像中的文本段落、图表、公式和表格而头疼？Dolphin 的出现，旨在彻底解决这个问题。它是一个基于“分析后解析”范式的新型多模态文档图像解析模型，能够高效地将文档图像转换为结构化数据。本文将带你全面了解这一来自字节跳动的潜力项目。

截至收录：
Dolphin stars数：6435
Dolphin forks数：524

Dolphin项目目录截图

Dolphin核心亮点

🌟 两阶段解析范式：采用独特的“分析后解析”方法，首先生成自然阅读顺序的元素序列，再进行并行解析。
🎯 异构锚点提示：针对不同文档元素（文本、表格、公式）设计专用提示机制，提升解析精度。
⚡ 高效并行处理：轻量级架构结合并行解析机制，显著提升处理效率。
🤗 多框架支持：同时支持原生框架和Hugging Face Transformers，便于集成和使用。

Dolphin快速开始

只需几步，你就能开始使用Dolphin进行文档解析：

安装环境：

git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin
pip install -r requirements.txt

下载预训练模型：

# 使用Hugging Face CLI下载
pip install huggingface_hub
huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model

运行页面级解析：

python demo_page_hf.py --model_path ./hf_model --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results

Dolphin应用场景

场景一：学术文档数字化：研究人员可使用Dolphin将论文PDF中的公式、表格和文本内容提取为结构化数据。
场景二：企业文档处理：帮助企业将扫描版合同、报告等文档快速转换为可编辑的Markdown或JSON格式。
场景三：教育资料整理：教师和学生可以方便地提取教材中的关键内容，用于制作学习资料。
技术优势：Dolphin在ACL 2025上发表，其创新性的异构锚点提示方法在文档解析任务上表现出色。

Dolphin项目链接

bytedance / Dolphin项目地址：https://github.com/bytedance/Dolphin

本文地址：https://www.tgoos.com/11689

声明：本站资源均整理自互联网，版权归原作者所有，仅供学习交流使用，请勿直接商用，若需商用请购买正版授权。因违规使用产生的版权及法律责任由使用者自负。部分资源可能包含水印或引流信息，请自行甄别。若链接失效可联系站长尝试补链。若侵犯您的权益，请邮件（将 # 替换为 @）至 feedback#tgoos.com，我们将及时处理删除。转载请保留原文链接，感谢支持原创。

Dolphin异构锚点提示文档图像解析模型，高效提取文本表格公式结构化数据

Dolphin：基于异构锚点提示的文档图像解析新星

Dolphin项目目录截图

Dolphin核心亮点

Dolphin快速开始

Dolphin应用场景

Dolphin项目链接

加入收藏夹

设为首页

近期文章

Conar开源AI数据库交互工具，用自然语言智能生成与优化SQL查询

OpenBB开源金融数据平台，整合多源数据赋能量化分析与AI智能体

Scrapling智能Python网络爬虫库，自适应反爬与高性能数据抓取

FossFLOW开源等距基础设施绘图工具，用代码轻松绘制专业架构图

DeepSeek OCR App开源智能文档识别工具，支持PDF转Markdown与多格式导出

OpenAI Cookbook官方API指南与代码示例库，快速上手GPT应用开发

Metabase开源商业智能平台，零代码数据探索与嵌入式分析利器

TrendRadar全网热点监控工具，30秒部署的智能信息聚合与推送助手

v2ray-wss一键部署脚本：快速搭建V2Ray、Reality等多协议代理服务

LidAngleSensor开源MacBook屏幕角度读取工具，支持趣味音效互动

Dolphin异构锚点提示文档图像解析模型，高效提取文本表格公式结构化数据

Dolphin：基于异构锚点提示的文档图像解析新星

Dolphin项目目录截图

Dolphin核心亮点

Dolphin快速开始

Dolphin应用场景

Dolphin项目链接

相关文章

近期文章

标签云