MinerU是什么

MinerU是一款将PDF转换为机器可读格式(例如Markdown、JSON)的工具,可轻松提取为任何格式。MinerU诞生于InternLM的预训练过程中,专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展做出贡献。与知名商业产品相比,MinerU还很年轻。如果您遇到任何问题或结果不如预期,请在issue上提交问题并附上相关PDF。

MinerU截图展示

MinerU主要功能

  • 删除页眉、页脚、脚注、页码等,以确保语义一致性。
  • 以人类可读的顺序输出文本,适用于单列、多列和复杂布局。
  • 保留原始文档的结构,包括标题、段落、列表等。
  • 提取图像、图像描述、表格、表格标题和脚注。
  • 自动识别文档中的公式并转换为LaTeX格式。
  • 自动识别文档中的表格并转换为HTML格式。
  • 自动检测扫描的PDF和乱码PDF并启用OCR功能。
  • OCR支持84种语言的检测和识别。
  • 支持多种输出格式,如多模式和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。
  • 支持多种可视化结果,包括布局可视化、跨度可视化,可有效确认输出质量。
  • 支持CPU和GPU环境。
  • 兼容Windows、Linux和Mac平台。

MinerU官网

https://github.com/opendatalab/MinerU

声明:本站资源均整理自互联网,版权归原作者所有,仅供学习交流使用,请勿直接商用,若需商用请购买正版授权。因违规使用产生的版权及法律责任由使用者自负。部分资源可能包含水印或引流信息,请自行甄别。若链接失效可联系站长尝试补链。若侵犯您的权益,请邮件(将 # 替换为 @)至 feedback#tgoos.com,我们将及时处理删除。转载请保留原文链接,感谢支持原创。