我要投稿

PDF文档解析--MinerU

发布日期：2025-06-21 13:45:55 浏览次数： 2728

作者：虎sir的AI技术博客

微信搜一搜，关注“虎sir的AI技术博客”

MinerU是一款将PDF转化为机器可读格式的工具（如markdown、json），可以很方便地抽取为任意格式。A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

主要功能

删除页眉、页脚、脚注、页码等元素，确保语义连贯
输出符合人类阅读顺序的文本，适用于单栏、多栏及复杂排版
保留原文档的结构，包括标题、段落、列表等
提取图像、图片描述、表格、表格标题及脚注
自动识别并转换文档中的公式为LaTeX格式
自动识别并转换文档中的表格为HTML格式
自动检测扫描版PDF和乱码PDF，并启用OCR功能
OCR支持84种语言的检测与识别
支持多种输出格式，如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
支持多种可视化结果，包括layout可视化、span可视化等，便于高效确认输出效果与质检
支持纯CPU环境运行，并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
兼容Windows、Linux和Mac平台

MinerU 2.0 是一次从架构到功能的全面重构与升级，带来了更简洁的设计、更强的性能以及更灵活的使用体验。

Python 包名从 magic-pdf 更改为 mineru，命令行工具也由 magic-pdf 改为 mineru，请同步更新脚本与调用命令。
出于对系统模块化设计与生态一致性的考虑，MinerU 2.0 已不再内置 LibreOffice 文档转换模块。如需处理 Office 文档，建议通过独立部署的 LibreOffice 服务先行转换为 PDF 格式，再进行后续解析操作。

小模型，大能力
：模型参数不足 1B，却在解析精度上超越传统 72B 级别的视觉语言模型（VLM）。
多功能合一
：单模型覆盖多语言识别、手写识别、版面分析、表格解析、公式识别、阅读顺序排序等核心任务。
极致推理速度
：在单卡 NVIDIA 4090 上通过 sglang 加速，达到峰值吞吐量超过 10,000 token/s，轻松应对大规模文档处理需求。
在线体验
：您可在我们的huggingface demo上在线体验该模型：

去除第三方依赖限制
：彻底移除对 pymupdf 的依赖，推动项目向更开放、合规的开源方向迈进。
开箱即用，配置便捷
：无需手动编辑 JSON 配置文件，绝大多数参数已支持命令行或 API 直接设置。
模型自动管理
：新增模型自动下载与更新机制，用户无需手动干预即可完成模型部署。
离线部署友好
：提供内置模型下载命令，支持完全断网环境下的部署需求。
代码结构精简
：移除数千行冗余代码，简化类继承逻辑，显著提升代码可读性与开发效率。
统一中间格式输出
：采用标准化的 middle_json 格式，兼容多数基于该格式的二次开发场景，确保生态业务无缝迁移。

全新架构
：MinerU 2.0 在代码结构和交互方式上进行了深度重构，显著提升了系统的易用性、可维护性与扩展能力。
全新模型
：MinerU 2.0 集成了我们最新研发的小参数量、高性能多模态文档解析模型，实现端到端的高速、高精度文档理解。
不兼容变更说明
:为提升整体架构合理性与长期可维护性，本版本包含部分不兼容的变更：

对比分析：

功能性上：

1. 传统的 PDF 解析库功能性上支持比较差，在 OCR, 提取表格内容，保留文本顺序，提取图片，保存为md格式上会缺少支持；比如：pymypdf，pdfminer，pdfplumber, pypdf2;

2. 比较新，比较常用的 PDF 开源工具，*** deepdoc， MinerU*** 的功能性支持比较好；

当前被使用度：

整体来说 deepdoc 和 MinerU 比较有名，很多 RAG 项目有在用：

1. 比如 Ragflow 用的deepdoc; 本身就是同一个开源团队做的工作；

2. 最近，MinerU 现在被很多项目接入了，在通用开源领域的衔接

势头不错；比如dify 联合开发了MinerU 的插件，便于使用；

目处理流程和框架：

处理流程：

1. 预处理：

文档预处理。此阶段使用 PyMuPDF https://github.com/pymupdf/PyMuPDF读取 PDF 文件，

1. 过滤出无法处理的文件（例如加密文件）

2. 包括文档的可解析性（分为可解析 PDF 和扫描 PDF）

3. 语言类型检测（也可手输入）；目前只支持中英文；

4. 提取 PDF 元数据：如总页数、页面尺寸（宽度和高度）以及其他相关属性。

2. 文档内容解析：

此阶段采用 PDF-Extract-Kit，一个高质量的 PDF 文档提取算法库，来解析关键文档内容。

共调用5个模型：

1. 首先进行布局分析，包括布局和公式检测。

选用：doclayout_yolo；

2. 然后针对不同区域应用不同的识别器：

1. OCR 用于文本和标题：

2. 公式检测和公式识别用于公式。分别调用： yolo_v8_mfd， unimernet_small（UniMERNet）；

3. 表格识别用于表格。模型：调用了 rapidtable库下的 unitable；slanet_plus；老版本还支持：TableMaster和StructEqTable

3.文档内容后处理：

基于第二阶段的输出，本阶段移除无效区域，根据区域定位信息拼接内容，最终获取不同文档区域的定位、内容和排序信息。

后处理阶段主要解决内容排序问题。因为模型输出的文本、图像、表格和公式框之间可能存在重叠，以及通过 OCR 或 API 获取的文本行之间频繁重叠，对文本和元素进行排序是一个重大挑战；

1. 布局识别类型识别框重叠问题：

采用了 BBox 关系的解决方案包括以下方面：

1. 包含关系。移除图像和表格区域以及公式框内包含的框（公式和文本块）。

2. 部分重叠关系。部分重叠的文本框在垂直和水平方向上收缩以避免相互覆盖，确保最终位置和内容不受影响，从而促进后续排序操作。对于文本与表格/图像的部分重叠，通过暂时忽略图像和表格来确保文本的完整性。

2. 顺序问题：

排序基于人类阅读的顺序；上到下，左到右；

4. 格式转换：

根据文档后处理的结果，可以为后续使用生成用户所需的多种格式，例如 Markdown。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-20

13人团队叫板Anthropic：我们造了一个更快更便宜的大模型

2026-06-20

微信左上角长出“两只眼睛”：小微测试版，可能是微信 AI 化最关键的一步

2026-06-20

Agent Skill 管理范式探索：像管理软件包一样管理 Agent 能力

2026-06-18

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

多 Agent 并行与 Headless 模式：让 Claude Code 效率翻 10 倍

2026-06-17

拆解大模型几项核心操作背后的数学与 Infra 优化逻辑

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部