微信扫码
添加专属顾问
我要投稿
PDF数据处理太麻烦?MinerU帮你一键搞定,开源工具实测效果惊艳! 核心内容: 1. MinerU工具的功能与适用场景 2. 安装配置步骤与注意事项 3. 模型特点与性能优化建议
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。开源地址:
https://github.com/opendatalab/MinerU
建议一开始就在有GPU的机器上安装,纯CPU会比较慢
裸机安装,以 conda 隔离环境为例,依次执行如下命令:
conda create -n mineru 'python=3.12' -yconda activate minerupip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simplepip install modelscopewget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.pypython download_models.py
其中下载的模型放在这里:
# du -sh ~/.cache/modelscope/hub/models/*1.8G /root/.cache/modelscope/hub/models/opendatalab681M /root/.cache/modelscope/hub/models/ppaanngggg
应该是一个专为文档识别训练的小模型。
以上都是官方文档的安装步骤,下面是需要适配的部分:
mac下可能需要降级 Numpy 库到 1.x, 否则执行命令会有报错:
pip uninstall numpy -ypip install numpy==1.26.4
安装 libreoffice
# mac 环境:brew install libreoffice# ubuntu 环境:apt install libreoffice -y
安装后可以修改生成的配置文件: ~/magic-pdf.json,可以修改其中LLM辅助部分的配置:
"llm-aided-config": { "formula_aided": { "api_key": "your_api_key", "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1", "model": "qwen2.5-7b-instruct", "enable": false }, "text_aided": { "api_key": "your_api_key", "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1", "model": "qwen2.5-7b-instruct", "enable": false }, "title_aided": { "api_key": "your_api_key", "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1", "model": "qwen2.5-32b-instruct", "enable": false } },可以将里面的 enable 改为 true,并配置上自己能用的模型API接口。
如果要使用 GPU,修改其中的 device-mode 值为 cuda:
# grep device ~/magic-pdf.json "device-mode": "cuda",
命令样例:
magic-pdf \-p "./GAOKAO-2025-CME/2025年高考全国1卷数学高考真题解析(完整版)/" \-o GAOKAO-2025-CME-mineru/math
我们来看数学前3题的解析结果:
# 2025 年普通高等 (新 1 卷)家学习生活愉意事项:1.答卷前, 上 .用 2B 铅笔将试卷类型和考生号填涂在 答题相应位置上2.选择题每小题选出答案后,用 2B 铅 案不能答在试卷上.3.非选择题必须用黑色字迹的钢笔或案,不一 选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题上.1. 的虚部为( )A. B. 0 C. 1 D. 6【】答案】C【】解析】【】分析】【】详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为 1,故选:C.2. 设全集 $U = x { \big | }$ 0□9□□ ,集合 $\scriptstyle A = \{ 1 , 3 , 5 \}$ ,则 中元素个数为(A. 0 B. 3 C. 5 D. 8【】答案】C【】解析】【】分析】【】详解】因为 ,所以 $\Dot { \mathfrak { Q } } , A = 2 , 4 , 5 , 7 , 8$ , 中的元素个数为 ,故选:C.3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 C 的离心率为( )A. B. 2 C. D.## 【】答案】D【】解析】【】分析】由题可知双曲线中 的关系,结合 $\boldsymbol { a } ^ { z } + \boldsymbol { b } ^ { z } = \boldsymbol { c } ^ { z }$ 和离心率公式求解【】详解】 ,焦距分别为 $\mathsf { Z } a , \mathsf { Z } b , \mathsf { Z } c _ { \perp }$由题知, $b = \sqrt { 7 } a \prod$于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 \sqrt { 2 } a \ D$$\begin{array} { r } { \underline { \sf U } ^ { e } = \frac { c } { a } = 2 \sqrt { 2 } . } \end{array}$故选:D
结果不太理想。题干有丢失内容。选项有莫名其妙的字符
这个文档是 word 的,下面是转化为pdf后再解析的结果,好很多了:
# 2025 年普通高等学校招生全国统一考试(新 1 卷)★祝大家学习生活愉快★## 注意事项:1.答卷前,考生务必用黑色字迹的钢笔或签字笔将自己的姓名和考生号,试室号,座位号填写在答题卡上.用 2B 铅笔将试卷类型和考生号填涂在答题卡相应位置上.2.选择题每小题选出答案后,用 2B 铅笔把答题卡上对应的题目选项的答案信息点涂黑:如需改动,用橡皮擦干净后,再填涂其他答案.答案不能答在试卷上.3.非选择题必须用黑色字迹的钢笔或签字笔作答,答案必须写在答题卡各题目指定区域内相应位置上:如需改动,先划掉原来的答案,然后再写上新的答案,不准使用铅笔和涂改液.不按以上要求作答的答案无效.## 一、选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题给出的四个选项中,只有一个选项是正确的.请把正确的选项填涂在答题卡相应的位置上.1. $( 1 + 5 \mathrm { i } ) \mathrm { i }$ 的虚部为( )A. -1 B. 0 C. 1 D. 6【答案】C【解析】【分析】根据复数代数形式的运算法则以及虚部的定义即可求出.【详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为1,故选:C.2. 设全集 $U = { \Big \{ } x { \Big | } x$ 罂租谗9\$%窭窦},集合 $A = \{ 1 , 3 , 5 \}$ ,则 $_ U { \cal A }$ 中元素个数为( )A. 0 B. 3 C. 5 D. 8【答案】C【解析】【分析】根据补集的定义即可求出【详解】因为 $U = \left\{ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 \right\}$ ,所以 $_ { U } A = \{ 2 , 4 , 6 , 7 , 8 \}$ , $_ U { \cal A }$ 中的元素个数为5,故选:C3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 $C$ 的离心率为( )A. $\sqrt { 2 }$ B. 2 C. $\sqrt { 7 }$ D. 2 2【答案】D【解析】【分析】由题可知双曲线中 $^ { a , b }$ 的关系,结合 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 }$ 和离心率公式求解【详解】设双曲线的实轴,虚轴,焦距分别为 $2 a , 2 b , 2 c$ ,由题知, $b = { \sqrt { 7 } } a$ ,于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 { \sqrt { 2 } } a$ ,即 $e = { \frac { c } { a } } = 2 { \sqrt { 2 } }$ .故选:D
另一个pdf版本:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-30
开源可信MCP,AICC机密计算新升级!
2025-10-30
OpenAI 开源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
2025-10-29
刚刚,OpenAI 再次开源!安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5
2025-10-29
AI本地知识库+智能体系列:手把手教你本地部署 n8n,一键实现自动采集+智能处理!
2025-10-29
n8n如何调用最近爆火的deepseek OCR?
2025-10-29
OpenAI终于快要上市了,也直面了这23个灵魂拷问。
2025-10-29
保姆级教程:我用Coze干掉了最烦的周报
2025-10-29
维基百科,终结了!马斯克开源版上线,用AI重写「真相」
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-08-06
2025-10-20
2025-08-22
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07