微信扫码
添加专属顾问
我要投稿
PDF数据处理太麻烦?MinerU帮你一键搞定,开源工具实测效果惊艳! 核心内容: 1. MinerU工具的功能与适用场景 2. 安装配置步骤与注意事项 3. 模型特点与性能优化建议
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。开源地址:
https://github.com/opendatalab/MinerU
建议一开始就在有GPU的机器上安装,纯CPU会比较慢
裸机安装,以 conda 隔离环境为例,依次执行如下命令:
conda create -n mineru 'python=3.12' -yconda activate minerupip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simplepip install modelscopewget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.pypython download_models.py
其中下载的模型放在这里:
# du -sh ~/.cache/modelscope/hub/models/*1.8G /root/.cache/modelscope/hub/models/opendatalab681M /root/.cache/modelscope/hub/models/ppaanngggg
应该是一个专为文档识别训练的小模型。
以上都是官方文档的安装步骤,下面是需要适配的部分:
mac下可能需要降级 Numpy 库到 1.x, 否则执行命令会有报错:
pip uninstall numpy -y
pip install numpy==1.26.4
安装 libreoffice
# mac 环境:brew install libreoffice# ubuntu 环境:apt install libreoffice -y
安装后可以修改生成的配置文件: ~/magic-pdf.json,可以修改其中LLM辅助部分的配置:
"llm-aided-config": { "formula_aided": { "api_key": "your_api_key", "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1", "model": "qwen2.5-7b-instruct", "enable": false }, "text_aided": { "api_key": "your_api_key", "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1", "model": "qwen2.5-7b-instruct", "enable": false }, "title_aided": { "api_key": "your_api_key", "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1", "model": "qwen2.5-32b-instruct", "enable": false } },
可以将里面的 enable 改为 true,并配置上自己能用的模型API接口。
如果要使用 GPU,修改其中的 device-mode 值为 cuda:
# grep device ~/magic-pdf.json "device-mode": "cuda",
命令样例:
magic-pdf \-p "./GAOKAO-2025-CME/2025年高考全国1卷数学高考真题解析(完整版)/" \-o GAOKAO-2025-CME-mineru/math
我们来看数学前3题的解析结果:
# 2025 年普通高等 (新 1 卷)家学习生活愉
意事项:
1.答卷前, 上 .用 2B 铅笔将试卷类型和考生号填涂在 答题相应位置上
2.选择题每小题选出答案后,用 2B 铅 案不能答在试卷上.
3.非选择题必须用黑色字迹的钢笔或
案,不
一 选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题
上.
1. 的虚部为( )
A. B. 0 C. 1 D. 6
【】答案】C
【】解析】【】分析】
【】详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为 1,
故选:C.
2. 设全集 $U = x { \big | }$ 0□9□□ ,集合 $\scriptstyle A = \{ 1 , 3 , 5 \}$ ,则 中元素个数为(
A. 0 B. 3 C. 5 D. 8
【】答案】C
【】解析】
【】分析】
【】详解】因为 ,所以 $\Dot { \mathfrak { Q } } , A = 2 , 4 , 5 , 7 , 8$ , 中的元素个数为 ,
故选:C.
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 C 的离心率为( )
A. B. 2 C. D.
## 【】答案】D
【】解析】
【】分析】由题可知双曲线中 的关系,结合 $\boldsymbol { a } ^ { z } + \boldsymbol { b } ^ { z } = \boldsymbol { c } ^ { z }$ 和离心率公式求解
【】详解】 ,焦距分别为 $\mathsf { Z } a , \mathsf { Z } b , \mathsf { Z } c _ { \perp }$
由题知, $b = \sqrt { 7 } a \prod$
于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 \sqrt { 2 } a \ D$
$\begin{array} { r } { \underline { \sf U } ^ { e } = \frac { c } { a } = 2 \sqrt { 2 } . } \end{array}$
故选:D
结果不太理想。题干有丢失内容。选项有莫名其妙的字符
这个文档是 word 的,下面是转化为pdf后再解析的结果,好很多了:
# 2025 年普通高等学校招生全国统一考试(新 1 卷)
★祝大家学习生活愉快★
## 注意事项:
1.答卷前,考生务必用黑色字迹的钢笔或签字笔将自己的姓名和考生号,试室号,座位号填写在答题卡上.用 2B 铅笔将试卷类型和考生号填涂在答题卡相应位置上.
2.选择题每小题选出答案后,用 2B 铅笔把答题卡上对应的题目选项的答案信息点涂黑:如需改动,用橡皮擦干净后,再填涂其他答案.答案不能答在试卷上.
3.非选择题必须用黑色字迹的钢笔或签字笔作答,答案必须写在答题卡各题目指定区域内相应位置上:如需改动,先划掉原来的答案,然后再写上新的答案,不准使用铅笔和涂改液.不按以上要求作答的答案无效.
## 一、选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题给出的四个选项中,只有一个选项是正确的.请把正确的选项填涂在答题卡相应的位置上.
1. $( 1 + 5 \mathrm { i } ) \mathrm { i }$ 的虚部为( )
A. -1 B. 0 C. 1 D. 6
【答案】C【解析】
【分析】根据复数代数形式的运算法则以及虚部的定义即可求出.
【详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为1,故选:C.
2. 设全集 $U = { \Big \{ } x { \Big | } x$ 罂租谗9\$%窭窦},集合 $A = \{ 1 , 3 , 5 \}$ ,则 $_ U { \cal A }$ 中元素个数为( )
A. 0 B. 3 C. 5 D. 8
【答案】C【解析】
【分析】根据补集的定义即可求出
【详解】因为 $U = \left\{ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 \right\}$ ,所以 $_ { U } A = \{ 2 , 4 , 6 , 7 , 8 \}$ , $_ U { \cal A }$ 中的元素个数为5,故选:C
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 $C$ 的离心率为( )
A. $\sqrt { 2 }$ B. 2 C. $\sqrt { 7 }$ D. 2 2
【答案】D【解析】
【分析】由题可知双曲线中 $^ { a , b }$ 的关系,结合 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 }$ 和离心率公式求解
【详解】设双曲线的实轴,虚轴,焦距分别为 $2 a , 2 b , 2 c$ ,由题知, $b = { \sqrt { 7 } } a$ ,
于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 { \sqrt { 2 } } a$ ,
即 $e = { \frac { c } { a } } = 2 { \sqrt { 2 } }$ .
故选:D
另一个pdf版本:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-14
开源破局,中国AI正在改写全球竞争格局!
2025-06-13
官宣|Milvus 2.6正式开源:内存减少 72%,速度比ES快4倍
2025-06-13
CoCo:全球首个“有记忆”的企业级AI Agent
2025-06-13
OpenAI 三连更:Team 上线 o3-pro、o3 额度翻倍、Projects 大升级!
2025-06-13
Manus免费版来了!两大核心更新功能实测
2025-06-13
[开源]RAGFlow: 基于深度文档理解的开源RAG引擎
2025-06-12
干货:手把手教你搭建自己的MCP Server
2025-06-12
AI实现智能客服第4节:开源N8N编排采集同城旅行网数据知识
2025-03-19
2025-03-19
2025-03-17
2025-04-01
2025-04-01
2025-04-13
2025-04-29
2025-03-19
2025-03-23
2025-03-22
2025-06-10
2025-06-08
2025-05-28
2025-05-28
2025-05-26
2025-05-25
2025-05-23
2025-05-17