支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


MinerU-利用专用LLM模型提取PDF内容的工具实测

发布日期:2025-06-13 20:17:19 浏览次数: 1539
作者:特沃兹道

微信搜一搜,关注“特沃兹道”

推荐语

PDF数据处理太麻烦?MinerU帮你一键搞定,开源工具实测效果惊艳!

核心内容:
1. MinerU工具的功能与适用场景
2. 安装配置步骤与注意事项
3. 模型特点与性能优化建议

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
机器学习及大模型微调中,数据处理是不得不面对的比较繁琐的问题。很多数据内容以pdf文档、word文档等形式存在,需要做预处理。今天尝试了一款开源处理工具 MinerU:

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中。开源地址:

https://github.com/opendatalab/MinerU


安装

建议一开始就在有GPU的机器上安装,纯CPU会比较慢

裸机安装,以 conda 隔离环境为例,依次执行如下命令:

conda create -n mineru 'python=3.12' -yconda activate minerupip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simplepip install modelscopewget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.pypython download_models.py

其中下载的模型放在这里:

# du -sh ~/.cache/modelscope/hub/models/*1.8G	/root/.cache/modelscope/hub/models/opendatalab681M	/root/.cache/modelscope/hub/models/ppaanngggg

应该是一个专为文档识别训练的小模型。


以上都是官方文档的安装步骤,下面是需要适配的部分:

mac下可能需要降级 Numpy 库到 1.x, 否则执行命令会有报错:

pip uninstall numpy -ypip install numpy==1.26.4

安装 libreoffice

# mac 环境:brew install libreoffice# ubuntu 环境:apt install libreoffice -y

安装后可以修改生成的配置文件: ~/magic-pdf.json,可以修改其中LLM辅助部分的配置:

    "llm-aided-config": {        "formula_aided": {            "api_key": "your_api_key",            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",            "model": "qwen2.5-7b-instruct",            "enable": false        },        "text_aided": {            "api_key": "your_api_key",            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",            "model": "qwen2.5-7b-instruct",            "enable": false        },        "title_aided": {            "api_key": "your_api_key",            "base_url": "https://dashscope.aliyuncs.com/compatible-mode/v1",            "model": "qwen2.5-32b-instruct",            "enable": false        }    },

可以将里面的 enable 改为 true,并配置上自己能用的模型API接口。

如果要使用 GPU,修改其中的 device-mode 值为 cuda:

# grep device ~/magic-pdf.json    "device-mode": "cuda",

运行

命令样例:

magic-pdf \-p "./GAOKAO-2025-CME/2025年高考全国1卷数学高考真题解析(完整版)/" \-o GAOKAO-2025-CME-mineru/math

我们来看数学前3题的解析结果:

# 2025 年普通高等 (新 1 卷)家学习生活愉
意事项:
1.答卷前, 上 .用 2B 铅笔将试卷类型和考生号填涂在 答题相应位置上2.选择题每小题选出答案后,用 2B 铅 案不能答在试卷上.3.非选择题必须用黑色字迹的钢笔或案,不一 选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题上.
1. 的虚部为(   )
A. B. 0 C. 1 D. 6
【】答案】C【】解析】【】分析】【】详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为 1故选:C.
2. 设全集 $U = x { \big | }$ 09□□ ,集合 $\scriptstyle A = \{ 1 , 3 , 5 \}$ ,则 中元素个数为(
A. 0 B. 3 C. 5 D. 8
【】答案】C【】解析】【】分析】【】详解】因为 ,所以 $\Dot { \mathfrak { Q } } , A = 2 , 4 , 5 , 7 , 8$ , 中的元素个数为 ,故选:C.
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 C 的离心率为(   )
A. B. 2 C. D.
## 【】答案】D
【】解析】【】分析】由题可知双曲线中 的关系,结合 $\boldsymbol { a } ^ { z } + \boldsymbol { b } ^ { z } = \boldsymbol { c } ^ { z }$ 和离心率公式求解【】详解】 ,焦距分别为 $\mathsf { Z } a , \mathsf { Z } b , \mathsf { Z } c _ { \perp }$由题知, $b = \sqrt { 7 } a \prod$于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 \sqrt { 2 } a \ D$$\begin{array} { r } { \underline { \sf U } ^ { e } = \frac { c } { a } = 2 \sqrt { 2 } . } \end{array}$故选:D

结果不太理想。题干有丢失内容。选项有莫名其妙的字符

这个文档是 word 的,下面是转化为pdf后再解析的结果,好很多了:

# 2025 年普通高等学校招生全国统一考试(新 1 卷)
★祝大家学习生活愉快★
## 注意事项:
1.答卷前,考生务必用黑色字迹的钢笔或签字笔将自己的姓名和考生号,试室号,座位号填写在答题卡上.用 2B 铅笔将试卷类型和考生号填涂在答题卡相应位置上.2.选择题每小题选出答案后,用 2B 铅笔把答题卡上对应的题目选项的答案信息点涂黑:如需改动,用橡皮擦干净后,再填涂其他答案.答案不能答在试卷上.3.非选择题必须用黑色字迹的钢笔或签字笔作答,答案必须写在答题卡各题目指定区域内相应位置上:如需改动,先划掉原来的答案,然后再写上新的答案,不准使用铅笔和涂改液.不按以上要求作答的答案无效.
## 一、选择题:本大题共 8 小题,每小题 5 分,共计 40 分.每小题给出的四个选项中,只有一个选项是正确的.请把正确的选项填涂在答题卡相应的位置上.
1$1 + 5 \mathrm { i } ) \mathrm { i }$ 的虚部为(   )
A. -1 B. 0 C. 1 D. 6
【答案】C【解析】
【分析】根据复数代数形式的运算法则以及虚部的定义即可求出.
【详解】因为 $\left( 1 + 5 \mathrm { i } \right) \mathrm { i } = \mathrm { i } + 5 \mathrm { i } ^ { 2 } = - 5 + \mathrm { i }$ ,所以其虚部为1,故选:C.
2. 设全集 $U = { \Big \{ } x { \Big | } x$ 罂租谗9\$%窭窦},集合 $A = \{ 1 , 3 , 5 \}$ ,则 $_ U { \cal A }$ 中元素个数为(   )
A. 0 B. 3 C. 5 D. 8
【答案】C【解析】
【分析】根据补集的定义即可求出
【详解】因为 $U = \left\{ 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 \right\}$ ,所以 $_ { U } A = \{ 2 , 4 , 6 , 7 , 8 \}$ , $_ U { \cal A }$ 中的元素个数为5,故选:C
3. 若双曲线 $C$ 的虚轴长为实轴长的 $\sqrt { 7 }$ 倍,则 $C$ 的离心率为(   )
A. $\sqrt { 2 }$ B. 2 C. $\sqrt { 7 }$ D. 2 2
【答案】D【解析】
【分析】由题可知双曲线中 $^ { a , b }$ 的关系,结合 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 }$ 和离心率公式求解
【详解】设双曲线的实轴,虚轴,焦距分别为 $2 a , 2 b , 2 c$ ,由题知, $b = { \sqrt { 7 } } a$ ,于是 $a ^ { 2 } + b ^ { 2 } = c ^ { 2 } = a ^ { 2 } + 7 a ^ { 2 } = 8 a ^ { 2 }$ ,则 $c = 2 { \sqrt { 2 } } a$ ,即 $e = { \frac { c } { a } } = 2 { \sqrt { 2 } }$ .故选:D

另一个pdf版本:


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询