我要投稿

ubuntu 本地部署MinerU完成文档解析

发布日期：2025-10-28 15:25:53 浏览次数： 2147

作者：马敬亭de学习之路

微信搜一搜，关注“马敬亭de学习之路”

1.系统环境配置

(1)检查CUDA环境和GPU状态
需要CUDA11.8或以上

nvcc --version

如无，用下述代码

sudo apt install nvidia-cuda-toolkit

检查GPU状态和显存
(显示的CUDA版本为最高版本)

nvidia-smi

(2)创建虚拟环境避免依赖冲突

先检查自己安装的版本

python --version

conda create -n mineru python=3.12.4conda activate mineru

2.安装MinerU

（1）安装包管理工具

pip install uv

(2)安装MinerU的完整版本

uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple

下载完成后

(3)安装pytorch GPU版本

查看Ubuntu CUDA版本的方法

nvcc -V

CUDA 12.1 向下兼容 12.0）。以下是适配的安装命令：

pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 --index-url https://download.pytorch.org/whl/cu121

pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu126

Installing previous versions of PyTorch

We’d prefer you install the latest version, but old binaries and installation instructions are provided below for your convenience.

Commands for Versions >= 1.0.0

Linux and Windows


# ROCM 6.4 (Linux only)
pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/rocm6.4
# CUDA 12.6
pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu126
# CUDA 12.8
pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu128
# CUDA 12.9
pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu129
# CPU only
pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cpu

3.下载模型文件

mineru-models-download --model_type all

输入modelscope

4.功能测试

pdf输入地址：/home/mac/wendang/pdfs

解析输出地址：/home/mac/wendang/test_output

（1）pipeline模式（速度快）

测试单个pdf文件解析（n卡可GPU加速）通过表格，公式，排版等小模型分开识别

cd /home/mac/wendang/mineru -p ./pdfs/demo1.pdf -o test_output/ --backend pipeline device cuda

（2）vlm模式(精度高，速度慢)

通过视觉模型进行识别


mineru -p ./pdfs/demo1.pdf -o test_output/ --backend vlm-transformers --device cuda

（3）批量处理测试

mineru -p ./pdfs -o test_output/ --backend pipeline batch-size 8

5.启动web界面

conda activate mineru

# 启动web服务界面mineru-gradio --server-name 0.0.0.0 --server-port 7860

MinerU帮助文档

https://aicarrier.feishu.cn/wiki/TzBcwXurRiuQZkk17licytSTnBc

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-13

“洗代码即服务”火了！“开源代码洗白”奇葩网站上线，反讽白嫖企业：开源合规太昂贵了！CC逆向复刻客户软件，十分之一的价格转卖！

2026-03-12

为什么 LSP Language Server 对 Coding Agent 很重要

2026-03-09

给“氛围编程”系上安全带：阿里集团 AI 代码评审实践与 Benchmark 开源

2026-03-09

AI时代的"无界面"交互趋势——兼论用户体验行业发展（长文）

2026-03-05

从生成到交付：AI 做游戏，关键在「边界、地图、循环」

2026-02-28

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-15

memU bot X 🦐 虾聊：让你的 memU bot 开启“硅基社交”

2026-02-11

98.4K Star！OpenCode+Agent Browser 重构自动化测试流程

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

发现了 4 个好玩 SKills，已经在 GitHub 上开源了。

2026-01-23

AI对全球白领就业冲击有多大？

2026-01-06

万字长文讲解：团队落地 AI 辅助编程和 Specs 实战

2026-01-12

NotebookLM: 不就做个PPT，有什么难的

2025-12-15

我做了个Claude Skill：一键复刻任意公众号的排版

2025-12-25

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

字流 2.0 发布：我把 14 个平台的发布流程压到 10 分钟

2026-01-18

YouMind：一款懂输入、思考、输出闭环的 AI 创作工具

2025-12-16

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

左手NovelCrafter，右手Claude Code，作为码字人，我从没这么痛快过

2025-12-14

大家都在问

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

AI内容工程化：为什么你的团队用了AI，内容还是做不出来?

2026-02-07

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

当A++成为新的“紧箍咒”：我们是否忘记了测试的初衷？

2026-01-21

AI对全球白领就业冲击有多大？

2026-01-06

警惕！AI创业的三重“陷阱”你避开了吗？

2025-12-22

NotebookLM+Nano Banana Pro：你的下一个PPT，何必是PPT？

2025-12-15

你用AI做的应用，是在挠自己的痒痒吗？

2025-12-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw