我要投稿

11K star！一站式数据提取神器，PDF、网页、电子书通通搞定！

发布日期：2024-09-11 21:17:17 浏览次数： 2697

作者：开源先锋

微信搜一搜，关注“开源先锋”

我们每天都要和各种文档打交道，PDF文档、网页、电子书……这些格式各异的文档让我们既爱又恨。爱的是它们携带的丰富信息，恨的是处理和提取这些信息时的繁琐与不便。

今天开源君来和大家聊聊一个超级给力的开源项目 - MinerU，别看它名字听起来像挖矿的，实际上，它可是文档处理和提取的“神器”！

项目简介

MinerU一个由opendatalab团队打造的一站式开源数据提取工具，旨在帮助研究人员和开发者更方便地获取、处理、分析数据。它支持多种数据集的管理，自动化的数据清洗，并且还有强大的模型库,简直就是文档处理界的“瑞士军刀”！

它主要由两个组件构成：Magic-PDF和Magic-Doc。Magic-PDF专攻PDF文档的提取，而Magic-Doc则负责网页和电子书的提取工作。有了它们俩，无论是学术研究、技术写作还是日常办公，文档处理都变得轻松愉快。

目前在Github上收获了11K star！

性能特色

多模态文档转换：支持将包含图片、公式、表格、脚注等复杂元素的PDF文档转化为Markdown格式，便于机器阅读和进一步处理。
内容提取：不仅能从PDF中提取信息，还能从网页和电子书中快速提取正式内容，自动去除广告等干扰信息。
保留文档结构：在转换过程中，它能完美保留原始文档的结构，如标题、段落、列表等，让转换后的文档依然条理清晰。
图像和表格提取：文档中的图像、表格也能被准确提取，并嵌入到Markdown中，方便后续编辑和展示。
公式转换：自动识别并转换文档中的数学公式为LaTeX格式，对于学术工作者来说，简直是福音！
乱码处理：遇到乱码PDF也不怕，MinerU能自动识别并转换，提高文档的可读性。
跨平台支持：兼容Windows、Linux和Mac操作系统
硬件兼容性：支持在CPU和GPU环境下运行，利用你的硬件资源，提升处理速度。

快速安装部署

想要快速上手MinerU，可以直接使用官方9月份刚刚上线的online Demo，在OpenDataLab、HuggingFace、ModelScope上面均有部署，可以直接使用。

想本地部署的话，也是可以的。安装前注意看软硬件环境支持说明。

使用CPU的快速部署：

# 1. 安装依赖
conda create -n MinerU python=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple

# 2. 下载模型权重文件
# 根据官方文档（https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md）指示操作

# 3. 配置Magic-PDF
cp magic-pdf.template.json ~/magic-pdf.json
# 编辑 ~/magic-pdf.json，设置正确的模型文件路径

# 4. 开始使用
magic-pdf --help
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto