支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


扫描PDF转换太痛苦?pdf-craft秒转Markdown/EPUB,自动生成目录注释、引文对齐

发布日期:2025-05-19 22:10:20 浏览次数: 1544 作者:CourseAI
推荐语

PDF转换神器来袭,一键将PDF文件转换为Markdown或EPUB,自动生成目录注释和引文对齐。

核心内容:
1. PDF-Craft工具介绍及安装
2. 将PDF文件转换为Markdown格式
3. 将PDF文件转换为EPUB格式

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

本公众号主要关注NLP、CV、LLM、RAG、Agent等AI前沿技术,免费分享业界实战案例与课程,助力您全面拥抱AIGC。


PDF-Craft实战

  • 将 PDF 转换为 MarkDown
from pdf_craft import PDFPageExtractor, MarkDownWriter

extractor = PDFPageExtractor(
  device="cpu"# If you want to use CUDA, please change to device="cuda:0" format.
  model_dir_path="/path/to/model/dir/path"# The folder address where the AI model is downloaded and installed
)
with MarkDownWriter(markdown_path, "images""utf-8") as md:
  for block in extractor.extract(pdf="/path/to/pdf/file"):
    md.write(block)

如果原始 PDF 中有插图(或表格、公式),则会在与保存图像相同的级别创建一个目录。

目录中的图片将在 MarkDown 文件中以相对地址的形式被引用。*.md``assets``*.md``assets

  • 将 PDF 转换为 EPUB

    首先创建PDF抽取对象

extractor = PDFPageExtractor(
  device="cpu"# If you want to use CUDA, please change to device="cuda:0" format.
  model_dir_path="/path/to/model/dir/path"# The folder address where the AI model is downloaded and installed
)

将抽取的内容送给LLM,生成EPUB文件

from pdf_craft import analyse
from pdf_craft import LLM

llm = LLM(
  key="sk-XXXXX"# LLM 供应商提供的 key
  url="https://api.DeepSeek.com"# LLM 供应商提供的 URL
  model="deepseek-chat"# LLM 供应商提供的模型
  token_encoding="o200k_base"# 进行 tokens 估算的本地模型名(与 LLM 无关,若不关心就保留 "o200k_base")
)

analyse(
  llm=llm, # 上一步准备好的 LLM 配置
  pdf_page_extractor=pdf_page_extractor, # 上一部准备好的 PDFPageExtractor 对象
  pdf_path="/path/to/pdf/file"# PDF 文件路径
  analysing_dir_path="/path/to/analysing/dir"# analysing 文件夹地址
  output_dir_path="/path/to/output/files"# 分析结果将写入这个文件夹
)
  • output_dir_path,表示扫描和分析的结果(会有多个文件)应该保存在哪个文件夹。

  • analysing_dir_path,用来存储分析过程中的中间状态。

  • 在分析结束后,将 output_dir_path 文件夹地址传给如下代码作为参数,即可最终生成 EPUB 文件。

pdf-craft主要功能:

  • 使用本地 AI 模型将 PDF 转换为 Markdown 格式,无需联网
  • 支持将 PDF 转换为带结构的 EPUB 电子书格式
  • 智能识别并过滤页眉、页脚、脚注、页码等干扰元素
  • 自动处理图表、公式,以图片形式保留在转换后的文件中
  • 结合 LLM 技术构建书籍结构,生成带目录和章节的 EPUB

pdf-craft的转化逻辑

首先,将PDF分页拆解成图片

其次,利用DocLayout-YOLO识别图片中的block元素,包括:页眉、页脚、段落、标题、图片、表格、图表、页码等信息

然后,利用layoutreader对block进行排序

接着,利用OnnxOCR,识别block中的文字

最后,将OCR识别的文字,输送给Deepseek,并通过特定信息(比如目录等)来构建书本的结构,最终生成带目录,分章节的 EPUB 文件。

这个解析和构建的过程中,会通过 LLM 读取每页的注释和引用信息,然后在 EPUB 文件中以新的格式呈现。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询