我要投稿

扫描书籍PDF文件转Markdown/EPUB工具pdf-craft

发布日期：2025-04-01 21:24:04 浏览次数： 2578

作者：GitHubStore

微信搜一搜，关注“GitHubStore”

项目简介

本项目可将 PDF 一页一页读出，并使用 DocLayout-YOLO 混合我写的一个算法，将书页中的正文提取出来，并过滤掉页眉、页脚、脚注、页码等元素。在跨页过程中，会使用算法判断以妥善处理前后文跨页顺接问题，最终生成语义通顺的文本。书页会使用 OnnxOCR 进行文本识别。并使用 layoutreader 来确定符合人类习惯的阅读顺序。

安装

你需要 python 3.10 或以上（推荐 3.10.16）。

pip install pdf-craft

功能

PDF 转化为 MarkDown

此操作无需调用远程的 LLM，仅凭本地算力（CPU 或显卡）就可完成。第一次调用时会联网下载所需的模型。遇到文档中的插图、表格、公式，会直接截图插入到 MarkDown 文件中。

from pdf_craft import PDFPageExtractor, MarkDownWriter
extractor = PDFPageExtractor(  device="cpu", # 如果希望使用 CUDA，请改为 device="cuda:0" 这样的格式。  model_dir_path="/path/to/model/dir/path", # AI 模型下载和安装的文件夹地址)with MarkDownWriter(markdown_path, "images", "utf-8") as md:  for block in extractor.extract(pdf="/path/to/pdf/file"):    md.write(block)

执行完成后，会在指定的地址生成一个 *.md 文件。若原 PDF 中有插图（或表格、公式），则会在 *.md 同级创建一个 assets 文件夹，以保存图片。而 MarkDown 文件中将以相对地址的形式引用 assets 文件夹中的图片。

转化效果如下。

PDF 转化为 EPUB

此操作的前半部分与 PDF 转化 MarkDown（见前章节）相同，将使用 OCR 从 PDF 中扫描并识别文字。因此，也需要先构建 PDFPageExtractor 对象。

from pdf_craft import PDFPageExtractor
extractor = PDFPageExtractor(  device="cpu", # 如果希望使用 CUDA，请改为 device="cuda:0" 这样的格式。  model_dir_path="/path/to/model/dir/path", # AI 模型下载和安装的文件夹地址)

之后，需要配置 LLM 对象。建议使用使用 DeepSeek，本库的 Prompt 基于 V3 模型调试。

from pdf_craft import LLM
llm = LLM(  key="sk-XXXXX", # LLM 供应商提供的 key  url="https://api.deepseek.com", # LLM 供应商提供的 URL  model="deepseek-chat", # LLM 供应商提供的模型  token_encoding="o200k_base", # 进行 tokens 估算的本地模型名（与 LLM 无关，若不关心就保留 "o200k_base"）)

如上两个对象准备好后，就可以开始扫描并分析 PDF 书籍了。

from pdf_craft import analyse
analyse(  llm=llm, # 上一步准备好的 LLM 配置  pdf_page_extractor=pdf_page_extractor, # 上一部准备好的 PDFPageExtractor 对象  pdf_path="/path/to/pdf/file", # PDF 文件路径  analysing_dir_path="/path/to/analysing/dir", # analysing 文件夹地址  output_dir_path="/path/to/output/files", # 分析结果将写入这个文件夹)

上述代码注意两个文件夹地址，其一是 output_dir_path，表示扫描和分析的结果（会有多个文件）应该保存在哪个文件夹。该地址应该指向一个空文件夹，若不存在，则会自动创建一个文件夹。

其二是 analysing_dir_path，用来存储分析过程中的中间状态。在扫描和分析成功后，这个文件夹及其内部文件将变得没用（你可以用代码将它们删除）。该地址应该指向一个文件夹，若不存在，则会自动创建一个文件夹。这个文件夹（及其内部文件）可以保存分析进度。若某次分析因为意外而中断，可以通过将 analysing_dir_path 配置到上次被中断而产生的 analysing 文件夹，从而从上次被中断的点恢复并继续分析。特别的，如果你要开始一个全新的任务，请手动删除或清空 analysing_dir_path 文件夹，避免误触发中断恢复功能。

在分析结束后，将 output_dir_path 文件夹地址传给如下代码作为参数，即可最终生成 EPUB 文件。

from pdf_craft import generate_epub_file
generate_epub_file(  from_dir_path=output_dir_path, # 来自上一步分析所产生的文件夹  epub_file_path="/path/to/output/epub", # 生成的 EPUB 文件保存路径)

该步骤会根据之前分析的书本结构，在 EPUB 中分章节，并匹配恰当的目录结构。此外，原本书页底部的注释和引用将以合适的方式呈现在 EPUB 中。

功能进阶

前文提及 LLM 的构建，可以为其添加更多的参数来实现更丰富的功能。以实现断线重连，或指定特定的超时时间。

llm = LLM(  key="sk-XXXXX",  url="https://api.deepseek.com",  model="deepseek-chat",  token_encoding="o200k_base",  temperature=0.3, # 温度（可选）  timeout=360, # 超时时间，单位秒（可选）  retry_times=10, # 因为网络原因或格式不完整请求失败所能接受的最大重试次数（可选）  retry_interval_seconds=6.0, # 重试之间间隔的时间，单位秒（可选）)

此外可将 temperature 设置成一个范围。在一般情况下，使用范围最左边的值作为温度。一旦 LLM 返回断裂的内容，则在重试时逐渐增加温度（不会超过范围右边的值）。以免 LLM 陷入总是返回断裂内容的循环之中。

llm = LLM(  key="sk-XXXXX",  url="https://api.deepseek.com",  model="deepseek-chat",  token_encoding="o200k_base",  temperature=(0.3, 1.0), # 温度（可选）)

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-03

用 WorkBuddy 辅助写投标技术方案：别让 AI 替你投标，让它替你把话说清楚

2026-05-30

企业级 AI Coding 还有一堆问题，并没有像PR一样说的这么好用

2026-05-27

如何使用 AI 设计企业级产品？

2026-05-24

我研究了这个 18.6k Star 的 Skills，做幼师的女朋友夸我真猛！

2026-05-21

AI里，你必学的新Office三件套：MD、CSV、HTML

2026-05-21

体验完阿里首款Design Agent，我开始替UI/前端焦虑了..

2026-05-19

不要再直接把 UI 图转成代码了，先看这份 UI Spec 模板

2026-05-18

Git issue + PR：律师的下一代协作方式

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Anthropic 产品经理：PRD 已死，原型万岁

2026-03-21

纳米漫剧流水线，我劝你别太离谱

2026-04-14

陶哲轩：AI 已经把想法成本降到几乎为0了...

2026-03-24

刚刚，Claude Design 发布！网友：将摧毁设计行业……

2026-04-18

gpt-image-2发布后，PPT最强skill

2026-04-28

我把 Dan Koe 的写作工业化流程，做成了分身写作系统，爆款文章频出

2026-03-23

设计师慌了：Google Stitch 一出，Figma 两天跌了 12%

2026-03-21

他们用悟空重写了内容生产这件事

2026-03-30

了解 CreawAI RGB 模式

2026-03-27

我提议，放开AI做作业的限制

2026-03-23

大家都在问

如何使用 AI 设计企业级产品？

2026-05-27

Nano Banana 2 实测：8 大落地场景 + 全部 Prompt，AI 绘画 SOTA 到底逆天在哪？

2026-02-28

AI内容工程化：为什么你的团队用了AI，内容还是做不出来?

2026-02-07

OpenAI发布的新科研工具Prism，相比起Overleaf如何？值得入手吗？

2026-01-29

当A++成为新的“紧箍咒”：我们是否忘记了测试的初衷？

2026-01-21

AI对全球白领就业冲击有多大？

2026-01-06

警惕！AI创业的三重“陷阱”你避开了吗？

2025-12-22

NotebookLM+Nano Banana Pro：你的下一个PPT，何必是PPT？

2025-12-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw