微信扫码
添加专属顾问
我要投稿
提升PDF文档处理效率的利器,PDF-Craft助你轻松转换格式。 核心内容: 1. PDF-Craft工具介绍及其智能识别功能 2. 环境要求及基础安装步骤 3. PDF转Markdown和PDF转EPUB的实践操作
在日常工作中,我们经常需要处理PDF文档,特别是扫描版的书籍或文献。今天有发现一个强大的开源工具 PDF-Craft,它能够智能地将PDF文件转换为Markdown或EPUB格式,并且具有智能识别章节、注释和引用的能力。
pip install pdf-craft
这是最基础的功能,不需要调用远程LLM服务,完全依靠本地计算能力即可完成。第一次调用时会联网下载所需的模型。遇到文档中的插图、表格、公式,会直接截图插入到 MarkDown 文件中。
from pdf_craft import PDFPageExtractor, MarkDownWriter
# 初始化提取器
extractor = PDFPageExtractor(
device="cpu", # 使用GPU时改为 "cuda:0"
model_dir_path="/path/to/model/dir/path" # AI模型存放目录
)
# 开始转换
with MarkDownWriter(markdown_path, "images", "utf-8") as md:
for block in extractor.extract(pdf="/path/to/pdf/file"):
md.write(block)
这个功能更为强大,需要配合LLM服务使用。
from pdf_craft import PDFPageExtractor
extractor = PDFPageExtractor(
device="cpu", # 使用GPU时改为 "cuda:0"
model_dir_path="/path/to/model/dir/path"
)
from pdf_craft import LLM
llm = LLM(
key="sk-XXXXX", # LLM供应商提供的密钥
url="https://api.deepseek.com", # LLM API地址
model="deepseek-chat", # 模型名称
token_encoding="o200k_base"
)
from pdf_craft import analyse
analyse(
llm=llm,
pdf_page_extractor=pdf_page_extractor,
pdf_path="/path/to/pdf/file",
analysing_dir_path="/path/to/analysing/dir",
output_dir_path="/path/to/output/files"
)
from pdf_craft import generate_epub_file
generate_epub_file(
from_dir_path=output_dir_path,
epub_file_path="/path/to/output/epub"
)
analysing_dir_path目录实现断点续传PDF-Craft是一个功能强大的PDF处理工具,特别适合处理扫描版书籍的转换工作。通过合理配置和使用,可以极大提高文档处理效率。建议在实际部署时,根据具体需求和硬件条件选择合适的功能模块。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-17
打造 Claude Code 并行自主开发环境:Auto Claude + GLM 4.7
2026-03-17
又一款开源的LLM生成3D场景的3D编辑器,这次功能更强大了
2026-03-17
英伟达的NemoClaw,能帮AI代理这匹“野马”套上缰绳吗?
2026-03-17
腾讯混元AI Infra核心技术重磅开源:推理吞吐提升30%!
2026-03-17
英伟达重磅开源!Nemotron 3 Super:专为AI智能体打造的"超级大脑
2026-03-16
22.4K Stars,减少 93% 上下文。AI Agents 专用浏览器自动化 CLI 真强!
2026-03-13
你的 AI Agent 真的在受控运行吗?
2026-03-12
Harness Engineering 的防御视角:从 Codex Security 看 AI 生成代码的治理
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2026-01-27
2025-12-22
2026-01-28
2026-01-21
2025-12-23
2026-01-06
2026-03-17
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21