我要投稿

基于多模态大语言模型的 PDF 转 Markdown 工具MarkPDFDown

发布日期：2025-03-19 05:01:12 浏览次数： 2163

作者：GitHubStore

微信搜一搜，关注“GitHubStore”

项目简介

基于多模态大语言模型的PDF转Markdown工具，高质量实现文档结构化转换

MarkPDFDown 是一款智能PDF转换Markdown工具，通过先进的多模态AI模型，能够将PDF文档准确转换为结构清晰的Markdown格式，保留原始文档的排版、表格、公式等复杂元素。

功能特性

PDF转Markdown
：支持任意PDF文档的格式转换
多模态理解
：利用AI理解文档结构和内容
格式保留
：完整保留标题、列表、表格等排版元素
模型定制
：支持自定义AI模型参数配置

示例演示

安装指南

conda create -n markpdfdown python=3.9conda activate markpdfdown
# 克隆仓库git clone https://github.com/jorben/markpdfdown.gitcd markpdfdown
# 安装依赖pip install -r requirements.txt

使用指南

# 设置OpenAI API密钥export OPENAI_API_KEY=<你的API密钥># 可选设置API端点export OPENAI_API_BASE=<你的API端点># 可选设置默认模型export OPENAI_DEFAULT_MODEL=<你的模型>
# 运行转换程序python main.py < tests/input.pdf > output.md

高级用法

# 转换指定页码范围python main.py 起始页码 结束页码 < tests/input.pdf > output.md

在Docker中使用

docker run -i -e OPENAI_API_KEY=<你的API密钥> -e OPENAI_API_BASE=<你的API端点> -e OPENAI_DEFAULT_MODEL=<你的模型> jorben/markpdfdown < tests/input.pdf > output.md

依赖环境

Python 3.9+
依赖库详见 requirements.txt
可访问的多模态AI模型服务

贡献指南

欢迎贡献代码！请按以下流程提交PR：

Fork 本仓库
新建功能分支（ git checkout -b feature/somefeat ）
提交修改（ git commit -m 'feat: 添加XX新功能' ）
推送分支（ git push origin feature/somefeat ）
提交Pull Request

开源协议

本项目采用 Apache License 2.0 开源协议，详见 LICENSE 文件。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-12

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-11

Gemini Embedding 2：首个原生五模态 embedding 模型

2026-03-11

Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

2026-03-11

谷歌首个原生多模态向量模型发布：Agent 可以用文字搜图片、用图片搜视频了...

2026-03-05

零帧起手 Codex × Figma 双向工作流实操

2026-02-27

NanoBanana 2.0 来了，对比前一代和即梦 5.0 lite，它依旧强的离谱

2026-02-25

AI真人数字人语音对话性能优化实践总结

2026-02-13

“思考”更深，生成更准｜Seedream 5.0 Lite 发布

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

多模态检索新突破！Qwen3-VL-Embedding/Reranker AI 真正“看懂“你在搜什么，从图片到视频全拿下！

2026-01-10

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

秒杀传统 TTS？！Gemini 原生中文 TTS 体验 + 提示词模板

2025-12-14

Seedance 2.0 正式发布

2026-02-12

DeepSeek-OCR 2 来了，让 AI 也能像人一样，带着逻辑去看图

2026-01-27

KDD 2026 | 小红书内容审核：Hi-Guard 让内容治理“知其然，更知其所以然”

2026-01-16

Seedance 2.0上线火山方舟体验中心，API即将开放

2026-02-12

面向业务落地的AI产品评测体系设计与平台实现

2025-12-17

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部