微信扫码
添加专属顾问
我要投稿
探索微软开源的文档转换神器,体验跨格式转换的便利。 核心内容: 1. MarkItDown工具介绍及其GitHub高星认可 2. 支持转换的文件格式及自动OCR识别功能 3. 实际测试效果分析与MCP协议支持细节
和微信的提取文字不太一样,markitdown 项目介绍提到:会保留文档的重要结构和内容,将其以 Markdown 格式显示(比如标题、列表、表格、链接等)
实测效果有些出入...
看看实际效果
逛逛实测了一下,虽然输出结果通常清晰易读,适合人工查看,但其主要目的还是作为中间介质提供给 AI 大模型或者文本分析工具。
如果对阅读体验要求极高,格式还原效果极其严苛,markitdown 可能并不适合。
① 运行如下命令安装
pip install 'markitdown[all]'
然后你可以在命令行中直接运行,或者调用 Python API:
PDF 文件转换,左边屏是源文件,右半屏是转换后的MD,发现标题并没有保留呀?
表格类型 PDF但是如果我上传的 PDF 是下面这种表格的样式,其实得到的 Markdown 效果就比较差了。
因为这不是普通表格 PDF,有很多合并:
标准 Excel,如果是转换比较标准的 Excel 表格,效果还是不错的。左边屏是源文件:
再来看看 PPT 文件,转换的效果:
再看看一个标准的 PDF 文档,不知道是不是我操作有问题?说好的保留标题、表格样式呢...
支持 MCP
前段时间发了一个国产 OCR 开源神器的帖子,还有读者问那个 OCR 开源项目是否支持 MCP。
微软开源的这个 markitdown 支持 MCP 协议,它提供了一个轻量级的 STDIO、Streamable HTTP 和 SSE MCP 服务器,用于调用 MarkItDown。
公开了一个工具:convert_to_markdown(uri),其中 uri 可以是任何http:、https:、file:或data:URI。
pip install markitdown-mcp
运行 MCP 服务
你可以使用如下两个命令运行 MCP Server,第一个是 STDIO,第二个是 Streamable HTTP 和 SSE MCP
markitdown-mcp --http --host 127.0.0.1 --port 3001
当然如果你想在 Docker 中运行,可以参考下图中的步骤。
这样你就能在 Cursor 等 MCP 客户端重配置这个MCP 服务,流程很简单。
拿 Cusor 客户端举例子,打开设置 -> MCP -> 添加一个 MCP 服务器。这个时候把如下代码复制进去就行了,后面你就能使用这个 MCP 服务了。
{
"mcpServers": {
"markitdown": {
"command": "docker",
"args": [
"run",
"--rm",
"-i",
"-v",
"/home/user/data:/workdir",
"markitdown-mcp:latest"
]
}
}
}53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-19
用 AgentScope Java 开家 AI 奶茶店
2026-01-19
沉浸式翻译杀疯了!双重开源:左手像素级还原PDF排版,右手本地AI隐私保护!
2026-01-18
开源版Cowork爆火,逼得Anthropic下放Cowork
2026-01-18
ollama v0.14.2 更新:新增TranslateGemma翻译模型、支持55种语言、CLI优化与MLX构建指南发布!
2026-01-18
刚开源就爆火,Claude Cowork 平替版,诞生了!
2026-01-18
Google 把翻译能力彻底开源了!TranslateGemma:550种语言通吃,还能直接看图翻译!
2026-01-17
速递 | OpenAI官方报告泄露:DeepSeek一周年,他们慌了
2026-01-17
GitHub Trending 榜一的开源 Cowork 来了!4天4.5K星,首个多智能体工作流应用!
2025-11-19
2025-10-27
2025-10-27
2025-12-22
2025-12-10
2025-11-17
2025-11-07
2025-10-29
2025-10-24
2025-12-23
2026-01-16
2026-01-02
2025-12-24
2025-12-22
2025-11-12
2025-11-10
2025-11-03
2025-10-29