微信扫码
添加专属顾问
我要投稿
探索微软开源的文档转换神器,体验跨格式转换的便利。 核心内容: 1. MarkItDown工具介绍及其GitHub高星认可 2. 支持转换的文件格式及自动OCR识别功能 3. 实际测试效果分析与MCP协议支持细节
和微信的提取文字不太一样,markitdown 项目介绍提到:会保留文档的重要结构和内容,将其以 Markdown 格式显示(比如标题、列表、表格、链接等)
实测效果有些出入...
看看实际效果
逛逛实测了一下,虽然输出结果通常清晰易读,适合人工查看,但其主要目的还是作为中间介质提供给 AI 大模型或者文本分析工具。
如果对阅读体验要求极高,格式还原效果极其严苛,markitdown 可能并不适合。
① 运行如下命令安装
pip install 'markitdown[all]'
然后你可以在命令行中直接运行,或者调用 Python API:
PDF 文件转换,左边屏是源文件,右半屏是转换后的MD,发现标题并没有保留呀?
表格类型 PDF但是如果我上传的 PDF 是下面这种表格的样式,其实得到的 Markdown 效果就比较差了。
因为这不是普通表格 PDF,有很多合并:
标准 Excel,如果是转换比较标准的 Excel 表格,效果还是不错的。左边屏是源文件:
再来看看 PPT 文件,转换的效果:
再看看一个标准的 PDF 文档,不知道是不是我操作有问题?说好的保留标题、表格样式呢...
支持 MCP
前段时间发了一个国产 OCR 开源神器的帖子,还有读者问那个 OCR 开源项目是否支持 MCP。
微软开源的这个 markitdown 支持 MCP 协议,它提供了一个轻量级的 STDIO、Streamable HTTP 和 SSE MCP 服务器,用于调用 MarkItDown。
公开了一个工具:convert_to_markdown(uri)
,其中 uri 可以是任何http:
、https:
、file:
或data:
URI。
pip install markitdown-mcp
运行 MCP 服务
你可以使用如下两个命令运行 MCP Server,第一个是 STDIO,第二个是 Streamable HTTP 和 SSE MCP
markitdown-mcp --http --host 127.0.0.1 --port 3001
当然如果你想在 Docker 中运行,可以参考下图中的步骤。
这样你就能在 Cursor 等 MCP 客户端重配置这个MCP 服务,流程很简单。
拿 Cusor 客户端举例子,打开设置 -> MCP -> 添加一个 MCP 服务器。这个时候把如下代码复制进去就行了,后面你就能使用这个 MCP 服务了。
{
"mcpServers": {
"markitdown": {
"command": "docker",
"args": [
"run",
"--rm",
"-i",
"-v",
"/home/user/data:/workdir",
"markitdown-mcp:latest"
]
}
}
}
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-22
企业AI知识库的文件解析痛点-Word格式解析优化(准确率95%)-100%开源
2025-07-21
AI操作网页:browser-use和AI大模型互动解析
2025-07-20
Agent智能体 | 深入解读阿里开源Web Agent新王者:WebSailor
2025-07-20
从PromptPico到ContextPico:我的心路
2025-07-19
AI 产品的大众点评,「观猹」今日上线
2025-07-18
MinerU | 高精度文档解析工具:从PDF到结构化数据的智能桥梁
2025-07-18
看了这个开源的可以操作手机电脑的Agent框架,感觉AI黑灯办公室也马上出现了。
2025-07-18
00 后天才团队,发布全球首个 A 股金融博弈智能体应用
2025-06-17
2025-06-17
2025-04-29
2025-07-14
2025-04-29
2025-04-29
2025-07-12
2025-05-29
2025-05-12
2025-05-14
2025-07-16
2025-07-15
2025-07-13
2025-07-08
2025-07-04
2025-07-03
2025-06-28
2025-06-25