我要投稿

开源 PDF 表格抽取神器来了：一键提取 PDF 表格数据，还提供 Web 可视化操作界面！

发布日期：2024-07-10 11:11:00 浏览次数： 3636

作者：AI真好玩

微信搜一搜，关注“AI真好玩”

在信息爆炸的今天，我们经常面临着从大量 PDF 文档中提取关键数据的挑战。无论是财务报表、市场调研数据还是法律文档，这些PDF 文件中蕴含的表格信息往往需要被转换为可操作的数据格式，以便进行进一步的分析和处理。然而，手动从 PDF 中提取表格数据不仅耗时，而且容易出错，这对于追求效率和精确度的专业人士来说是一个不小的难题。

本文我将介绍一个开源的 PDF 表格抽取工具 —— camelot^[1]。

camelot 使用示例

camelot 快速上手

新建 camelot 项目
安装 Ghostscript^[2]，它用于解析 PDF 文件。macOS 用户可以使用 brew 来安装 Ghostscript。

brew install ghostscript

使用 pip 安装 camelot

pip install "camelot-py[base]"

新建 main.py 文件并输入以下内容

import camelot

tables = camelot.read_pdf('foo.pdf')
tables.export('foo.csv', f='csv', compress=False)

运行 main.py 程序

python3 main.py

对于 macOS 或 Linux 系统的用户来说，在运行 main.py 程序时，如果出现以下错误：

/ghostscript/_gsprint.py", line 267, in <module>
    raise RuntimeError("Please make sure that Ghostscript is installed")

可以在运行程序前，先配置 DYLD_LIBRARY_PATH 环境变量：

export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/ghostscript/10.03.1/lib/

成功运行 main.py 程序之后，在 camelot 项目根目录下生成对应的 csv 文件。

excalibur 快速上手

为了方便用户使用 camelot，camelot 团队提供了一个 Web 工具 —— excalibur^[3]。

使用 pip 安装 excalibur

pip install excalibur-py

初始化数据库

excalibur initdb

启动 excalibur 服务器

excalibur webserver

当服务器成功启动后，在浏览器中打开 http://127.0.0.1:5000/files 地址，就会看到以下操作界面：

之后，点击 Upload PDF 按钮选择本地 PDF 文件，就可以开始抽取表格了。此外 excalibur 还提供的检测表格的功能，使用效果如下图所示：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-26

产品经理转FDE：一份6个月的生存手册

2026-06-26

年中了，试试让你的Agent快速写出半年总结？

2026-06-22

我花了三年读王阳明，结果不如用AI蒸馏他一次

2026-06-19

一位阿里产品经理的AI全流程提效实践：从需求到上线全覆盖

2026-06-19

任何领域一通百通的核心能力

2026-06-11

与 AI 一起做产品的六条原则

2026-06-09

永久免费！美团AI浏览器来了，10多个顶级模型帮你干活，还附送Agent外挂

2026-06-09

为什么有了 AI，我们更累了？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

FDE 到底是干嘛的？我帮你拆清楚了

2026-06-04

5款AI语音输入法，打字慢的人有救了

2026-05-26

从聊天窗口到多 Agent 控制台：一次 AI 编程协作范式的转移

2026-04-16

解读腾讯【从超级个体到超级团队】报告，附原文。

2026-06-09

别急着装 OpenHuman，看完这篇再说

2026-05-18

OpenAI 出圈的「AI 屏幕记忆」，我找到了关于它的最佳答案

2026-04-25

为什么要构建个人知识体系？

2026-04-14

来自 Codex 官方团队的分享：如何把 Codex 用到极致

2026-05-21

办公Agent的CI/CD时刻到来了

2026-04-09

别只盯落地场景了，这5个AI价值模型才是关键！

2026-04-22

大家都在问

年中了，试试让你的Agent快速写出半年总结？

2026-06-26

为什么有了 AI，我们更累了？

2026-06-09

为什么你跟WorkBuddy说了100遍规矩，它转头就忘？

2026-06-07

AI 时代的文档之争：为什么我不建议普通人直接跟风切 HTML？

2026-06-05

如何用AI提效，又不把脑子用废？

2026-05-14

为什么要构建个人知识体系？

2026-04-14

Coding Agent 的最终形态是 TUI + GUI 吗？

2026-02-04

谁来给桌面 Agent 的转正签字？

2026-01-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw