微信扫码
添加专属顾问
我要投稿
PDF 解析速度提升 88 倍,LlamaIndex 团队用 Rust 和 C 语言引擎重构解析器,让 Agent 处理文档不再等待。 核心内容: 1. LiteParse 的核心性能突破:使用 Rust 绑定 Google 的 C 语言引擎 PDFium 2. 智能的混合解析策略:结合原生文本提取与按需 OCR 3. 项目的开源背景、社区现状与多格式支持
| LiteParse:457 页 PDF 不到 1 秒,LlamaIndex 把解析器用 Rust 重写了 |
8.6k Star,Rust 重写,零 LLM 调用,比 PyMuPDF 快 88 倍。纯本地、全平台、Agent 开箱即用。 |
给 Agent 喂 PDF,第一步永远是解析。这个环节有多慢?
PyMuPDF,Python 生态最常用的 PDF 库,解析一份 100MB、457 页的 PDF,68.8 秒。等 Agent 看到文档内容,用户已经泡好咖啡了。
LiteParse 做同一件事:0.777 秒。
不是多线程,不是 GPU,就是 Rust 替换了 Python。
| 这不是又一个 PDF 库 |
LiteParse 是 LlamaIndex 团队今年 2 月开源的。一开始是 TypeScript 写的,只有 Node.js 能用。4 月底——LlamaIndex 做了一个狠决定:全量 Rust 重写。 v2.0 上周刚发。8.6k Star,20 个 contributors,50 个 release。社区增速很快。 |
| 为什么快:不是 Rust,是 PDFium |
大部分人看到 "Rust 重写" 就默认归因于语言。但 LiteParse 快的关键是 PDFium。 |
| 实测 |
装了 Python 版跑了几份真实文档。 1pip install liteparse1from liteparse import LiteParse23parser = LiteParse()4result = parser.parse("irs_1040.pdf")5print(f"Pages: {len(result.pages)}, Items: {len(result.pages[0].text_items)}")6# Pages: 2, Items: 127一份 IRS 税表,两页,127 个文本项。每个项有精确的 bbox 坐标和 confidence 分数: 1{2 "text": "Form 1040",3 "bbox": [72.0, 96.0, 228.0, 118.0],4 "confidence": 1.05}批处理也顺手: 1lit batch-parse ./pdfs ./output --format json --recursive截图功能是给 Agent 用的—— |
| 多语言绑定:不是包装,是原生 |
很多人把"支持 Python"理解为"包了一层 CLI 调用"。LiteParse 不是——它用了 PyO3(Rust → Python 原生绑定),Python 调用直接走 Rust 函数,零序列化开销。 WASM 版是真正的亮点。 38KB 的 JS 胶水 + wasm 二进制,直接在浏览器跑 PDFium。全程本地,零上传。Simon Willison 做了一个浏览器 Demo,验证过"解析过程中没有任何网络请求"。 |
| 和同类比 |
| LiteParse v2PyMuPDFpdfplumberLlamaParse(云)引擎PDFium (C)MuPDF (C)pdfminer (Py)LLM + Layout457页耗时0.777s68.8s~120sN/A(云延迟)OCR内置 Tesseract无无LLM表格基础基础强强(LLM)隐私纯本地纯本地纯本地上传价格免费免费免费按 tokenAgent Skill✅ 已集成❌❌API Agent 集成是独特优势: 1npx skills add run-llama/llamaparse-agent-skills --skill liteparseClaude Code / Codex / OpenCode 直接就能用。不用写胶水代码。 |
| 但它不是银弹 |
LiteParse 的 README 很诚实,开头就写了: "Hitting the limits of local parsing? For complex documents (dense tables, multi-column layouts, charts, handwritten text, or scanned PDFs), you'll get significantly better results with LlamaParse."这句话翻译:复杂文档别找我,去用付费版。
|
| 谁适合用 |
适合:
不适合:
|
| 总结 |
LiteParse 是目前最快的开源 PDF 解析器,没有之一。 LiteParse — Apache 2.0,Rust 70%。v2.0 上周刚发,8.6k Stars。 |
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-02
开源的本地文档解析神器,实测,快如闪电,400 页 PDF 仅需 1 秒
2026-04-08
用 LlamaIndex 让 AI 读懂你的 Excel:三种方案详解
2025-12-04
LlamaIndex 深度实战:用《长安的荔枝》学会构建智能问答系统
2025-09-29
LlamaIndex 开发多智能体 Agents 入门基础
2025-09-27
LlamaIndex 开发智能体 Agents 要点解析
2025-07-21
LlamaIndex 是什么?普通人也能用它构建 AI 应用?
2025-07-13
手把手教你用 LlamaIndex 构建专属AI问答系统(新手友好版)
2025-07-04
LlamaIndex 开发大模型 Agent Workflow攻略