我要投稿

还在用 MinerU 解析 PDF？这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%，速度还快 3.68 倍

发布日期：2026-05-30 07:35:23 浏览次数： 1524

作者：画风筝

微信搜一搜，关注“画风筝”

RAGino Sans GB , Microsoft YaHei UI , Microsoft YaHei ,Arial,sans-serif;font-size: 16px;line-height: 1.75;text-align: left;">

Infinity-Parser2 是一个开源多模态文档解析模型，用强化学习同时训练 6 个任务，35B Pro 版 SOTA、2B Flash 版极速，一行命令就能把 PDF 转成结构化 Markdown。

项目地址：https://github.com/infly-ai/INF-MLLM
HuggingFace：https://huggingface.co/infly/Infinity-Parser2-Pro
在线 Demo：https://huggingface.co/spaces/infly/Infinity-Parser2-Demo

前言

做 RAG、做知识库、做文档问答的同学，大概率都踩过同一个坑：PDF 解析。

扫描版 PDF、带表格的论文、混排图文的技术文档、甚至还有化学公式和复杂图表——传统 OCR 工具（PaddleOCR、Tesseract）只能出「一堆乱码文字」，排版关系全丢了。后来有了 MinerU、Marker 这类开源方案，用多阶段 Pipeline（检测→识别→版面分析→重建）来处理，效果好了不少，但延迟高、部署重、遇到没见过版式就翻车。

最近，infly.ai 放出了 Infinity-Parser2，直接刷新了我对「文档解析」这件事的认知：

• 35B Pro 版：olmOCR-bench 87.6%、ParseBench 74.3%，双双 SOTA，超过 DeepSeek-OCR-2、PaddleOCR-VL-1.5、MinerU-2.5
• 2B Flash 版：推理速度 1624 tokens/sec，比自家上一代 7B 模型快 3.68 倍
• 统一架构：一个模型同时搞定文档解析、表格提取、公式识别、图表转结构化数据、文档问答、化学式解析——不是靠堆 Pipeline，是靠 多任务强化学习（Joint RL） 训出来的

更关键的是，它完全开源，HuggingFace 上直接下载，一行 pip install infinity_parser2 就能跑。

数据说话：它到底强多少？

olmOCR-bench：文档解析基准

olmOCR-bench 是文档解析领域最权威的公开基准之一，测试模型把各种版式 PDF 转成结构化文本的能力。

Infinity-Parser2-Pro 87.6%，比 PaddleOCR-VL-1.5 高 7.6 个百分点，比 MinerU-2.5 高 12.4 个百分点。这意味着每 100 页 PDF，MinerU 会漏掉或错排约 25 页的内容，而 Infinity-Parser2-Pro 只错约 12 页。

更夸张的是 Flash 版（2B）也有 86.0%，只比 Pro 版低 1.6 个百分点——用小模型做到了别人大模型都做不到的成绩。

ParseBench：更难的解析质量测试

ParseBench 比 olmOCR-bench 更严格，考察复杂版式（多栏、嵌套表格、图文混排）下的解析准确率。

这里差距更悬殊：

• Infinity-Parser2-Pro 74.3%，超过 Gemini-3-Pro（69.1%）
• PaddleOCR-VL-1.5 和 DeepSeek-OCR-2 都只有 40% 出头
• MinerU-2.5 也只有 45.9%

也就是说，Infinity-Parser2 在「最难的版式」上，准确率是竞品的 1.6～1.8 倍。

多任务能力：一个模型顶六个

传统方案是「一个模型做 OCR，另一个做表格识别，再一个做版面分析……」拼在一起。Infinity-Parser2 用统一架构 + Joint RL 同时训练 6 个任务：

从数据上看，Infinity-Parser2-Pro 在所有任务上都有竞争力：

• 表格解析 PubTabNet：94.76%（超过 PaddleOCR-VL 的 84.6%）
• 公式识别 UniMERNet：97.7%（超过 DeepSeek-OCR-2 的 79.8%）
• 文档问答 DocVQA：96.43%（超过 DeepSeek-OCR-2 的 43.42%）
• 化学式解析 CoSyn_Chemical：71.48%（DeepSeek-OCR-2 仅 52.16%）

很多竞品在部分任务上根本没有数据（N/A），说明它们要么不支持，要么效果太差不敢放 benchmark。

技术拆解：为什么它能这么强？

核心创新 1：可验证奖励的 Joint RL

Infinity-Parser2 最大的技术亮点不是「模型更大」，而是训练方式。

传统多任务学习通常是「共享 backbone + 多个 task head」，每个任务各自优化。Infinity-Parser2 搞了一套可验证奖励系统（Verifiable Reward System）：

• 文档解析任务：输出结构化 JSON，奖励 = 与 ground truth 的匹配度
• 表格任务：输出 HTML 表格，奖励 = 单元格准确率
• 公式任务：输出 LaTeX，奖励 = 编译成功率 + 语义等价性
• 图表任务：输出结构化数据，奖励 = 数值匹配率

这些奖励都是可自动验证的，不需要人工标注偏好数据。基于这套奖励，模型用 Joint Reinforcement Learning 同时优化所有任务——不是轮流训，是同一个 batch 里同时有 6 种任务的样本，梯度一起回传。

结果：模型学会了「通用版面理解能力」，而不是死记硬背每种版式的模板。这就是为什么它零样本（zero-shot）能力特别强——遇到没见过的新版式，也能合理推断结构。

核心创新 2：500 万样本的动态数据引擎

数据方面，Infinity-Parser2 用了一个升级版合成数据引擎：

• 支持固定版式（论文、报告、简历）和自由版式（网页截图、设计稿、手写笔记）
• 近 500 万 多样化文档解析样本
• 动态自适应采样：训练过程中根据各任务的 loss 曲线自动调整采样比例，防止「简单任务垄断梯度」

这解决了多任务训练的经典难题：如果某个任务（比如普通文字 OCR）样本太多、loss 太低，它会「挤占」其他任务（比如化学公式）的训练机会。动态采样确保每个任务都有足够的「发言权」。

核心创新 3：Pro / Flash 双版本策略

Infinity-Parser2 提供了两个版本，覆盖不同部署场景：

版本	参数量	定位	olmOCR-bench	推理速度
Pro	35B	精度优先，云端部署	87.6%	标准
Flash	2B	速度优先，边缘/本地	86.0%	1624 tok/s

Flash 版只比 Pro 版低 1.6 个百分点，但速度快了数倍。对于需要实时解析的场景（比如用户上传 PDF 立刻预览），Flash 版是更务实的选择。

上手体验：30 秒跑起来

方式 1：命令行（最简单）

# 安装
pip install infinity_parser2

# 解析单个 PDF（输出 Markdown）
parser demo.pdf

# 解析图片
parser demo.png

# 批量处理
parser file1.pdf file2.png -o ./output

# 解析整个目录
parser ./docs/ -o ./parsed/

第一次运行会自动下载模型（Flash 版约 2B，下载很快）。

方式 2：Python API（更灵活）

from PIL import Image
import torch
from transformers import AutoModelForImageTextToText, AutoProcessor
from qwen_vl_utils import process_vision_info

# 加载模型（Pro 版）
model = AutoModelForImageTextToText.from_pretrained(
    "infly/Infinity-Parser2-Pro",
    torch_dtype="float16",
    device_map="auto",
)
processor = AutoProcessor.from_pretrained("infly/Infinity-Parser2-Pro")

# 读取图片
pil_image = Image.open("demo.png").convert("RGB")

# 构建 prompt（提取版面信息 + 结构化输出）
prompt = """
- Extract layout information from the provided PDF image.
- For each layout element, output its bbox, category, and text content.
- Bbox format: [x1, y1, x2, y2].
- Allowed categories: ['header', 'title', 'text', 'figure', 'table', 'formula', ...].
- For 'formula', format text as LaTeX.
- For 'table', format text as HTML.
- For all others, format text as Markdown.
- Sort all elements in human reading order.
- Final output must be a single JSON object.
"""

messages = [{
    "role": "user",
    "content": [
        {"type": "image", "image": pil_image, "min_pixels": 2048, "max_pixels": 16777216},
        {"type": "text", "text": prompt},
    ],
}]

# 处理并生成
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(messages, image_patch_size=16)
inputs = processor(text=text, images=image_inputs, do_resize=False, padding=True, return_tensors="pt")
inputs = {k: v.to(model.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}

generated_ids = model.generate(**inputs, max_new_tokens=32768, temperature=0.0, top_p=1.0)
generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs["input_ids"], generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True)
print(output_text)

方式 3：vLLM 部署（生产环境）

对于高并发场景，可以用 vLLM 部署：

# 安装依赖
pip install vllm==0.17.1

# 启动服务（具体命令参考官方文档）
# 支持 continuous batching，多用户同时解析不卡顿

竞品怎么选？一张图说清楚

我的建议：

• 如果你做企业级知识库/RAG，精度要求高 → Infinity-Parser2-Pro（35B）
• 如果你做 C 端应用，需要实时解析、成本控制 → Infinity-Parser2-Flash（2B）
• 如果你已经在用 MinerU，不想换 → 可以并行对比测试，复杂版式上 Infinity-Parser2 优势明显
• 如果你需要闭源 API、不想自己部署 → Gemini-3-Pro 的 ParseBench 69.1% 也不错，但贵

不适用场景：

• 纯手写体识别（Infinity-Parser2 针对印刷体 + 电子文档优化）
• 需要 100% 精确格式的法律/金融文档（建议人工复核 + 规则后处理）

写在最后

Infinity-Parser2 让我看到了文档解析领域的两个趋势：

1. 端到端 VLM 正在取代多阶段 Pipeline——不是「检测→识别→重建」的接力赛，而是一个模型直接「看」懂版面、输出结构化结果
2. 可验证奖励的 RL 是多任务学习的正确打开方式——不需要人工偏好标注，自动奖励信号就能训出强泛化能力

对于工程师来说，这意味着：部署更简单了。以前要搭一套 OCR + 版面分析 + 表格识别的服务，现在一个模型 + vLLM 就能搞定。

infly.ai 团队还开源了 Infinity-Doc2-5M 数据集（500 万文档解析样本），以及完整的训练代码。如果你想在自己的业务数据上微调，基础设施是现成的。

项目还在快速迭代，GitHub 上已经有 GGUF 量化版（本地 CPU 可跑）、FP8 压缩版。建议先 Star 住，后续更新不会错过。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-30

Qwen-VLA：迈向通用具身智能的统一动作框架

2026-05-25

罗福莉说的“伪多Agent”，我试了OmniWork后发现，真全干专家长这样

2026-05-19

从画稿到代码，AI Agent 正在吃掉产品设计的中间环节

2026-05-16

PDF解析折腾半年，最后靠这套方案搞定了

2026-04-27

一个神奇的视频生成 Skills，实测，狂喜

2026-04-26

你的一人公司品牌部，带着Image-2模型的lovart中文版来了

2026-04-22

MNN-Sana-Edit-V2：端侧运行的图像漫画风编辑大模型

2026-04-22

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

刚刚！Codex 居然能直接画图了，OpenAI 凌晨甩出 Image 2.0

2026-04-22

震惊！即梦推出 CLI，Agent 一行命令生成 Seedance 2.0 视频，AI 视频井喷

2026-04-01

零帧起手 Codex × Figma 双向工作流实操

2026-03-05

全解读｜智谱 GLM-5V-Turbo 发布，多模态 Coding 基模

2026-04-02

Google 发布首个全模态 Embedding 2 模型，文本图片音视频 PDF 统一到一个向量空间

2026-03-11

GLM-OCR技术细节全公开

2026-03-18

让“龙虾”帮你自动赚钱！OpenClaw Seedance 2.0 视频生成全攻略

2026-03-29

我复刻了 Claude 刚发布的生成式 UI 交互！

2026-03-15

用Claude Code剪视频，自动去口癖、加字幕、调色，完全免费开源

2026-04-21

豆包「打电话」升级 Seeduplex：周围再吵，只认准你的声音

2026-04-09

大家都在问

Gemini Embedding 2把多模态信息整合同一向量空间了，还需要多向量列吗？

2026-03-12

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw