2026年6月4日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

还在用 MinerU 解析 PDF?这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%,速度还快 3.68 倍

发布日期:2026-05-30 07:35:23 浏览次数: 1524
作者:画风筝

微信搜一搜,关注“画风筝”

推荐语

还在用传统工具解析PDF吗?Infinity-Parser2开源模型刷新SOTA,一行命令实现极速精准转换。

核心内容:
1. Infinity-Parser2在权威基准测试中的突破性表现
2. 统一架构如何通过多任务强化学习实现六大功能
3. 极速2B小模型与SOTA 35B大模型的对比与开源获取

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
RAGino Sans GB , Microsoft YaHei UI , Microsoft YaHei ,Arial,sans-serif;font-size: 16px;line-height: 1.75;text-align: left;">

Infinity-Parser2 是一个开源多模态文档解析模型,用强化学习同时训练 6 个任务,35B Pro 版 SOTA、2B Flash 版极速,一行命令就能把 PDF 转成结构化 Markdown。

项目地址:https://github.com/infly-ai/INF-MLLM
HuggingFace:https://huggingface.co/infly/Infinity-Parser2-Pro
在线 Demo:https://huggingface.co/spaces/infly/Infinity-Parser2-Demo


前言

做 RAG、做知识库、做文档问答的同学,大概率都踩过同一个坑:PDF 解析

扫描版 PDF、带表格的论文、混排图文的技术文档、甚至还有化学公式和复杂图表——传统 OCR 工具(PaddleOCR、Tesseract)只能出「一堆乱码文字」,排版关系全丢了。后来有了 MinerU、Marker 这类开源方案,用多阶段 Pipeline(检测→识别→版面分析→重建)来处理,效果好了不少,但延迟高、部署重、遇到没见过版式就翻车。

最近,infly.ai 放出了 Infinity-Parser2,直接刷新了我对「文档解析」这件事的认知:

  • 35B Pro 版:olmOCR-bench 87.6%、ParseBench 74.3%,双双 SOTA,超过 DeepSeek-OCR-2、PaddleOCR-VL-1.5、MinerU-2.5
  • 2B Flash 版:推理速度 1624 tokens/sec,比自家上一代 7B 模型快 3.68 倍
  • 统一架构:一个模型同时搞定文档解析、表格提取、公式识别、图表转结构化数据、文档问答、化学式解析——不是靠堆 Pipeline,是靠 多任务强化学习(Joint RL) 训出来的

更关键的是,它完全开源,HuggingFace 上直接下载,一行 pip install infinity_parser2 就能跑。


数据说话:它到底强多少?

olmOCR-bench:文档解析基准

olmOCR-bench 是文档解析领域最权威的公开基准之一,测试模型把各种版式 PDF 转成结构化文本的能力。

Infinity-Parser2-Pro 87.6%,比 PaddleOCR-VL-1.5 高 7.6 个百分点,比 MinerU-2.5 高 12.4 个百分点。这意味着每 100 页 PDF,MinerU 会漏掉或错排约 25 页的内容,而 Infinity-Parser2-Pro 只错约 12 页。

更夸张的是 Flash 版(2B)也有 86.0%,只比 Pro 版低 1.6 个百分点——用小模型做到了别人大模型都做不到的成绩。

ParseBench:更难的解析质量测试

ParseBench 比 olmOCR-bench 更严格,考察复杂版式(多栏、嵌套表格、图文混排)下的解析准确率。

这里差距更悬殊:

  • Infinity-Parser2-Pro 74.3%,超过 Gemini-3-Pro(69.1%)
  • • PaddleOCR-VL-1.5 和 DeepSeek-OCR-2 都只有 40% 出头
  • • MinerU-2.5 也只有 45.9%

也就是说,Infinity-Parser2 在「最难的版式」上,准确率是竞品的 1.6~1.8 倍

多任务能力:一个模型顶六个

传统方案是「一个模型做 OCR,另一个做表格识别,再一个做版面分析……」拼在一起。Infinity-Parser2 用统一架构 + Joint RL 同时训练 6 个任务:

从数据上看,Infinity-Parser2-Pro 在所有任务上都有竞争力

  • 表格解析 PubTabNet:94.76%(超过 PaddleOCR-VL 的 84.6%)
  • 公式识别 UniMERNet:97.7%(超过 DeepSeek-OCR-2 的 79.8%)
  • 文档问答 DocVQA:96.43%(超过 DeepSeek-OCR-2 的 43.42%)
  • 化学式解析 CoSyn_Chemical:71.48%(DeepSeek-OCR-2 仅 52.16%)

很多竞品在部分任务上根本没有数据(N/A),说明它们要么不支持,要么效果太差不敢放 benchmark。


技术拆解:为什么它能这么强?

核心创新 1:可验证奖励的 Joint RL

Infinity-Parser2 最大的技术亮点不是「模型更大」,而是训练方式

传统多任务学习通常是「共享 backbone + 多个 task head」,每个任务各自优化。Infinity-Parser2 搞了一套可验证奖励系统(Verifiable Reward System)

  • • 文档解析任务:输出结构化 JSON,奖励 = 与 ground truth 的匹配度
  • • 表格任务:输出 HTML 表格,奖励 = 单元格准确率
  • • 公式任务:输出 LaTeX,奖励 = 编译成功率 + 语义等价性
  • • 图表任务:输出结构化数据,奖励 = 数值匹配率

这些奖励都是可自动验证的,不需要人工标注偏好数据。基于这套奖励,模型用 Joint Reinforcement Learning 同时优化所有任务——不是轮流训,是同一个 batch 里同时有 6 种任务的样本,梯度一起回传

结果:模型学会了「通用版面理解能力」,而不是死记硬背每种版式的模板。这就是为什么它零样本(zero-shot)能力特别强——遇到没见过的新版式,也能合理推断结构。

核心创新 2:500 万样本的动态数据引擎

数据方面,Infinity-Parser2 用了一个升级版合成数据引擎

  • • 支持固定版式(论文、报告、简历)和自由版式(网页截图、设计稿、手写笔记)
  • • 近 500 万 多样化文档解析样本
  • 动态自适应采样:训练过程中根据各任务的 loss 曲线自动调整采样比例,防止「简单任务垄断梯度」

这解决了多任务训练的经典难题:如果某个任务(比如普通文字 OCR)样本太多、loss 太低,它会「挤占」其他任务(比如化学公式)的训练机会。动态采样确保每个任务都有足够的「发言权」。

核心创新 3:Pro / Flash 双版本策略

Infinity-Parser2 提供了两个版本,覆盖不同部署场景:

       
                                           
版本参数量定位olmOCR-bench推理速度
Pro35B精度优先,云端部署87.6%标准
Flash2B速度优先,边缘/本地86.0%1624 tok/s
       
     

Flash 版只比 Pro 版低 1.6 个百分点,但速度快了数倍。对于需要实时解析的场景(比如用户上传 PDF 立刻预览),Flash 版是更务实的选择。


上手体验:30 秒跑起来

方式 1:命令行(最简单)

# 安装
pip install infinity_parser2

# 解析单个 PDF(输出 Markdown)

parser demo.pdf

# 解析图片

parser demo.png

# 批量处理

parser file1.pdf file2.png -o ./output

# 解析整个目录

parser ./docs/ -o ./parsed/

第一次运行会自动下载模型(Flash 版约 2B,下载很快)。

方式 2:Python API(更灵活)

from PIL import Image
import
 torch
from
 transformers import AutoModelForImageTextToText, AutoProcessor
from
 qwen_vl_utils import process_vision_info

# 加载模型(Pro 版)

model = AutoModelForImageTextToText.from_pretrained(
    "infly/Infinity-Parser2-Pro"
,
    torch_dtype="float16",
    device_map="auto",
)
processor = AutoProcessor.from_pretrained("infly/Infinity-Parser2-Pro")

# 读取图片

pil_image = Image.open("demo.png").convert("RGB")

# 构建 prompt(提取版面信息 + 结构化输出)

prompt = """
- Extract layout information from the provided PDF image.
- For each layout element, output its bbox, category, and text content.
- Bbox format: [x1, y1, x2, y2].
- Allowed categories: ['header', 'title', 'text', 'figure', 'table', 'formula', ...].
- For 'formula', format text as LaTeX.
- For 'table', format text as HTML.
- For all others, format text as Markdown.
- Sort all elements in human reading order.
- Final output must be a single JSON object.
"""


messages = [{
    "role"
: "user",
    "content"
: [
        {"type": "image", "image": pil_image, "min_pixels": 2048, "max_pixels": 16777216},
        {"type": "text", "text": prompt},
    ],
}]

# 处理并生成

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(messages, image_patch_size=16)
inputs = processor(text=text, images=image_inputs, do_resize=False, padding=True, return_tensors="pt")
inputs = {k: v.to(model.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}

generated_ids = model.generate(**inputs, max_new_tokens=32768, temperature=0.0, top_p=1.0)
generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs["input_ids"], generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True)
print
(output_text)

方式 3:vLLM 部署(生产环境)

对于高并发场景,可以用 vLLM 部署:

# 安装依赖
pip install vllm==0.17.1

# 启动服务(具体命令参考官方文档)

# 支持 continuous batching,多用户同时解析不卡顿

竞品怎么选?一张图说清楚

我的建议

  • 如果你做企业级知识库/RAG,精度要求高 → Infinity-Parser2-Pro(35B)
  • 如果你做 C 端应用,需要实时解析、成本控制 → Infinity-Parser2-Flash(2B)
  • 如果你已经在用 MinerU,不想换 → 可以并行对比测试,复杂版式上 Infinity-Parser2 优势明显
  • 如果你需要闭源 API、不想自己部署 → Gemini-3-Pro 的 ParseBench 69.1% 也不错,但贵

不适用场景

  • • 纯手写体识别(Infinity-Parser2 针对印刷体 + 电子文档优化)
  • • 需要 100% 精确格式的法律/金融文档(建议人工复核 + 规则后处理)

写在最后

Infinity-Parser2 让我看到了文档解析领域的两个趋势:

  1. 1. 端到端 VLM 正在取代多阶段 Pipeline——不是「检测→识别→重建」的接力赛,而是一个模型直接「看」懂版面、输出结构化结果
  2. 2. 可验证奖励的 RL 是多任务学习的正确打开方式——不需要人工偏好标注,自动奖励信号就能训出强泛化能力

对于工程师来说,这意味着:部署更简单了。以前要搭一套 OCR + 版面分析 + 表格识别的服务,现在一个模型 + vLLM 就能搞定。

infly.ai 团队还开源了 Infinity-Doc2-5M 数据集(500 万文档解析样本),以及完整的训练代码。如果你想在自己的业务数据上微调,基础设施是现成的。

项目还在快速迭代,GitHub 上已经有 GGUF 量化版(本地 CPU 可跑)、FP8 压缩版。建议先 Star 住,后续更新不会错过。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询