微信扫码
添加专属顾问
我要投稿
还在用传统工具解析PDF吗?Infinity-Parser2开源模型刷新SOTA,一行命令实现极速精准转换。 核心内容: 1. Infinity-Parser2在权威基准测试中的突破性表现 2. 统一架构如何通过多任务强化学习实现六大功能 3. 极速2B小模型与SOTA 35B大模型的对比与开源获取
Infinity-Parser2 是一个开源多模态文档解析模型,用强化学习同时训练 6 个任务,35B Pro 版 SOTA、2B Flash 版极速,一行命令就能把 PDF 转成结构化 Markdown。
项目地址:https://github.com/infly-ai/INF-MLLM
HuggingFace:https://huggingface.co/infly/Infinity-Parser2-Pro
在线 Demo:https://huggingface.co/spaces/infly/Infinity-Parser2-Demo
做 RAG、做知识库、做文档问答的同学,大概率都踩过同一个坑:PDF 解析。
扫描版 PDF、带表格的论文、混排图文的技术文档、甚至还有化学公式和复杂图表——传统 OCR 工具(PaddleOCR、Tesseract)只能出「一堆乱码文字」,排版关系全丢了。后来有了 MinerU、Marker 这类开源方案,用多阶段 Pipeline(检测→识别→版面分析→重建)来处理,效果好了不少,但延迟高、部署重、遇到没见过版式就翻车。
最近,infly.ai 放出了 Infinity-Parser2,直接刷新了我对「文档解析」这件事的认知:
更关键的是,它完全开源,HuggingFace 上直接下载,一行 pip install infinity_parser2 就能跑。
olmOCR-bench 是文档解析领域最权威的公开基准之一,测试模型把各种版式 PDF 转成结构化文本的能力。
Infinity-Parser2-Pro 87.6%,比 PaddleOCR-VL-1.5 高 7.6 个百分点,比 MinerU-2.5 高 12.4 个百分点。这意味着每 100 页 PDF,MinerU 会漏掉或错排约 25 页的内容,而 Infinity-Parser2-Pro 只错约 12 页。
更夸张的是 Flash 版(2B)也有 86.0%,只比 Pro 版低 1.6 个百分点——用小模型做到了别人大模型都做不到的成绩。
ParseBench 比 olmOCR-bench 更严格,考察复杂版式(多栏、嵌套表格、图文混排)下的解析准确率。
这里差距更悬殊:
也就是说,Infinity-Parser2 在「最难的版式」上,准确率是竞品的 1.6~1.8 倍。
传统方案是「一个模型做 OCR,另一个做表格识别,再一个做版面分析……」拼在一起。Infinity-Parser2 用统一架构 + Joint RL 同时训练 6 个任务:
从数据上看,Infinity-Parser2-Pro 在所有任务上都有竞争力:
很多竞品在部分任务上根本没有数据(N/A),说明它们要么不支持,要么效果太差不敢放 benchmark。
Infinity-Parser2 最大的技术亮点不是「模型更大」,而是训练方式。
传统多任务学习通常是「共享 backbone + 多个 task head」,每个任务各自优化。Infinity-Parser2 搞了一套可验证奖励系统(Verifiable Reward System):
这些奖励都是可自动验证的,不需要人工标注偏好数据。基于这套奖励,模型用 Joint Reinforcement Learning 同时优化所有任务——不是轮流训,是同一个 batch 里同时有 6 种任务的样本,梯度一起回传。
结果:模型学会了「通用版面理解能力」,而不是死记硬背每种版式的模板。这就是为什么它零样本(zero-shot)能力特别强——遇到没见过的新版式,也能合理推断结构。
数据方面,Infinity-Parser2 用了一个升级版合成数据引擎:
这解决了多任务训练的经典难题:如果某个任务(比如普通文字 OCR)样本太多、loss 太低,它会「挤占」其他任务(比如化学公式)的训练机会。动态采样确保每个任务都有足够的「发言权」。
Infinity-Parser2 提供了两个版本,覆盖不同部署场景:
| 版本 | 参数量 | 定位 | olmOCR-bench | 推理速度 |
|---|---|---|---|---|
| Pro | 35B | 精度优先,云端部署 | 87.6% | 标准 |
| Flash | 2B | 速度优先,边缘/本地 | 86.0% | 1624 tok/s |
Flash 版只比 Pro 版低 1.6 个百分点,但速度快了数倍。对于需要实时解析的场景(比如用户上传 PDF 立刻预览),Flash 版是更务实的选择。
# 安装
pip install infinity_parser2
# 解析单个 PDF(输出 Markdown)
parser demo.pdf
# 解析图片
parser demo.png
# 批量处理
parser file1.pdf file2.png -o ./output
# 解析整个目录
parser ./docs/ -o ./parsed/第一次运行会自动下载模型(Flash 版约 2B,下载很快)。
from PIL import Image
import torch
from transformers import AutoModelForImageTextToText, AutoProcessor
from qwen_vl_utils import process_vision_info
# 加载模型(Pro 版)
model = AutoModelForImageTextToText.from_pretrained(
"infly/Infinity-Parser2-Pro",
torch_dtype="float16",
device_map="auto",
)
processor = AutoProcessor.from_pretrained("infly/Infinity-Parser2-Pro")
# 读取图片
pil_image = Image.open("demo.png").convert("RGB")
# 构建 prompt(提取版面信息 + 结构化输出)
prompt = """
- Extract layout information from the provided PDF image.
- For each layout element, output its bbox, category, and text content.
- Bbox format: [x1, y1, x2, y2].
- Allowed categories: ['header', 'title', 'text', 'figure', 'table', 'formula', ...].
- For 'formula', format text as LaTeX.
- For 'table', format text as HTML.
- For all others, format text as Markdown.
- Sort all elements in human reading order.
- Final output must be a single JSON object.
"""
messages = [{
"role": "user",
"content": [
{"type": "image", "image": pil_image, "min_pixels": 2048, "max_pixels": 16777216},
{"type": "text", "text": prompt},
],
}]
# 处理并生成
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, _ = process_vision_info(messages, image_patch_size=16)
inputs = processor(text=text, images=image_inputs, do_resize=False, padding=True, return_tensors="pt")
inputs = {k: v.to(model.device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
generated_ids = model.generate(**inputs, max_new_tokens=32768, temperature=0.0, top_p=1.0)
generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs["input_ids"], generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True)
print(output_text)对于高并发场景,可以用 vLLM 部署:
# 安装依赖
pip install vllm==0.17.1
# 启动服务(具体命令参考官方文档)
# 支持 continuous batching,多用户同时解析不卡顿我的建议:
不适用场景:
Infinity-Parser2 让我看到了文档解析领域的两个趋势:
对于工程师来说,这意味着:部署更简单了。以前要搭一套 OCR + 版面分析 + 表格识别的服务,现在一个模型 + vLLM 就能搞定。
infly.ai 团队还开源了 Infinity-Doc2-5M 数据集(500 万文档解析样本),以及完整的训练代码。如果你想在自己的业务数据上微调,基础设施是现成的。
项目还在快速迭代,GitHub 上已经有 GGUF 量化版(本地 CPU 可跑)、FP8 压缩版。建议先 Star 住,后续更新不会错过。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-30
Qwen-VLA:迈向通用具身智能的统一动作框架
2026-05-25
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
2026-05-19
从画稿到代码,AI Agent 正在吃掉产品设计的中间环节
2026-05-16
PDF解析折腾半年,最后靠这套方案搞定了
2026-04-27
一个神奇的视频生成 Skills,实测,狂喜
2026-04-26
你的一人公司品牌部,带着Image-2模型的lovart中文版来了
2026-04-22
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
2026-04-22
刚刚!Codex 居然能直接画图了,OpenAI 凌晨甩出 Image 2.0
2026-04-22
2026-04-01
2026-03-05
2026-04-02
2026-03-11
2026-03-18
2026-03-29
2026-03-15
2026-04-21
2026-04-09
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30