我要投稿

OCR又出宠OpenDoc，速度超MinerU6倍

发布日期：2026-02-02 12:19:36 浏览次数： 1927

作者：CourseAI

微信搜一搜，关注“CourseAI”

复旦开源的OpenOCR，面向「文字检测与识别」、「公式与表格识别」、「文档解析和理解」等通用 OCR 任务的开源平台。其中，OpenDoc是一个仅有0.1B参数的超轻量文档解析系统。

OpenDoc跟MinerU非常类似，同样是Pipeline多阶段的解析模式.

可见在文档解析领域，即要快，又要准的的情况下，小参数模型pieline模式，比大参数端到端的模型更具有竞争力。

二者最重要的区别在于，MinerU是一个缝合怪，每个独立阶段的连接处，都有很多小技巧，来弥补上下游误差的损失，一旦用自己训练的垂直领域的模型，替换中间某个模型，就很容易放大这些误差，导致垂直领域的解析效果变差。

OpenDoc虽然也是Pipeline模式，但是它只有两个阶段：先做版面分析，后做解析。

版面分析，用的百度PP-DocLayoutV2，模型小识别速度快
解析：用UniRec-0.1B，同时覆盖了：纯文本（单词、行、段落）、公式（单行、多行）、文本与公式混合的内容，以及表格。

两阶段的文档解析，就不会放大每阶段的误差，微调UniRec-0.1B就可以。

UniRec-0.1B

模型架构

图像编码器（Image Encoder）：采用FocalNet架构，输入图像保持原始长宽比，最大尺寸960×1408像素。
视觉token化：将空间维度展平为token序列
语义解耦分词器（SDT）：将包含层级监督token的文本标签转换为离散token序列
多模态解码器（Decoder）：6层Transformer，带交叉注意力模块

技术创新一：分层监督训练（ HST）

传统的序列生成模型将文档内容视为扁平的token序列，忽略了文本固有的层级结构（行内关系、段落边界）。

这种简化限制了模型对空间布局表征的学习能力。

例如，一个段落内的多行文本之间存在明确的阅读顺序和紧密的语义关联，而段落之间的分割则意味着主题转换。

方案：

HST通过在标签序列中显式插入层级监督token，引导模型学习结构化的空间依赖
<|ln|>（Line Break Token）：表示段落内的换行，用于分隔同一段落中的不同文本行
<|pn|>（Paragraph Break Token）：表示段落结束，用于分隔不同段落在训练阶段，这些特殊token作为监督信号强制模型预测结构边界；在推理阶段，<|ln|>被移除，<|pn|>被替换为两个换行符\n\n，从而准确重建文档的段落结构。

HST能够有效捕获跨行、跨段落的结构依赖，尤其对复杂布局文档效果显著。

技术创新二：语义解耦分词器（SDT）

现有方法（如Dolphin Tokenizer）通常在混合语料上训练单一的BPE分词器，导致文本token与公式token共享嵌入空间。

例如：字符串"sum"、"infty"、"frac"在文本语境中是普通词汇，在公式语境中则是命令词，但耦合分词器赋予它们相同的embedding。

对于大模型，这种歧义可通过上下文消歧；但对于0.1B参数的小模型，容量限制使其难以有效区分，导致严重的语义混淆和识别错误。

方案

SDT采用完全分离的训练策略：

独立训练：分别在纯文本语料和公式语料上训练两个独立的分词器
词汇合并：将公式分词器的token以"特殊token"形式合并入文本分词器，排除已存在于文本词汇表中的重复项
语义隔离：确保相同字符串在文本和公式模态下拥有截然不同的token ID和embedding

在SDT中，"sum"、"infty"等词在文本和公式模态下拥有独立的embedding向量，从根本上消除了跨模态语义纠缠。

UniRec的特点

准确率对比：

推理速度：

相比PaddleOCR-VL：5.1倍加速（block级），5.1倍加速（page级）
相比MinerU2.5：6.9倍加速（page级）
相比Dolphin-1.5：2.1倍加速

小结

在对性能、速度有极致要求的情况下，pipeline是非常有竞争优势的，但是链路不宜太多，2层足以。
在确定用小模型解析的情况下，语义解耦很重要，能有效防止在解码时产生歧义，导致解码错误
通过精细的数据工程、任务特定的架构设计和针对性的训练策略，小模型完全可以在特定垂直领域超越通用大模型的性能

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-17

打造 Claude Code 并行自主开发环境：Auto Claude + GLM 4.7

2026-03-17

又一款开源的LLM生成3D场景的3D编辑器，这次功能更强大了

2026-03-17

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

腾讯混元AI Infra核心技术重磅开源：推理吞吐提升30%！

2026-03-17

英伟达重磅开源！Nemotron 3 Super：专为AI智能体打造的"超级大脑

2026-03-16

22.4K Stars，减少 93% 上下文。AI Agents 专用浏览器自动化 CLI 真强！

2026-03-13

你的 AI Agent 真的在受控运行吗？

2026-03-12

Harness Engineering 的防御视角：从 Codex Security 看 AI 生成代码的治理

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

重磅开源！Kimi K2.5 本地部署全攻略：手把手教你跑通 1T MoE 巨兽

2026-01-30

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

实测Kimi K2.5，这是一款厌丑的开源模型

2026-01-27

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

OpenWork：Claude Cowork 的开源替代品

2026-01-21

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

Claude Code最强开源对手！GitHub 50.2k Star了，作者为它烧掉2.4w美元。

2026-01-06

大家都在问

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

137K 行代码、零 clippy 警告：这个开源项目凭什么让 AI Agent 领域炸锅？

2026-03-02

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部