我要投稿

首次揭秘！腾讯多模态OCR大模型最新技术演进：没有最强OCR，只有无限进化！

发布日期：2025-06-20 11:13:44 浏览次数： 3082

作者：腾讯云开发者

微信搜一搜，关注“腾讯云开发者”

👉目录

1 技术演进

2 领域进展

3 技术要点

4 文档智能

5 实测体验

在各行业加速智能化转型的进程中，OCR技术（即光学字符识别，一种将图像中文字转化为可编辑文本的AI技术，在文档处理、办公自动化、交通出行、教育、医疗、金融等领域应用广泛。）一直扮演着重要的角色。正所谓“金无足赤”，随着业务场景日益复杂与需求多样化，传统OCR的局限性也逐渐成为制约企业转型发展的瓶颈。

从技术层面看，传统 OCR 对复杂场景的适应能力及上下文语义理解极为有限。对于存在多样化表格、混排内容、背景干扰、模糊、多语言混合等情况的图像难以准确地识别、分离出字符区域，导致识别错误率升高。

在识别能力上，传统 OCR 还缺乏灵活性，难以应对多样化的输入。不同的行业存在不同格式的文档和图像，而传统 OCR 往往难以快速适应这些变化，需要进行大量的调优或模型定制，进一步增加了使用成本和时间成本。

关注腾讯云开发者，一手技术干货提前解锁👇

鹅厂程序员面对面直播继续，每周将邀请鹅厂明星技术大咖讲解 AI 时代下的“程序员护城河”。更有蛇年公仔等精美周边等你来拿，记得提前预约直播～👇

当前，在AI大模型热潮下，OCR技术正迎来新一轮生产力效率变革。

在实际应用中，大模型加持的OCR可以更准确、灵活应对不同行业复杂多样的文档格式与版式，助力企业实现业务流程自动化升级，大幅提升运营效率与数据处理准确性。那么，鹅厂的多模态OCR大模型如今进展如何呢？

接下来，我们将通过一篇文章为大家全景展示鹅厂OCR多模态大模型最新技术进展与商业化。

01

技术演进

技术演进	技术路线	解决场景
OCR1.0	多阶段定制 OCR模型检测 + 识别 + 结构化	全文文字识别定制场景OCR 结构化提取
OCR2.0(DocLM-Base)	端到端OCR 大模型	单一模型支持检测、识别、结构化几类预定义好的任务
OCR3.0(DocLM-Large)	多模态OCR 模型	单一模型支持，Prompt 驱动（个性化需求）开放式任务，各类复杂场景识别、结构化提取

1.1 OCR 1.0：多阶段技术方案

在深入探讨OCR大模型之前，先回顾一下传统OCR技术的典型流程PPL。

典型OCR流程由文本检测模块、文字角度预测及扭曲矫正模块、文字识别模块、信息提取模块组成，阶段较多，且每个模块都具有一些瓶颈。

文本检测模块：在多行文字套打场景、非规则形状场景以及大小字混合场景中，容易错检、漏检。
角度预测及扭曲矫正模块：在多角度文本混合时易错分。此外，扭曲矫正通常只适用于特定的文本排列模式，如曲线文本。
识别模块：文字重叠、生僻字以及低质量图像时，由于无法基于整图信息结合上下文推测，这一模块的识别能力受限。
信息提取（结构化）模块：该模块通常基于复杂的规则或语义方案，泛化能力较弱，定制工作量大，且扩展性差。

1.2 OCR 2.0：端到端 OCR 大模型

由于后续模块难以修正前置模块的错误，这导致了错误的累积，使得在处理难度较高的场景时难以获得理想的效果。为了解决这些问题，并提高模型的泛化能力，腾讯优图实验室在 2022 年提出OCR大模型的方案，技术文章被计算机视觉顶会 ICCV 2023 录用。

对于OCR大模型，我们提出了以下三个核心目标：

端到端解决方案：通过一个统一的模型解决OCR中的链路问题，克服多阶段处理的瓶颈；
智能化：构建具有更强泛化能力的模型，实现单一模型并支持多种任务，能够有效处理 OCR 识别、KV 结构化提取等任务；
高效、高精度：OCR 大模型不仅在效果上优于原有多阶段技术方案，通过极致的性能优化，在推理耗时上也具备非常强的技术优势，单 Token 平均耗时低于 1ms。

腾讯优图 OCR 大模型（DocLM-Base）

KV 结构化示例

1.3 OCR 3.0：多模态 OCR 大模型

常规结构化任务是基于场景或者版式做的定制处理，成本很高。腾讯云OCR文档抽取（基础版），将结构化抽取任务抽象成从图像到结构化抽取文本的多模态翻译任务，解决了常规 K：V 场景的结构化抽取。但是实际业务还会面临更复杂的情况，包括：多页文档处理、文档多版式需要按照定义的规则输出（同个字段在名称上有较多不同形式的表达）、表格形式提取等，需要多模态大模型的通用图像理解能力。

特别是个性化需求：每个用户对于 OCR 有着自己独特的业务诉求，例如同样是表格，有用户希望按照结构化 KV 输出、Excel 输出、Markdown 输出等等；或者用户希望按照所提供的样例和自定义提取规则进行输出，这需要多模态大模型的Prompt理解能力。

02

领域进展

以 GPT-4o，Mini-GPT4、 LLAVA等为代表；该类模型通过超大规模的视觉语言预训练任务，使得模型具备比较好的图像感知及意图理解能力，这些模型的典型结构为：

图片摘自 LLAVA（https://arxiv.org/pdf/2304.08485 ）

实现流程：在原生纯文本大模型的基础上，将图像提取视觉特征（图像 Token）作为额外输出。

部分模型实测也具备一定的OCR识别能力，但工业实际应用时发现存在三个主要问题：

精度较低，识字能力偏弱，在常规任务上低于传统OCR模型的表现；
场景受限：仅适用于小分辨率的清晰印刷场景，同时输出形式上存在较大的不确定性;
成本高：推理成本为常规OCR模型的数百倍，不适应于高频的OCR任务。

03

技术要点

3.1 腾讯优图 OCR 大模型技术演进路线

腾讯优图实验室对于大规模预训练OCR 模型的探索始于 2019 年，目前的 OCR 大模型属于第五代大规模预训练模型（DocLM v5）。

3.2 高分辨率图像处理

OCR场景分辨率通常较高，部分图像可达到 4K。常规视觉多模态模型的处理尺寸为 224*224，或者 448*448，无法满足 OCR 需求。

业界也有出现一些处理方案，包括：

1）通过对于大分辨率划分成一些预先定义好的栅格，再针对每个栅格进行视觉编码和融合。

图摘自UReaderhttps://mm-chatgpt.oss-cn-zhangjiakou.aliyuncs.com/mplug_owl_demo/released_checkpoint/UReader_Arxiv.pdf

图摘自 InternVL（https://arxiv.org/pdf/2404.16821 ）

2）或者是对于图像按照转换为动态数量的 tokens。

以上方法可以一定程度上解决大分辨率的问题，但是随之而来的是会导致输入序列特别长，常规 4K 分辨率图像可以达到上万个视觉 Token，导致模型推理效率的大幅下降以及对于GPU 显存的高需求。

基于对文档类场景的观察，文档图像并非所有的视觉 Token 都具有价值，与问题 Prompt 相关的视觉 Token 一般只有 5% 或者更低，因此有较大幅度的空间可以压缩视觉表达，我们提出内容感知的视觉过滤机制，将与无关视觉信息过滤。如下面这张图，原始图片表达是 9126 个 Token，经过过滤后仅有 330 Token 与问题相关，压缩了 95% 以上的内容。

图摘自腾讯优图自研论文：HRVDA: High-Resolution Visual Document Assistant

具体实现流程：图像分完 Patch 后（可理解为将大的图片切分成非常多的小图片）通过一个可插拔的文字内容感知模块过滤非文字图像块得到裁剪后 Token。裁剪后的Token与指令特征融合，进一步过滤掉与指令无关的标记。最终，精简后的视觉标记和指令被输入到LLM中，生成相应的响应。总体对于视觉 Token 的过滤平均可以达到 90% 以上，大幅缩减了耗时。

图摘自腾讯优图自研论文：HRVDA: High-Resolution Visual Document Assistant

可视化操作过程：可以发现，模型在不断将图像特征进行过滤，首先过滤掉非文字部分，然后过滤掉非语义相关部分，最终仅关注与问题相关的图像区域，大幅降低了图像序列长度对于模型效果效果的影响。基于此方案，OCR能力边界轻松从单一的图像处理扩展到了多图处理，适用于复杂多图（如国际发票中，通常具有附页）端到端处理。

3.3 文档场景细粒度感知

文档对象对比学习（DoCo），专为VDU（文档智能理解）的下游任务设计。DoCo利用辅助文档多模态编码器获取文档对象的特征，并将其与LVLM视觉编码器生成的视觉特征对齐，从而增强文本密集场景中的视觉表示。对比学习文档对象的视觉整体表示和多模态细粒度特征，可以帮助视觉编码器获取更有效的视觉线索，从而提升LVLMs对文本密集文档的理解。

此外，腾讯优图实验室团队还证明了DoCo作为一种即插即用的预训练方法，可以在不增加推理过程计算复杂度的情况下用于各种LVLMs的预训练。多个VDU基准上的大量实验结果表明，配备DoCo的LVLMs可以实现更优性能，并缩小VDU与通用视觉语言任务之间的差距。

图摘自腾讯优图自研文章 Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

常规多模态大模型在文档场景通常很难做到细粒度感知，表现为文字识别错误、理解偏差等情况，我们发现该问题的发生主要是文档视觉特征没有和文本文字、文本坐标框这类文档场景特有的多模态属性进行对齐导致的。

基于此，我们在训练阶段，将文档中的坐标信息、文字信息同时进行编码，并通过对比学习的方式与图像特征进行对齐，增强文档细粒度感知，使得大模型在密集文字场景也取得了比较好的效果。

从图表和文档问答的实际表现中可以看出，文档细粒度对比学习在回答精准度上相比于业界常用的 CLIP 技术方案，有比较好的提升。

04

文档智能

前文提到传统OCR技术与性能的局限性。

从行业视角看，在物流、出行、金融、零售、医疗、教育、保险等领域，OCR一直有着高频使用需求。而在处理非标准化票据单据、多页合同、复杂文档识别上，传统OCR的准确率往往难以满足业务实际要求，这些技术瓶颈导致企业仍需投入大量人力进行二次核验，严重制约着业务流程自动化进程。

基于腾讯优图多模态OCR大模型，我们正式推出了【文档智能】OCR新能力，打造新一代智能文档处理平台，实现各类文档的高精度识别、智能解析与结构化信息抽取。

几点优势总结：

多模态融合解析：支持文本、图像、表格、版式等融合解析，突破传统OCR单模态解析局限。
识别到推理能力跃升：支持"数据抽取→语义理解→业务推理"三级能力跨越，更好的适配复杂业务场景。
基于百亿级参数架构，实现更高性能与识别精度：1）同等参数规模下处理速度行业领先，实现5ms/token的识别效率（平均单文档<2s）；2）在固定卡证票据版式中，识别精度高达97%，在版式多变或中英文混排等复杂文档场景，也能保持95%以上的准确率。
便捷易用：无需繁琐模型训练，开箱即用，支持API接入。

以交通物流、医疗保险理赔场景为例：

在（跨境）物流行业，票据单据的智能化处理直接影响企业运转与供应链协同效率及成本控制。腾讯云OCR文档智能针对物流行业核心场景提供一站式解决方案：

大宗货运磅单履约：精准识别重量、车牌、货物类型等关键字段信息，确保运输数据准确录入。
跨境货代提单识别：支持混合排版解析，自动提取提单号、集装箱号、收发件人信息，助力国际物流高效通关。
快递快运隐私面单：高精度识别收、寄件地址等信息，提升分拣效率，减少错派率。
国际invoice识别：国际invoice因企业全球化需求，存在版式多样、自定义差异大等问题，文档智能支持多语言混合、复杂表格、手写备注等多样化信息的高精度识别，泛化性更强。
差异化、模糊单据识别：1）支持全国各省市版式差异、200+保险公司版式、上千种收发货磅单版式；2）支持模糊/破损面单的容错处理、复杂背景（如塑封反光）下文字识别。

某物流企业接入文档智能产品后，单据处理时效从小时级缩短至分钟级，错误率下降60%，年节省人力成本超千万元，推动企业业务向全流程智能化迈进。

在医疗保险理赔业务中，传统OCR技术难以应对全国各医疗机构出具的非标准化、版式复杂、内容多样、病历字迹潦草的医疗单据（如门诊病历、住院清单、检查报告等）。

文档智能产品基于多模态OCR大模型的深度语义理解+结构化抽取技术，能够精准识别医疗文档中的关键字段（支持全国三甲医院200+版式模板），实现95%+的字段级识别准确率。