免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

多模态文档智能解析最新开源进展:GLM-OCR方法概述

发布日期:2026-02-03 16:32:43 浏览次数: 1539
作者:大模型自然语言处理

微信搜一搜,关注“大模型自然语言处理”

推荐语

GLM-OCR模型开源,文档解析性能达94.62分,新增卡证信息抽取能力,技术路线延续layout+vlm两阶段设计。

核心内容:
1. GLM-OCR模型的技术路线与性能表现
2. 新增的多模态信息抽取功能
3. 相关开源项目与技术方案汇总

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

继续跟进【文档智能】解析进展,继《多模态文档智能解析开源进展:针对形变文档优化的PaddleOCR-VL-1.5架构改进点》、《多模态文档智能解析持续开源进展:Youtu-Parsing模型架构、数据、训练方法》等开源后,这周又开源了一个GLM-OCR模型,从技术路线上,仍然是内卷式的重复造轮子,其解析pipeline遵循layout+vlm的两阶段方式,即:layout部分(模型使用的是paddleocr-PP-DocLayout-V3)、vlm是小参数的多模态模型。

功能

  • 文档解析:在 OmniDocBench V1.5 测试中获得 94.62 分,最近上新的模型似乎都差不多这个性能,可见这个评测榜也快被刷“废了”。
  • 多模态信息抽取(较其他新增):增加了一些KIE能力,比如卡证等信息抽取能力。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询