2026年3月27日,来腾讯会议(限30人)了解掌握如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

0.9B小模型碾压PaddleOCR!GLM-OCR本地OCR新王者来了

发布日期:2026-03-17 07:09:06 浏览次数: 1535
作者:知识发电机

微信搜一搜,关注“知识发电机”

推荐语

GLM-OCR以0.9B小模型实现OCR领域突破,1.5GB显存即可离线运行,精准度碾压PaddleOCR直逼Gemini Pro。

核心内容:
1. GLM-OCR在多项基准测试中超越PaddleOCR等主流工具
2. 1.5GB显存即可离线运行,隐私与性能兼得
3. 实测表现优异,尤其擅长复杂文本和公式识别

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

1.5GB显存就能跑,精准度直逼Gemini Pro,一行命令离线识别手写笔记

你有没有过这种经历?拍下一张发票、扫描一份合同、或者翻开一本旧书里的手写笔记,结果上传云端OCR工具后,不是隐私泄露就是识别错一大堆标点。以前我们只能靠百度PaddleOCR或者在线大模型凑合,现在不一样了。

前几天刷到一条X帖子,作者直接放出了GLM-OCR这个0.9B参数的SOTA模型。评测显示,它在多个基准上干翻了PaddleOCR,精准度已经逼近Gemini Pro。更夸张的是,1.5GB显存就能驱动,量化后甚至不到1GB,完全离线跑,数据100%不离机。

说白了,这东西把“本地OCR”从鸡肋直接拉到生产力级别。谁要是还在为文档数字化头疼,赶紧往下看,我把来龙去脉、真实效果和上手步骤全给你捋清楚。


GLM-OCR到底是什么?0.9B参数为何能成SOTA

先简单说说OCR(光学字符识别)这事儿。它本质就是让电脑把图片里的文字“读”出来。以前的传统OCR工具,比如PaddleOCR,靠规则+深度学习,在印刷体上还行,但遇到手写、复杂表格、公式、中英混排就容易翻车。

GLM-OCR不一样。它是专门设计的视觉语言模型(VLM),参数只有0.9B,却在专业OCR基准上拿下顶级成绩。原帖附的那张基准对比表看得人直呼内行:

  • • OmniDocBench v1.5(文档解析):GLM-OCR 94.6,PaddleOCR-VL-1.5是94.5,DeepSeek-OCR2 91.1
  • • OCRBench(纯文本识别):94.0,直接甩开PaddleOCR的75.3
  • • UniMERNet(公式识别):96.5
  • • PubTabNet(表格识别):85.2
  • • NanOnets-KIE(信息抽取):93.7

对比栏里还列了MinerU2.5、dots.ocr、Gemini-3-Pro、GPT系列。GLM-OCR在多数场景里不是第一就是第二,尤其在文本和公式上,把通用大模型都按在地上摩擦。

这不是营销话术,是实打实的评测数据。0.9B这么小的参数能做到这个地步,靠的就是针对OCR任务的专项优化,而不是堆参数。

精度碾压+速度飞快,网友实测直接服了

光看基准表还不够,真实场景才见真章。原帖下面很快就有网友放出了对比测试结果。

一张“GLM-OCR vs PaddleOCR”实测图里,总体平均准确率:GLM-OCR 97.12%,PaddleOCR 91.56%。精确匹配15个样本里,GLM拿下12个,Paddle只9个。分场景看:

  • • 英文简单文本:100% vs 91.7%
  • • 中英混合:100% vs 87.0%
  • • 复杂标点:100% vs 83.3%
  • • 特殊符号:83.3% vs 41.7%

纯中文和噪声场景打平,但其他地方GLM几乎全胜。PaddleOCR被按在地上摩擦不是夸张,是真事。

还有一位网友用手写中文便签测试。图片是一张边缘发毛的黄色便条,上面写着“展信舒宛,临问秋安。早晚的风都变冷了……”这类文艺手写体。GLM-OCR 0.43秒就完整识别出来,连日期“2022年10月12日 晚5:45”都没漏。下方还显示token速度431.73 tokens/s,识别结果和原手写几乎一模一样。

这速度比以前用Qwen3.5-2B做识别快多了。纯文字场景下,GLM-OCR优势巨大。表格抽取也有人问,作者回复说效果很牛,证明它不光认字,还能结构化输出。

资源占用极低,完全离线,隐私党福音

现在很多人怕云端OCR:发票照片一上传,谁知道数据去哪儿了?GLM-OCR直接解决这个痛点。

  • • 显存需求:仅需1.5GB,量化后不到1GB,普通笔记本或老显卡都能跑
  • • 部署方式:支持Ollama、vLLM、LM Studio一键安装
  • • 运行模式:100%离线,无需联网,数据永不离开本地

这意味着你在公司内网、飞机上、甚至信号差的乡村,都能随时识别文档。隐私保护做到极致,再也不用担心敏感合同被第三方看到。

实践上手:3分钟部署+实际使用全流程

看完数据心动了吧?上手真的简单。我把最常用的Ollama方式拆成傻瓜式步骤(其他平台类似)。

  1. 1. 安装Ollama
    去官网(ollama.com)下载对应系统版本,Windows/Mac/Linux一键安装。装好后命令行输入ollama --version确认。
  2. 2. 拉取模型
    直接敲一行命令:
    ollama run glm-ocr
    第一次会自动下载,后面秒启动。
  3. 3. 开始识别
  • • 打开Ollama网页界面(默认http://localhost:11434)
  • • 上传图片,输入提示词比如“请提取图片中所有文字,并输出为Markdown表格格式”
  • • 回车就出结果

想结构化表格?提示词加“识别表格并转为CSV”。手写笔记?直接说“保持原格式输出”。支持多语言、中英混排、公式转LaTeX。

用LM Studio的话,界面更友好:下载App → 搜索GLM-OCR → 一键加载 → 拖图片进去识别。vLLM适合服务器批量处理,API调用更稳。

实际操作中,0.43秒识别一张手写便签只是开始。批量处理发票、扫描PDF转可编辑Word,都能轻松搞定。

谁最需要GLM-OCR?这些场景直接起飞

  • • 学生党:扫描教材手写笔记,瞬间转数字,复习效率翻倍
  • • 财务/行政:发票、合同、报表批量识别,再也不用手动敲字
  • • 程序员:截图代码、文档里的公式,直接喂给大模型继续开发
  • • 图书爱好者:老书扫描电子化,保留原文排版和手写批注
  • • 隐私敏感行业:律师、医生、科研人员,本地跑再也不怕泄露

以前这些场景要么靠付费云服务,要么精度差到崩溃。现在0.9B小模型就把门槛拉到几乎为零。

当然,它也不是万能的。超复杂排版或极端模糊图片可能还需要人工校对,但相比以前的本地方案,已经是质的飞跃。

总结:本地OCR时代真的来了

GLM-OCR用0.9B参数证明了:小模型+专项优化,能在精度、速度、资源三方面同时碾压前辈。1.5GB显存、一行命令、完全离线,这些关键词放在2026年听起来像科幻,但现在就是现实。

如果你还在用老PaddleOCR,或者每次识别都要上网,不妨现在就试试ollama run glm-ocr。测完回来告诉我你的真实效果——说不定下一个SOTA就是你贡献的。


 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询