我要投稿

0.9B小模型碾压PaddleOCR！GLM-OCR本地OCR新王者来了

发布日期：2026-03-17 07:09:06 浏览次数： 2896

作者：知识发电机

微信搜一搜，关注“知识发电机”

1.5GB显存就能跑，精准度直逼Gemini Pro，一行命令离线识别手写笔记

你有没有过这种经历？拍下一张发票、扫描一份合同、或者翻开一本旧书里的手写笔记，结果上传云端OCR工具后，不是隐私泄露就是识别错一大堆标点。以前我们只能靠百度PaddleOCR或者在线大模型凑合，现在不一样了。

前几天刷到一条X帖子，作者直接放出了GLM-OCR这个0.9B参数的SOTA模型。评测显示，它在多个基准上干翻了PaddleOCR，精准度已经逼近Gemini Pro。更夸张的是，1.5GB显存就能驱动，量化后甚至不到1GB，完全离线跑，数据100%不离机。

说白了，这东西把“本地OCR”从鸡肋直接拉到生产力级别。谁要是还在为文档数字化头疼，赶紧往下看，我把来龙去脉、真实效果和上手步骤全给你捋清楚。

GLM-OCR到底是什么？0.9B参数为何能成SOTA

先简单说说OCR（光学字符识别）这事儿。它本质就是让电脑把图片里的文字“读”出来。以前的传统OCR工具，比如PaddleOCR，靠规则+深度学习，在印刷体上还行，但遇到手写、复杂表格、公式、中英混排就容易翻车。

GLM-OCR不一样。它是专门设计的视觉语言模型（VLM），参数只有0.9B，却在专业OCR基准上拿下顶级成绩。原帖附的那张基准对比表看得人直呼内行：

• OmniDocBench v1.5（文档解析）：GLM-OCR 94.6，PaddleOCR-VL-1.5是94.5，DeepSeek-OCR2 91.1
• OCRBench（纯文本识别）：94.0，直接甩开PaddleOCR的75.3
• UniMERNet（公式识别）：96.5
• PubTabNet（表格识别）：85.2
• NanOnets-KIE（信息抽取）：93.7

对比栏里还列了MinerU2.5、dots.ocr、Gemini-3-Pro、GPT系列。GLM-OCR在多数场景里不是第一就是第二，尤其在文本和公式上，把通用大模型都按在地上摩擦。

这不是营销话术，是实打实的评测数据。0.9B这么小的参数能做到这个地步，靠的就是针对OCR任务的专项优化，而不是堆参数。

精度碾压+速度飞快，网友实测直接服了

光看基准表还不够，真实场景才见真章。原帖下面很快就有网友放出了对比测试结果。

一张“GLM-OCR vs PaddleOCR”实测图里，总体平均准确率：GLM-OCR 97.12%，PaddleOCR 91.56%。精确匹配15个样本里，GLM拿下12个，Paddle只9个。分场景看：

• 英文简单文本：100% vs 91.7%
• 中英混合：100% vs 87.0%
• 复杂标点：100% vs 83.3%
• 特殊符号：83.3% vs 41.7%

纯中文和噪声场景打平，但其他地方GLM几乎全胜。PaddleOCR被按在地上摩擦不是夸张，是真事。

还有一位网友用手写中文便签测试。图片是一张边缘发毛的黄色便条，上面写着“展信舒宛，临问秋安。早晚的风都变冷了……”这类文艺手写体。GLM-OCR 0.43秒就完整识别出来，连日期“2022年10月12日晚5:45”都没漏。下方还显示token速度431.73 tokens/s，识别结果和原手写几乎一模一样。

这速度比以前用Qwen3.5-2B做识别快多了。纯文字场景下，GLM-OCR优势巨大。表格抽取也有人问，作者回复说效果很牛，证明它不光认字，还能结构化输出。

资源占用极低，完全离线，隐私党福音

现在很多人怕云端OCR：发票照片一上传，谁知道数据去哪儿了？GLM-OCR直接解决这个痛点。

• 显存需求：仅需1.5GB，量化后不到1GB，普通笔记本或老显卡都能跑
• 部署方式：支持Ollama、vLLM、LM Studio一键安装
• 运行模式：100%离线，无需联网，数据永不离开本地

这意味着你在公司内网、飞机上、甚至信号差的乡村，都能随时识别文档。隐私保护做到极致，再也不用担心敏感合同被第三方看到。

实践上手：3分钟部署+实际使用全流程

看完数据心动了吧？上手真的简单。我把最常用的Ollama方式拆成傻瓜式步骤（其他平台类似）。

1. 安装Ollama
去官网（ollama.com）下载对应系统版本，Windows/Mac/Linux一键安装。装好后命令行输入ollama --version确认。
2. 拉取模型
直接敲一行命令：
ollama run glm-ocr
第一次会自动下载，后面秒启动。
3. 开始识别