微信扫码
添加专属顾问
我要投稿
GLM-OCR以0.9B小模型实现OCR领域突破,1.5GB显存即可离线运行,精准度碾压PaddleOCR直逼Gemini Pro。核心内容: 1. GLM-OCR在多项基准测试中超越PaddleOCR等主流工具 2. 1.5GB显存即可离线运行,隐私与性能兼得 3. 实测表现优异,尤其擅长复杂文本和公式识别
1.5GB显存就能跑,精准度直逼Gemini Pro,一行命令离线识别手写笔记
你有没有过这种经历?拍下一张发票、扫描一份合同、或者翻开一本旧书里的手写笔记,结果上传云端OCR工具后,不是隐私泄露就是识别错一大堆标点。以前我们只能靠百度PaddleOCR或者在线大模型凑合,现在不一样了。
前几天刷到一条X帖子,作者直接放出了GLM-OCR这个0.9B参数的SOTA模型。评测显示,它在多个基准上干翻了PaddleOCR,精准度已经逼近Gemini Pro。更夸张的是,1.5GB显存就能驱动,量化后甚至不到1GB,完全离线跑,数据100%不离机。
说白了,这东西把“本地OCR”从鸡肋直接拉到生产力级别。谁要是还在为文档数字化头疼,赶紧往下看,我把来龙去脉、真实效果和上手步骤全给你捋清楚。
先简单说说OCR(光学字符识别)这事儿。它本质就是让电脑把图片里的文字“读”出来。以前的传统OCR工具,比如PaddleOCR,靠规则+深度学习,在印刷体上还行,但遇到手写、复杂表格、公式、中英混排就容易翻车。
GLM-OCR不一样。它是专门设计的视觉语言模型(VLM),参数只有0.9B,却在专业OCR基准上拿下顶级成绩。原帖附的那张基准对比表看得人直呼内行:
对比栏里还列了MinerU2.5、dots.ocr、Gemini-3-Pro、GPT系列。GLM-OCR在多数场景里不是第一就是第二,尤其在文本和公式上,把通用大模型都按在地上摩擦。
这不是营销话术,是实打实的评测数据。0.9B这么小的参数能做到这个地步,靠的就是针对OCR任务的专项优化,而不是堆参数。
光看基准表还不够,真实场景才见真章。原帖下面很快就有网友放出了对比测试结果。
一张“GLM-OCR vs PaddleOCR”实测图里,总体平均准确率:GLM-OCR 97.12%,PaddleOCR 91.56%。精确匹配15个样本里,GLM拿下12个,Paddle只9个。分场景看:
纯中文和噪声场景打平,但其他地方GLM几乎全胜。PaddleOCR被按在地上摩擦不是夸张,是真事。
还有一位网友用手写中文便签测试。图片是一张边缘发毛的黄色便条,上面写着“展信舒宛,临问秋安。早晚的风都变冷了……”这类文艺手写体。GLM-OCR 0.43秒就完整识别出来,连日期“2022年10月12日 晚5:45”都没漏。下方还显示token速度431.73 tokens/s,识别结果和原手写几乎一模一样。
这速度比以前用Qwen3.5-2B做识别快多了。纯文字场景下,GLM-OCR优势巨大。表格抽取也有人问,作者回复说效果很牛,证明它不光认字,还能结构化输出。
现在很多人怕云端OCR:发票照片一上传,谁知道数据去哪儿了?GLM-OCR直接解决这个痛点。
这意味着你在公司内网、飞机上、甚至信号差的乡村,都能随时识别文档。隐私保护做到极致,再也不用担心敏感合同被第三方看到。
看完数据心动了吧?上手真的简单。我把最常用的Ollama方式拆成傻瓜式步骤(其他平台类似)。
ollama --version确认。ollama run glm-ocr想结构化表格?提示词加“识别表格并转为CSV”。手写笔记?直接说“保持原格式输出”。支持多语言、中英混排、公式转LaTeX。
用LM Studio的话,界面更友好:下载App → 搜索GLM-OCR → 一键加载 → 拖图片进去识别。vLLM适合服务器批量处理,API调用更稳。
实际操作中,0.43秒识别一张手写便签只是开始。批量处理发票、扫描PDF转可编辑Word,都能轻松搞定。
以前这些场景要么靠付费云服务,要么精度差到崩溃。现在0.9B小模型就把门槛拉到几乎为零。
当然,它也不是万能的。超复杂排版或极端模糊图片可能还需要人工校对,但相比以前的本地方案,已经是质的飞跃。
GLM-OCR用0.9B参数证明了:小模型+专项优化,能在精度、速度、资源三方面同时碾压前辈。1.5GB显存、一行命令、完全离线,这些关键词放在2026年听起来像科幻,但现在就是现实。
如果你还在用老PaddleOCR,或者每次识别都要上网,不妨现在就试试ollama run glm-ocr。测完回来告诉我你的真实效果——说不定下一个SOTA就是你贡献的。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-17
AI+时代工程师的空间在哪儿——从范式演进看技术机会
2026-03-17
独家| DeepSeek-V4终于要来了:梁文锋憋半年大招,多模态+长期记忆全面破局
2026-03-16
Google 再次挥刀砍向 Pro 用户
2026-03-16
使用体验:Claude vs Gemini
2026-03-16
实测全球首个龙虾原生模型,它给自己造了一个技能商店,已抢疯。
2026-03-16
如何定义“人味儿”?——HeartBench评测体系建设实践
2026-03-16
Perplexity全新API:赋能开发者,开启智能代理与统一编排时代
2026-03-16
Harness Engineering 是什么?从上下文工程到驾驭工程
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-21
2026-01-09
2026-01-09
2025-12-30
2026-01-23
2026-01-21
2026-03-09
2026-03-08
2026-03-03
2026-03-01
2026-02-27
2026-02-27
2026-02-26
2026-02-24