微信扫码
添加专属顾问
我要投稿
开源OCR新标杆!GLM-OCR以轻量0.9B参数实现多项SOTA,文档解析能力超强。 核心内容: 1. GLM-OCR在权威榜单OmniDocBench V1.5中以94.6分夺冠 2. 专为复杂表格、代码文档等业务场景优化 3. 提供完善SDK和多种部署方案,本地部署教程详解
在 AI Chat 中,OCR 的精度对 AI 问答的质量,有着重要的影响。近期,智谱发布了专为复杂文档理解而设计的多模态 OCR 模型 —— GLM-OCR。
该模型实现了 “小尺寸,高精度”。模型的参数量仅有 0.9B,但在权威 OmniDocBench V1.5 文档解析榜单中,以 94.6 分取得 SOTA。在文本、公式、表格和信息抽取方面的表现也优于多款 OCR 模型。
GLM-OCR 官方文档已经详细介绍了在 vLLM/SGLang 上如何部署 GLM-OCR,接下来我将介绍在 macOS 下,使用 mlx-vlm 在本地部署 GLM-OCR。
1.配置虚拟环境
python3 -m venv .venv
source .venv/bin/activate
pip install mlx-vlm
hf download mlx-community/GLM-OCR-8bit --local-dir ./models/GLM-OCR-8bit
hf download mlx-community/GLM-OCR-bf16 --local-dir ./models/GLM-OCR-bf16
4.1 文本识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/codeblock.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.2 公式识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Formula Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/formula.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.3 表格识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Table Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/complex-table.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.4 手写识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/handwriting.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.5 Bad Cases
在测试表格识别的时候,也出现失败的案例。比如,对以下图片进行表格识别,就出现丢失的问题。该图片中的表格,没有包含完整的网格线。
输入图片:
结果:
同一张图片,使用 PaddleOCR 提供的 PaddleOCR-VL-1.5 在线环境进行测试,识别效果如下:
同一张图片,使用 MinerU 提供的 MinerU VLM 在线环境进行测试,识别效果如下:
经过对 GLM-OCR 的能力进行多方面测试,虽然也有出现识别失败的情形,总体来说 GLM-OCR 的综合能力还是挺强的,本地的推理速度也挺快。如果 GLM-OCR 不能满足你的需求,你可以尝试 PaddleOCR-VL-1.5、MinerU2.5 或 DeepSeek OCR2 等模型。
Vidpai 已经接入 Qwen3-TTS,将随新版本一起发布,敬请期待
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-14
agents-hive 开源了:一个面向生产的Harness Agent 工程
2026-05-12
Hermes Agent 完整安装指南
2026-05-11
对话OpenClacky李亚飞:把Harness做透,Token账单就不是问题了
2026-05-10
Claude 的金融 Skills 开源了
2026-05-07
本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~
2026-05-07
Browser Use 0.12 杀疯了!弃用 Playwright,token 用量减半
2026-05-07
本地部署这件事,终于被国产开源AI做明白了!
2026-05-07
多模型管理太麻烦?手把手教你本地搭建这个开源 AI 网关!
2026-03-30
2026-04-03
2026-03-23
2026-04-09
2026-03-31
2026-02-14
2026-02-18
2026-03-03
2026-02-22
2026-04-01
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02