微信扫码
添加专属顾问
我要投稿
开源OCR新标杆!GLM-OCR以轻量0.9B参数实现多项SOTA,文档解析能力超强。 核心内容: 1. GLM-OCR在权威榜单OmniDocBench V1.5中以94.6分夺冠 2. 专为复杂表格、代码文档等业务场景优化 3. 提供完善SDK和多种部署方案,本地部署教程详解
在 AI Chat 中,OCR 的精度对 AI 问答的质量,有着重要的影响。近期,智谱发布了专为复杂文档理解而设计的多模态 OCR 模型 —— GLM-OCR。
该模型实现了 “小尺寸,高精度”。模型的参数量仅有 0.9B,但在权威 OmniDocBench V1.5 文档解析榜单中,以 94.6 分取得 SOTA。在文本、公式、表格和信息抽取方面的表现也优于多款 OCR 模型。
GLM-OCR 官方文档已经详细介绍了在 vLLM/SGLang 上如何部署 GLM-OCR,接下来我将介绍在 macOS 下,使用 mlx-vlm 在本地部署 GLM-OCR。
1.配置虚拟环境
python3 -m venv .venv
source .venv/bin/activate
pip install mlx-vlm
hf download mlx-community/GLM-OCR-8bit --local-dir ./models/GLM-OCR-8bit
hf download mlx-community/GLM-OCR-bf16 --local-dir ./models/GLM-OCR-bf16
4.1 文本识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/codeblock.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.2 公式识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Formula Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/formula.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.3 表格识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Table Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/complex-table.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.4 手写识别
代码:
from mlx_vlm import load, generate
from mlx_vlm.prompt_utils import apply_chat_template
model, processor = load("models/GLM-OCR-bf16")
prompt = "Text Recognition:"
formatted_prompt = apply_chat_template(
processor, model.config, prompt, num_images=1)
result = generate(
model,
processor,
formatted_prompt,
image=["./images/handwriting.png"],
max_tokens=2048,
verbose=True,
)
输入图片:
结果:
4.5 Bad Cases
在测试表格识别的时候,也出现失败的案例。比如,对以下图片进行表格识别,就出现丢失的问题。该图片中的表格,没有包含完整的网格线。
输入图片:
结果:
同一张图片,使用 PaddleOCR 提供的 PaddleOCR-VL-1.5 在线环境进行测试,识别效果如下:
同一张图片,使用 MinerU 提供的 MinerU VLM 在线环境进行测试,识别效果如下:
经过对 GLM-OCR 的能力进行多方面测试,虽然也有出现识别失败的情形,总体来说 GLM-OCR 的综合能力还是挺强的,本地的推理速度也挺快。如果 GLM-OCR 不能满足你的需求,你可以尝试 PaddleOCR-VL-1.5、MinerU2.5 或 DeepSeek OCR2 等模型。
Vidpai 已经接入 Qwen3-TTS,将随新版本一起发布,敬请期待
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-13
你的 AI Agent 真的在受控运行吗?
2026-03-12
Harness Engineering 的防御视角:从 Codex Security 看 AI 生成代码的治理
2026-03-12
阿里开源龙虾组合来了:HiClaw + CoPaw,内存占用大幅降低,还能直接操作本地环境
2026-03-12
大厂抢的不是“龙虾”,是人与AI的新型关系
2026-03-11
Google Workspace 团队开源了一个工具,叫 gws,直接搬进终端里了。
2026-03-11
OpenClaw爆火背后,我们所见的时代情绪 | Linear View
2026-03-11
开源 AI 收藏夹:全平台同步、自动摘要、智能对话,太强了!
2026-03-11
OpenAI 开源 Symphony!四天狂揽 8.7K Star,AI 编程自主管理神器!
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2026-01-27
2026-01-28
2025-12-22
2026-01-21
2025-12-23
2026-01-06
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20