微信扫码
添加专属顾问
我要投稿
用一张12GB显存的显卡就能本地部署DeepSeek-OCR,轻松实现高效文本识别! 核心内容: 1. 详细的环境配置与安装步骤 2. 模型下载与推理优化技巧 3. 实际测试效果与资源推荐
运行环境配置
NVIDIA GeForce RTX 3080 Ti(12G)
Ubuntu 20.04 + CUDA 11.8 + PyTorch 2.6.0
这种配置在许多开发者手中都很常见,无需专业服务器即可上手。
源码安装步骤
1. 克隆仓库:
git clone https://github.com/DeepSeek-ai/DeepSeek-OCR.git
2. 创建并激活虚拟环境:
conda create -n deepseek-ocr python=3.12.9 -y
conda activate deepseek-ocr
从GitHub Releases下载对应轮子文件:
https://github.com/vllm-project/vllm/releases/tag/v0.8.5
pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whl
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation -v
模型下载
官方模型地址:
https://huggingface.co/deepseek-ai/DeepSeek-OCR/tree/main
国内用户可加速下载:
https://modelscope.cn/models/deepseek-ai/DeepSeek-OCR/files
使用 vLLM 进行推理
进入 vLLM 推理目录:
cd DeepSeek-OCR/DeepSeek-OCR-vllm
编辑配置文件`config.py`:
对于12GB 显存的显卡,必须将 `IMG_SIZE` 设置为 512(最小值),否则容易出现显存溢出问题。
启动推理脚本:
python run_dpsk_ocr_pdf.py
运行过程中,显存占用保持在合理范围内,能平稳处理任务。
实际解析效果展示
包含主标题、副标题和正文文本的文档:
模型准确识别了层级标题和段落结构,输出清晰有序。
带有图片、图片说明、副标题和文本的复杂页面:
DeepSeek-OCR 成功区分了图像区域、捕获了图片下方说明文字,并完整提取了周围正文。
从这些测试看,即使在有限算力下,模型对多元素 PDF 的版面理解能力表现出色,标题、文本、图像、表格等要素都能被精准分离和识别。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-16
RapidOCR: 从 setup.py 迁移到 pyproject.toml 打包实践
2026-06-12
PaddleOCR 3.7 正式接入ONNX Runtime,一个参数换后端,轻量部署新选择
2026-06-11
本地部署OCR,可能是AI进单位的第一道门
2026-06-08
正式推出 Gemma 4 12B: 一款统一、免编码器的多模态模型
2026-05-30
还在用 MinerU 解析 PDF?这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%,速度还快 3.68 倍
2026-05-30
Qwen-VLA:迈向通用具身智能的统一动作框架
2026-05-25
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
2026-05-19
从画稿到代码,AI Agent 正在吃掉产品设计的中间环节
2026-04-22
2026-04-01
2026-04-02
2026-03-29
2026-04-21
2026-04-27
2026-04-09
2026-03-31
2026-04-15
2026-04-02
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30