微信扫码
添加专属顾问
我要投稿
最强开源OCR模型PaddleOCR-VL本地部署教程来了,手把手教你轻松搞定私密OCR识别!核心内容: 1. PaddleOCR-VL本地部署的硬件要求与实测性能表现 2. 基于Docker的一键部署完整流程与避坑指南 3. 实际应用效果展示与显存占用优化技巧
https://www.paddleocr.ai/main/version3.x/pipeline_usage/PaddleOCR-VL.html#311-docker
刚好他们文档里面有对50系显卡的支持
注意:不想看踩坑过程的朋友,可以直接全局搜:"这条指令一键启动",定位到最终的启动指令。
没有docker的朋友需要先自行安装、启动docker
然后win+r,输入cmd 打开Windows的控制台
执行第一个指令:
docker run -it --rm --gpus all -p 8118:8118 --network host ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server /bin/bash如果是第一次执行,会先下载镜像
这个镜像有18G。
如果是之前下载过镜像的,那么就会像下面这样。
直接进入启动的docker容器内部。
不过得检查一下是不是最新版的镜像
pip list | grep paddlex
只要paddlex版本号在3.3.4以上就行。
如果不是就exit(退出容器,回到Windows的控制台)重新拉取一下最新镜像:
docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server再执行最开始的指令,就会重新进入容器内部。
接下来需要安装flash-attn==2.8.3
不过他们之前的教程里面是错误的(现在更正了),因为镜像精简过,里面不包含CUDA编译工具,所以无法本地构建flash-attn。
我就说,之前一直报错,然后我丢给ai,ai给的方案都好复杂,越走越远了。。。
所以,他们给了我一个远程安装预编译的方案。
python -m pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.4.11/flash_attn-2.8.3+cu128torch2.8-cp310-cp310-linux_x86_64.whl上面这条还是在容器内执行。
终于!!! 成功安装flash-attn==2.8.3
到这里,我感觉离成功只有一步之遥了,马上就要成啦~
于是我开始执行最后一条指令:
paddlex_genai_server --model_name PaddleOCR-VL -0.9B --backend vllm --port 8118 --host 0.0.0.0结果,不出意外,就要出意外了。
又报错了:out of memory(内存溢出),,丢给Gemini分析,简单来说就是,这个脚本限制使用一半的显存(8G),导致不够用。
然后就换了一个指令(在结尾加了一段参数:--backend_config <(echo -e 'gpu-memory-utilization: 0.8'),把vLLM的显存占用率设置为了80%≈13G):
paddlex_genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')后面我最后一次启动忘记加--backend_config <(echo -e 'gpu-memory-utilization: 0.8',不过没报错,成功启动了,最终显存占用是6G多。
services:paddleocr-vl-api:image: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-offlinecontainer_name: paddleocr-vl-apiports:- 8080:8080depends_on:paddleocr-genai-vllm-server:condition: service_healthydeploy:resources:reservations:devices:- driver: nvidiadevice_ids: ["0"]capabilities: [gpu]restart: unless-stoppedhealthcheck:test: ["CMD-SHELL", "curl -f http://localhost:8080/health || exit 1"]paddleocr-genai-vllm-server:image: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest-offlinecontainer_name: paddleocr-genai-vllm-serverdeploy:resources:reservations:devices:- driver: nvidiadevice_ids: ["0"]capabilities: [gpu]restart: unless-stoppedhealthcheck:test: ["CMD-SHELL", "curl -f http://localhost:8080/health || exit 1"]start_period: 300s
docker run -d --rm --gpus all -p 8118:8118 --name paddleocr-vl-server ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest sh -c "pip install https://github.com/mjun0812/flash-attention-prebuild-wheels/releases/download/v0.4.11/flash_attn-2.8.3+cu128torch2.8-cp310-cp310-linux_x86_64.whl && paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')"非50系显卡可以使用下面这个指令:
docker run -d --rm --gpus all -p 8118:8118 --name paddleocr-vl-server ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest sh -c "paddleocr genai_server --model_name PaddleOCR-VL-0.9B --backend vllm --port 8118 --host 0.0.0.0 --backend_config <(echo -e 'gpu-memory-utilization: 0.8')"{"model": "PaddleOCR-VL-0.9B","messages": [{"role": "user","content": [{"type": "text","text": "请识别这张图片中的所有文本内容。"},{"type": "image_url","image_url": {"url": "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png"}}]}],"max_tokens": 2048,"temperature": 0.0}
PS:如果复制这段json用不了的朋友,可以丢给AI输出一遍,因为公众号里面复制出去可能会有格式错误,但是肉眼很难看出来。
说实话,我当时虽然部署成功了,但是我心里是没底的,我害怕这玩意儿调用困难,那也很难用。
结果没想到,它居然支持OpenAI API的格式。
那能做的事情就很多啦!!这不随便接入各种平台嘛。
比如fastgpt、dify、n8n都可以随便接入,非常方便。
我就先来试试接入fastgpt
非常简单,甚至都不需要配置apikey
新增模型->填写模型id:PaddleOCR-VL-0.9B
开启图片识别,填写请求地址:
http://<Base_URL>:8118/v1/chat/completions
点击确定保存即可
然后随便创建一个空白应用,添加PaddleOCR-VL-0.9B为模型,推荐把记忆轮数设置为0,否则它每次识别之后,返回的结果会带上一轮的回复,就会比较混乱。
把文件上传->图片上传打开
就可以开始测试啦,速度快到惊人!!基本上是秒出
这个fastgpt在我的Mac电脑上,然后PaddleOCR-VL是部署在我的windows电脑上,Mac这边请求一次,能在Windows的docker里面实时看到请求日志。
也可以把PaddleOCR-VL当作fastgpt知识库的图片理解模型
同时,接入Dify、n8n也非常轻松。不过目前官方貌似还没有出MCP。
对这块感兴趣的朋友可以多多三连呀,我再立一个flag:这篇阅读量如果再超过8000,我出一篇接入n8n的教程,然后再制作一个PaddleOCR-VL的MCP工具,让Claude Code这些本地Agent工具也能更方便的接入PaddleOCR-VL的能力~
能看到这里的都是凤毛麟角的存在!
如果觉得不错,随手点个赞、在看、转发三连吧~
如果想第一时间收到推送,也可以给我个星标⭐
谢谢你耐心看完我的文章~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-07
阿里开源SmartResume,简历解析无需手工
2025-11-06
把任何文档变成Claude的新技能,这个开源工具火了。
2025-11-06
首个AI商业广告工作流开源,我做出了可口可乐最有创意的广告
2025-11-06
ChatPPT+魔搭社区:MCP 2.0全面升级!
2025-11-06
AI时代,我们为何重写规则引擎?—— QLExpress4 重构之路
2025-11-06
锦秋基金创始合伙人杨洁揭秘:AI投资三大方向与AI创业者机遇——现场解答最真实的三大创业焦虑
2025-11-05
LLaMA Factory 安装与配置指南:在 Ubuntu 上快速搭建大模型微调平台
2025-11-05
TinyAI :全栈式轻量级 AI 框架
2025-08-20
2025-09-07
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-10-20
2025-08-22
2025-09-08
2025-08-12
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08