我要投稿

Ollama高并发测试

发布日期：2025-03-24 15:57:29 浏览次数： 2843

作者：Python伊甸园

微信搜一搜，关注“Python伊甸园”

本文主要来测试一下ollama的高并发能力。

具体配置如下：

一、Ollama默认参数执行

我们打开4个窗口，然后分别让DeepSeek “给我讲一个笑话” ，看下不同窗口的答题顺序。

通过答题顺序可以看到，在不进行参数设置时，模型是一个一个执行。这样就说明，默认参数下，Ollama并不支持高并发，它会逐个回复我们的请求。

二、调整Ollama高并发参数

在ollama内，有两个参数与高并发有关分别是：

OLLAMA_MAX_LOADED_MODELS：每个模型将同时处理的最大并行请求数，也就是能同时响应几个LLM。

至于应用场景的话，就是我们可以同时在聊天页面调用两个LLM同时聊天，看看不同的LLM会有怎样不同的响应。

当然，这样设置后，不同的用户也可以在同一时间请求不同的模型。

OLLAMA_NUM_PARALLEL：每个模型将同时处理的最大并行请求数，也就是能同时回复多少个LLM。

这个参数对于高并发非常重要，如果你部署好了Ollama，假如有10个人同时请求了你的LLM，如果一个一个回答，每个模型回复10秒钟，那轮到第10个人将会在1分多种后，对于第10个人来说是不可接受的。

以上两个参数应根据自己的硬件条件自行设置。

高并发测试：

我们将以上两个参数添加到电脑的环境变量内，均设置为4。

OLLAMA_MAX_LOADED_MODELS  4OLLAMA_NUM_PARALLEL 4

设置好后，确认环境变量并重启Ollama，我们来看一下效果。

可以看到，在设置并发数为4之后，模型就能同时响应4个用户的请求。

一般来说，对于中小型的部署，可以采用Ollam当作底座，只需要部署多个服务器，通过反向代理与负载均衡即可实现。

如果要面对更多的并发请求，不建议使用Ollama当作底座，应采用VLLM进行部署。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-14

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-06

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-04-20

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-15

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-13

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-03-23

养死四只龙虾的小白有感

2026-03-22

Mistral Forge 的真正意义：企业AI从“租用”走向“拥有”

2026-03-21

马斯克再次站台Kimi，扒掉了Cursor 500亿估值的底裤

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-15

MiniMax M2.7 炸场！自己训自己，8 项基准硬刚 GPT-5 和 Opus 4.6

2026-03-19

马斯克再次站台Kimi，扒掉了Cursor 500亿估值的底裤

2026-03-21

Mistral Forge 的真正意义：企业AI从“租用”走向“拥有”

2026-03-22

养死四只龙虾的小白有感

2026-03-23

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-04-13

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-20

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-05-06

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-14

大家都在问

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部