我要投稿

本地部署大语言模型指南

发布日期：2025-04-13 05:12:47 浏览次数： 2317

作者：一个杠精的自我修养

微信搜一搜，关注“一个杠精的自我修养”

这里选用Ollama+QwQ32b作为本地大模型运行的基础，如果没有并发需求可以选用LM Studio，支持m系列芯片的MLX框架，生成token速度比Ollama快50%，但缺点是不支持并发。

本文以Mac OS部署Ollama+QwQ32B为例：

一、安装 Ollama

1. 官网下载安装

访问 Ollama 官网，下载 macOS 版本安装包。安装时需将应用拖入「应用程序」文件夹，并输入系统密码完成安装。

2. 验证安装

打开终端输入以下命令，若显示版本号（如 0.6.3 ），则安装成功：

ollama --version

二、本地运行 QwQ-32B 模型

1. 下载模型

在终端输入以下命令，模型文件约 19GB，需等待下载完成：

ollama run qwq

技术说明：

默认下载的版本是经过量化的Q4版本，量化简单理解就是将高精度模型参数转换为低精度（如 16 位浮点转 4 位整数），以减少计算资源消耗并保持模型性能的技术，性能损失约10%左右。实测如采用Q6量化，内存占用将显著增加。

2. 验证与交互

下载完成后，终端会进入交互模式（显示 >>> ），可直接输入文本测试模型响应：

三、拓展OLLAMA上下文

1. 配置步骤

echo 'export OLLAMA_CONTEXT_LENGTH=16384' >> ~/.zshrc
# 永久生效配置（写入 shell 配置文件）
source ~/.zshrcollama serve
# 重启终端并应用配置

2. 验证配置

echo $OLLAMA_CONTEXT_LENGTH
# 检查环境变量是否生效（需提前设置）
# 返回空值时使用默认值2048
# 成功设置示例输出：16384

3. 注意事项

环境变量优先级高于模型默认配置
同时存在 Modelfile 的 num_ctx 和环境变量时以后者为准
拓展上下文会显著增加内存占用

四、dify调用本地模型

设置路径：

1，Dify-插件-安装Ollama

2，插件设置-模型供应商-添加模型

五、安全问题

风险提示：Ollama 默认开放 11434 端口且无身份验证，攻击者可直接访问服务窃取数据或执行恶意操作。

防护建议：

修改配置限制端口访问范围（如绑定 127.0.0.1）
启用 API 密钥或 IP 白名单认证
及时更新至安全版本（如 0.1.47+）

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-03

罕见！Meta、OpenAI、xAI联合分享了用生产环境提升LLM的最佳实践！

2026-02-13

工具调用准确率从60%飙到95%？我用这个‘解耦微调’把Qwen-7B救活了

2026-02-05

普林斯顿大学RLAnything：AI学会一边学习一边给自己打分

2026-02-04

Agent 越用越聪明？AgentScope Java 在线训练插件来了！

2026-01-30

Oxygen 9N-LLM生成式推荐训练框架

2026-01-29

自然·通讯：如何挖掘复杂系统中的三元交互

2026-01-29

微调已死？LoRA革新

2026-01-19

1GB 显存即可部署：腾讯 HY-MT1.5 的模型蒸馏与量化策略解析

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

2026年 LLM 微调全指南

2026-01-04

【GitHub高星】AI Research Skills：一键赋予AI“博士级”科研能力，74项硬核技能库开源！

2026-01-18

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

2026-01-01

Open联合创始人：AI大模型2025年度回顾

2025-12-21

Agent 越用越聪明？AgentScope Java 在线训练插件来了！

2026-02-04

Llama Factory 实战，轻量级微调 LLM。

2025-12-21

1GB 显存即可部署：腾讯 HY-MT1.5 的模型蒸馏与量化策略解析

2026-01-19

本地跑小模型带来5倍性能且成本极低！斯坦福从信息论视角重构智能体设计

2026-01-03

数据蒸馏技术探索

2025-12-30

大家都在问

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw