微信扫码
添加专属顾问
我要投稿
掌握本地部署大语言模型的实用指南。 核心内容: 1. Ollama+QwQ32B模型的本地部署步骤 2. 量化技术与模型性能平衡 3. 安全防护与配置优化
这里选用Ollama+QwQ32b作为本地大模型运行的基础,如果没有并发需求可以选用LM Studio,支持m系列芯片的MLX框架,生成token速度比Ollama快50%,但缺点是不支持并发。
本文以Mac OS部署Ollama+QwQ32B为例:
访问 Ollama 官网,下载 macOS 版本安装包。安装时需将应用拖入「应用程序」文件夹,并输入系统密码完成安装。
打开终端输入以下命令,若显示版本号(如 0.6.3 ),则安装成功:
ollama --version
在终端输入以下命令,模型文件约 19GB,需等待下载完成:
ollama run qwq
技术说明:
默认下载的版本是经过量化的Q4版本,量化简单理解就是将高精度模型参数转换为低精度(如 16 位浮点转 4 位整数),以减少计算资源消耗并保持模型性能的技术,性能损失约10%左右。实测如采用Q6量化,内存占用将显著增加。
下载完成后,终端会进入交互模式(显示 >>> ),可直接输入文本测试模型响应:
echo 'export OLLAMA_CONTEXT_LENGTH=16384' >> ~/.zshrc
# 永久生效配置(写入 shell 配置文件)
source ~/.zshrcollama serve
# 重启终端并应用配置
echo $OLLAMA_CONTEXT_LENGTH
# 检查环境变量是否生效(需提前设置)
# 返回空值时使用默认值2048
# 成功设置示例输出:16384
环境变量优先级高于模型默认配置
同时存在 Modelfile 的 num_ctx 和环境变量时以后者为准
拓展上下文会显著增加内存占用
1,Dify-插件-安装Ollama
2,插件设置-模型供应商-添加模型
风险提示:Ollama 默认开放 11434 端口且无身份验证,攻击者可直接访问服务窃取数据或执行恶意操作。
防护建议:
修改配置限制端口访问范围(如绑定 127.0.0.1)
启用 API 密钥或 IP 白名单认证
及时更新至安全版本(如 0.1.47+)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-01-29
自然·通讯:如何挖掘复杂系统中的三元交互
2026-01-29
微调已死?LoRA革新
2026-01-19
1GB 显存即可部署:腾讯 HY-MT1.5 的模型蒸馏与量化策略解析
2026-01-18
【GitHub高星】AI Research Skills:一键赋予AI“博士级”科研能力,74项硬核技能库开源!
2026-01-10
前Mata GenAI研究员田渊栋的年终总结:关于未来AI的思考
2026-01-07
智元发布SOP:让机器人在真实世界规模化部署与智能化运行
2026-01-04
英伟达4B小模型:合成数据+测试时微调+优化集成
2026-01-04
2026年 LLM 微调全指南
2025-11-21
2025-11-05
2025-11-05
2025-12-04
2026-01-02
2026-01-04
2025-11-22
2025-11-20
2026-01-01
2025-11-19
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14