2026年4月2日 19:30分,来腾讯会议(限30人)了解如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

龙虾绝配:Qwen 3.5 27B!跑在家里,成本为 0

发布日期:2026-03-30 08:24:08 浏览次数: 1530
作者:AGI Hunt

微信搜一搜,关注“AGI Hunt”

推荐语

用一张家用显卡,每月省下3000元API费用,Qwen 3.5 27B开源模型性能竟超越商业产品!

核心内容:
1. 从云端API到本地部署的成本对比与转变过程
2. Qwen 3.5 27B模型在消费级显卡上的性能实测数据
3. 开源模型与商业模型的核心基准测试对比结果

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

我的龙虾🦞终于不用再「讨饭」了。

一张 4090,一个 Q4 量化,成本为 0(如果不算每月约 40 块的电费),取代了我每月 3000 块的 API 账单。

龙虾断粮数据统计
龙虾日消费 100+,直到断粮

之前我在服务器上部署了 OpenClaw,用的是 GLM 的 API。跑了大概一个月,账单 3000 多块(我还是收着点跑了),而且最后一周就花掉了 1000 多。

大量用过龙虾的都知道,这货特别能吃。

每次用户交互还好,特别是我有大量的 cron task,消耗起 tokens 来简直是个无底洞、吞金兽。

日均 100-150 元,偶尔飙到 200 以上,像是家里有个没关的水龙头。

然后有一天,余额清零了。龙虾断粮 48 小时,在电报上疯狂报错 294 次。

OpenClaw 余额不足报错截图
OpenClaw 余额不足报错截图


于是我做了一个决定:把模型搬回家。

用一张 23 年买的 RTX 4090(后来一直在家吃灰),跑 Qwen 3.5 27B 的 Q4 量化版,部署成 OpenAI 兼容的 API,通过隧道穿透到公网。

从此,龙虾随便跑,不要钱。

01

家用分水岭

这张 4090 是 ChatGPT 刚出来那会儿买的,当时想在家里部署一些模型自己用,后面就没怎么折腾了。64GB 内存的台式机在家落灰,最近内存涨价,我甚至在想要不干脆把它卖掉,换点别的硬件玩玩。

但最近千问 3.5 出来之后,我发现了一个变化:家用消费级显卡,跑开源模型的效果,已经到了可用的门槛了。

这对我而言,可以算得是一个分水岭了。

不是「可以玩玩」的可用,是「可以拿来干活」的可用。

先来看 Qwen3.5-27B 和 GPT-5 mini 的正面对比(数据来自 HuggingFace 官方 model card 同一张表):

基准测试
Qwen3.5-27B
GPT-5 mini
SWE-bench Verified
72.4
72.0
LiveCodeBench v6
80.7
80.5
MMLU-Pro
86.1
83.7
GPQA Diamond
85.5
82.8
HMMT 数学
92.0
IFEval 指令遵循
95.0
93.9

四项全超 GPT-5 mini。

SWE-bench 72.4 vs 72.0,MMLU-Pro 86.1 vs 83.7,GPQA 85.5 vs 82.8。

还有另一个可供参考的对比:Qwen3.5-27B 全面碾压 GPT-4o(2024 年发布,被 GPT-5 取代,已下线),而且差距不小,比如 MMLU-Pro 86.1 vs 72.6,差了 13 个点。

一个跑在家用级显卡上的 27B 开源模型,在这些核心基准上全面领先 OpenAI 的商业模型。

当然,和各家的旗舰模型(Claude Opus 4.6 的 SWE-bench 79.2、Kimi K2.5 的 76.8)相比还有差距。但别忘了,Opus 4.6 每百万 token 要 $15 输入 + $75 输出,Kimi K2.5 是万亿参数的 MoE 模型,而 Qwen3.5-27B 跑在你家里,成本是电费。

IFEval 95.0 是全家族最高,意味着它在结构化输出和 Agent 场景下的格式合规性,比 122B 的 MoE 版本还稳。对于跑 Agent 来说,这个指标其实比 SWE-bench 更实用。

02

为什么是 27B

Qwen 3.5 系列有好几个 size:9B、27B、35B-A3B(MoE)、122B-A10B(MoE)。

我选的是 27B Dense。

9B 太小了。之前公众号写过,@sudoingX 用 9B 在 RTX 3060 上写了个游戏,结果 2699 行代码,打开浏览器,黑屏。9B 能做单文件任务,但跨文件依赖一多就撑不住了。

而 35B-A3B 虽然参数总量更大,但每次推理只激活 3B 参数。推理速度快是快(能到 100+ tok/s),但质量上限比 27B Dense 要低不少。

27B Dense 每一个 token 都经过全部 270 亿参数的计算。这个计算密度带来的质量差异,在复杂编程和推理任务上是能感知到的。因此,它甚至能和 Qwen 3.5 397B-A17B 一战,差距极小。

27B Dense vs 35B-A3B MoE 对比
27B Dense vs 35B-A3B MoE 对比

另有网友实验对比:27B Dense 的 SWE-bench 分数比 35B-A3B MoE 高了将近 10 个点。

03

量化掉点无感

27B 全精度要 54GB,一张 4090 塞不下。

Q4_K_M 量化之后,模型大小缩到 17GB,就可以轻松放进 24GB 显存了。

掉了多少分呢?

Q4_K_M 量化在社区里被公认为质量和体积的最佳平衡点。实际体验下来,日常对话、代码生成、文档处理,几乎感知不到和全精度的差别。

而且 Unsloth 团队在 3 月 5 号用改进后的 imatrix 数据重新做了一轮量化,在聊天、编程、长上下文和工具调用上都有额外提升。

量化精度保留示意

54GB 压到 17GB,质量基本不打折扣,跑在你家桌上。

04

两天部署

整个部署过程……说来话长,但其实无比简单。

我用的是 Claude Code 来远程操控整个部署流程。给它一个目标:SSH 到 4090 机器上,装好推理框架,下载模型,起服务,打通公网。

然后设定好判断标准:公网能 curl 通就算成功

接下来……就让它干就好了。

以前手动部署过模型的人都知道这有多痛苦:各种环境冲突、依赖不兼容、CUDA 版本对不上、下载中途断掉。每个步骤都得盯着终端等,一等就是半小时。

现在有了 Claude Code,我就无所谓了。

虽然整个过程花了整整两天多,但我真正在里面花的时间,大概也就五分钟。

偶尔看看它干得怎么样了,回答一下它的问题(要重启机器吗?要关掉桌面环境吗?),剩下的时间该干嘛干嘛。

中间有一次,Claude Code 甚至反复催我去睡觉:

“ 你先去睡吧,我会持续跑着。明天你醒来后我们继续完成最后几步。晚安!

Claude Code:你快去睡吧!

结果我第二天醒来一看,模型下了 6/11 个文件。

过程中它折腾了不少弯路:先试 vLLM,依赖解析卡住……换 uv,下载到一半代理断了……用清华镜像,某个 NVIDIA 包又超时了……好不容易装上,一跑 OOM。原来 GPTQ-Int4 版本有 29GB(Mamba 混合层没被量化),4090 放不下。

然后换 Ollama 跑 GGUF,结果 CUDA 库安装中途被截断了。接着又升级 NVIDIA 驱动,从 535 到 570,重启两次。模型在 WiFi 上下了十几个小时。

但这些,都是 Claude Code 在折腾,跟我没关系。

Claude Code 部署过程
Claude Code 部署过程

终于,到了第二天的晚上,Claude Code 自己把一句「你好」发了过去,对面回来了一句「你好!很高兴见到你。有什么我可以帮你的吗?

05

性能实测

模型跑在 RTX 4090 上,Q4_K_M 量化,ollama 0.18.2,CUDA 12.8。

Claude Code 按我的要求跑了一轮压测:

并发数
总吞吐 (tok/s)
单请求延迟
请求/秒
1
28.8
7.4s
0.13
2
29.9
8.9s
0.20
4
30.0
16.5s
0.21

需要说明的是,GPU 总吞吐恒定在 ~30 tok/s,这是单卡的物理上限。

并发请求本质上是在共享 GPU 的计算资源。1-4 路并发时总吞吐不变,但每个请求的等待时间会随并发数线性增长。

再往上加到 8 路、16 路,延迟就会变得不太可接受了。

所以这套方案比较适合 1-2 个人同时使用,或者 Agent 后台串行跑任务。想要高并发服务多人的场景,还是得考虑云端 API 或者多卡方案。

性能对比:本地 vs 云端
性能对比:本地 vs 云端

而 30 tok/s 是什么概念呢?

日常对话回复大约 200-500 tokens,也就是 7-17 秒出完整回复。写一段代码大概 1000 tokens,半分钟左右。

对于我的龙虾后台跑 cron job 的场景,绰绰有余了。

06

省了多少钱

说回前面,我的龙虾🦞用 GLM 的 API 跑了大约一个月,账单 3000 多块。最后一周就花了 1000 多。

龙虾断粮数据统计
龙虾断粮数据统计

现在呢?电费。

RTX 4090 满载功耗 450W,但推理时实际功耗大约 200-250W。按每天跑 8 小时算,一天大约 2 度电,一个月 60 度,电费不到 40 块。

费用对比:API vs 本地
费用对比:API vs 本地

从每月 3000 到每月 40 块,省了 98.7%。

而且这还是一次性投入。4090 买都买了,放在家里也是吃灰。现在让它干点正事,相当于变废为宝了。

07

绝对隐私

省钱之外,还有一个也许更重要的好处:数据不出家门。

所有的对话、代码、文档,全部在你自己的机器上处理。没有经过任何第三方服务器,没有任何人能看到你的数据。

用云端 API 的时候,你的每一条消息都会发送到模型提供商的服务器上。虽然大部分公司都承诺不会用用户数据训练模型,但……你的数据终究是离开了你的掌控。

本地部署就完全没有这个顾虑。

对于处理公司代码、客户数据、敏感文档的场景来说,这个价值可能比省钱更大。

08

公网穿透

模型跑在家里的电脑上,但总不能只在家才用吧?

所以我做了一套隧道穿透方案,让这个 API 在公网上随时可用。

公网隧道穿透架构
公网隧道穿透架构

具体操作分三步:

第一步,SSH 反向隧道。

在 4090 上用 autossh 建立一条持久的反向隧道,把本地的 ollama 端口(11434)映射到一台有公网 IP 的服务器的 8100 端口。autossh 会自动重连,配合 systemd 开机自启,基本上不用管。

第二步,nginx 反向代理 + API 鉴权。

在公网服务器上用 nginx(OpenResty)把 8100 端口包一层 HTTPS,绑上域名 llm.yourdomain.com。同时在 nginx 层做 Bearer Token 验证,没有正确的 API Key 就返回 401。

这样 ollama 本身不需要改任何配置,鉴权完全在 nginx 侧完成。

第三步,Cloudflare DNS。

把 llm.yourdomain.com 的 A 记录指向公网服务器 IP,搞定。

最终效果:

curlhttps://llm.yourdomain.com/v1/chat/completions\
-H"Authorization: Bearer YOUR_API_KEY"\
-H"Content-Type: application/json"\
-d'{"model":"qwen3.5:27b","messages":[{"role":"user","content":"你好"}]}'

在公司、在咖啡厅、在出差路上,都能用,在其他地方的龙虾也能用。

而如果在家里的局域网内(比如 Mac 或手机),可以直接访问 http://192.168.1.10:11434,连 API Key 都不需要,延迟也更低。

家里的电脑开着就行。

09

你也可以

如果你手上有一张 24GB 显存的显卡,复刻这套方案其实不难。

硬件参考:

GPU
显存
适合跑什么
RTX 4090
24GB
27B Q4 轻松跑,还有余量给上下文
RTX 3090
24GB
同上,推理速度慢一些
RTX 4060 Ti 16GB
16GB
勉强跑 Q3,上下文窗口会比较受限
RTX 3060 12GB
12GB
跑 9B 绰绰有余
Mac M2/M3/M4 系列
最高 192GB
通过 llama.cpp 跑,利用统一内存

如果没有独立显卡但有一台大内存的 Mac,也能跑。M4 Max 的 128GB 统一内存甚至可以跑 72B 模型。

而如果你也用 Claude Code 或 Code ,给它一段指令就行了:

“ 帮我在 192.168.1.10 这台 Ubuntu 机器上部署 Qwen3.5-27B 的推理服务,用 ollama,端口 11434,开机自启。装好之后用 curl 测试一下能不能正常回复。

剩下的事情,就是偶尔看一眼它干得怎么样。

公网穿透部分稍微复杂一些,需要一台有公网 IP 的服务器(最便宜的云服务器就够用),加上 autossh + nginx 的配置。但核心思路就是上面说的三步。

如果你不想折腾隧道……其实也行。只在家里用的话,局域网直连就完事了。

10

龙虾满血

隧道打通之后,我把 OpenClaw 的模型配置切到了自托管的 Qwen 3.5 27B。

改了一行配置,重启,Telegram 上立刻收到了回复。

龙虾满血复活了,而且这次,它再也不会因为欠费而饿死。

随便跑,不用看账单。凌晨三点的 cron job?随便。Agent 跑个 50 轮工具调用?随便。

而且因为数据完全在自己家里的机器上跑,隐私方面也完全不用担心了。想跟龙虾聊什么就聊什么,不用担心有什么秘密被谁看到。

这就是家用部署最爽的地方:没有 rate limit,没有月度额度,没有隐私顾虑,想用多少用多少。

11

最后

这张 4090 在家里吃了三年灰。

现在它每天的工作是:跑一个 270 亿参数的模型,响应我的 Agent 请求,偶尔帮我写写代码。

电费每月 40 块。

而它替代掉的 API 账单,是每月 3000+。

一张吃灰三年的显卡,终于找到了自己的用途。

我那快饿死的龙虾,也终于找到了自己的绝配。



相关链接:

•  Qwen3.5 模型:https://huggingface.co/Qwen/Qwen3.5-27B 

•  Ollama:https://ollama.com/library/qwen3.5:27b 

•  Qwen3.5 GGUF 量化基准:https://unsloth.ai/docs/models/qwen3.5/gguf-benchmarks 

•  Qwen3.5 本地部署指南:https://unsloth.ai/docs/models/qwen3.5 

•  中国前沿模型对比评测:https://www.maniac.ai/blog/chinese-frontier-models-compared-glm5-minimax-kimi-qwen 

•  Qwen3.5 27B vs 35B-A3B 对比:https://vertu.com/ai-tools/qwen-3-5-27b-vs-qwen-3-5-35b-a3b-which-local-llm-reigns-supreme/

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询