我要投稿

龙虾绝配：Qwen 3.5 27B！跑在家里，成本为 0

发布日期：2026-03-30 08:24:08 浏览次数： 3965

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

我的龙虾🦞终于不用再「讨饭」了。

一张 4090，一个 Q4 量化，成本为 0（如果不算每月约 40 块的电费），取代了我每月 3000 块的 API 账单。

之前我在服务器上部署了 OpenClaw，用的是 GLM 的 API。跑了大概一个月，账单 3000 多块（我还是收着点跑了），而且最后一周就花掉了 1000 多。

大量用过龙虾的都知道，这货特别能吃。

每次用户交互还好，特别是我有大量的 cron task，消耗起 tokens 来简直是个无底洞、吞金兽。

日均 100-150 元，偶尔飙到 200 以上，像是家里有个没关的水龙头。

然后有一天，余额清零了。龙虾断粮 48 小时，在电报上疯狂报错 294 次。

于是我做了一个决定：把模型搬回家。

用一张 23 年买的 RTX 4090（后来一直在家吃灰），跑 Qwen 3.5 27B 的 Q4 量化版，部署成 OpenAI 兼容的 API，通过隧道穿透到公网。

从此，龙虾随便跑，不要钱。

家用分水岭

这张 4090 是 ChatGPT 刚出来那会儿买的，当时想在家里部署一些模型自己用，后面就没怎么折腾了。64GB 内存的台式机在家落灰，最近内存涨价，我甚至在想要不干脆把它卖掉，换点别的硬件玩玩。

但最近千问 3.5 出来之后，我发现了一个变化：家用消费级显卡，跑开源模型的效果，已经到了可用的门槛了。

这对我而言，可以算得是一个分水岭了。

不是「可以玩玩」的可用，是「可以拿来干活」的可用。

先来看 Qwen3.5-27B 和 GPT-5 mini 的正面对比（数据来自 HuggingFace 官方 model card 同一张表）：

基准测试	Qwen3.5-27B	GPT-5 mini
SWE-bench Verified	72.4	72.0
LiveCodeBench v6	80.7	80.5
MMLU-Pro	86.1	83.7
GPQA Diamond	85.5	82.8
HMMT 数学	92.0	—
IFEval 指令遵循	95.0	93.9

四项全超 GPT-5 mini。

SWE-bench 72.4 vs 72.0，MMLU-Pro 86.1 vs 83.7，GPQA 85.5 vs 82.8。

还有另一个可供参考的对比：Qwen3.5-27B 全面碾压 GPT-4o（2024 年发布，被 GPT-5 取代，已下线），而且差距不小，比如 MMLU-Pro 86.1 vs 72.6，差了 13 个点。

一个跑在家用级显卡上的 27B 开源模型，在这些核心基准上全面领先 OpenAI 的商业模型。

当然，和各家的旗舰模型（Claude Opus 4.6 的 SWE-bench 79.2、Kimi K2.5 的 76.8）相比还有差距。但别忘了，Opus 4.6 每百万 token 要 $15 输入 + $75 输出，Kimi K2.5 是万亿参数的 MoE 模型，而 Qwen3.5-27B 跑在你家里，成本是电费。

IFEval 95.0 是全家族最高，意味着它在结构化输出和 Agent 场景下的格式合规性，比 122B 的 MoE 版本还稳。对于跑 Agent 来说，这个指标其实比 SWE-bench 更实用。

为什么是 27B

Qwen 3.5 系列有好几个 size：9B、27B、35B-A3B（MoE）、122B-A10B（MoE）。

我选的是 27B Dense。

9B 太小了。之前公众号写过，@sudoingX 用 9B 在 RTX 3060 上写了个游戏，结果 2699 行代码，打开浏览器，黑屏。9B 能做单文件任务，但跨文件依赖一多就撑不住了。

而 35B-A3B 虽然参数总量更大，但每次推理只激活 3B 参数。推理速度快是快（能到 100+ tok/s），但质量上限比 27B Dense 要低不少。

27B Dense 每一个 token 都经过全部 270 亿参数的计算。这个计算密度带来的质量差异，在复杂编程和推理任务上是能感知到的。因此，它甚至能和 Qwen 3.5 397B-A17B 一战，差距极小。

另有网友实验对比：27B Dense 的 SWE-bench 分数比 35B-A3B MoE 高了将近 10 个点。

量化掉点无感

27B 全精度要 54GB，一张 4090 塞不下。

Q4_K_M 量化之后，模型大小缩到 17GB，就可以轻松放进 24GB 显存了。

掉了多少分呢？

Q4_K_M 量化在社区里被公认为质量和体积的最佳平衡点。实际体验下来，日常对话、代码生成、文档处理，几乎感知不到和全精度的差别。

而且 Unsloth 团队在 3 月 5 号用改进后的 imatrix 数据重新做了一轮量化，在聊天、编程、长上下文和工具调用上都有额外提升。

54GB 压到 17GB，质量基本不打折扣，跑在你家桌上。

两天部署

整个部署过程……说来话长，但其实无比简单。

我用的是 Claude Code 来远程操控整个部署流程。给它一个目标：SSH 到 4090 机器上，装好推理框架，下载模型，起服务，打通公网。

然后设定好判断标准：公网能 curl 通就算成功。

接下来……就让它干就好了。

以前手动部署过模型的人都知道这有多痛苦：各种环境冲突、依赖不兼容、CUDA 版本对不上、下载中途断掉。每个步骤都得盯着终端等，一等就是半小时。

现在有了 Claude Code，我就无所谓了。

虽然整个过程花了整整两天多，但我真正在里面花的时间，大概也就五分钟。

偶尔看看它干得怎么样了，回答一下它的问题（要重启机器吗？要关掉桌面环境吗？），剩下的时间该干嘛干嘛。

中间有一次，Claude Code 甚至反复催我去睡觉：

“ 你先去睡吧，我会持续跑着。明天你醒来后我们继续完成最后几步。晚安！

Claude Code：你快去睡吧！

结果我第二天醒来一看，模型下了 6/11 个文件。

过程中它折腾了不少弯路：先试 vLLM，依赖解析卡住……换 uv，下载到一半代理断了……用清华镜像，某个 NVIDIA 包又超时了……好不容易装上，一跑 OOM。原来 GPTQ-Int4 版本有 29GB（Mamba 混合层没被量化），4090 放不下。

然后换 Ollama 跑 GGUF，结果 CUDA 库安装中途被截断了。接着又升级 NVIDIA 驱动，从 535 到 570，重启两次。模型在 WiFi 上下了十几个小时。

但这些，都是 Claude Code 在折腾，跟我没关系。

终于，到了第二天的晚上，Claude Code 自己把一句「你好」发了过去，对面回来了一句「你好！很高兴见到你。有什么我可以帮你的吗？」

性能实测

模型跑在 RTX 4090 上，Q4_K_M 量化，ollama 0.18.2，CUDA 12.8。

Claude Code 按我的要求跑了一轮压测：

并发数	总吞吐 (tok/s)	单请求延迟	请求/秒
1	28.8	7.4s	0.13
2	29.9	8.9s	0.20
4	30.0	16.5s	0.21

需要说明的是，GPU 总吞吐恒定在 ~30 tok/s，这是单卡的物理上限。

并发请求本质上是在共享 GPU 的计算资源。1-4 路并发时总吞吐不变，但每个请求的等待时间会随并发数线性增长。

再往上加到 8 路、16 路，延迟就会变得不太可接受了。

所以这套方案比较适合 1-2 个人同时使用，或者 Agent 后台串行跑任务。想要高并发服务多人的场景，还是得考虑云端 API 或者多卡方案。

而 30 tok/s 是什么概念呢？

日常对话回复大约 200-500 tokens，也就是 7-17 秒出完整回复。写一段代码大概 1000 tokens，半分钟左右。

对于我的龙虾后台跑 cron job 的场景，绰绰有余了。

省了多少钱

说回前面，我的龙虾🦞用 GLM 的 API 跑了大约一个月，账单 3000 多块。最后一周就花了 1000 多。

现在呢？电费。

RTX 4090 满载功耗 450W，但推理时实际功耗大约 200-250W。按每天跑 8 小时算，一天大约 2 度电，一个月 60 度，电费不到 40 块。

从每月 3000 到每月 40 块，省了 98.7%。

而且这还是一次性投入。4090 买都买了，放在家里也是吃灰。现在让它干点正事，相当于变废为宝了。

绝对隐私

省钱之外，还有一个也许更重要的好处：数据不出家门。

所有的对话、代码、文档，全部在你自己的机器上处理。没有经过任何第三方服务器，没有任何人能看到你的数据。

用云端 API 的时候，你的每一条消息都会发送到模型提供商的服务器上。虽然大部分公司都承诺不会用用户数据训练模型，但……你的数据终究是离开了你的掌控。

本地部署就完全没有这个顾虑。

对于处理公司代码、客户数据、敏感文档的场景来说，这个价值可能比省钱更大。

公网穿透

模型跑在家里的电脑上，但总不能只在家才用吧？

所以我做了一套隧道穿透方案，让这个 API 在公网上随时可用。

具体操作分三步：

第一步，SSH 反向隧道。

在 4090 上用 autossh 建立一条持久的反向隧道，把本地的 ollama 端口（11434）映射到一台有公网 IP 的服务器的 8100 端口。autossh 会自动重连，配合 systemd 开机自启，基本上不用管。

第二步，nginx 反向代理 + API 鉴权。

在公网服务器上用 nginx（OpenResty）把 8100 端口包一层 HTTPS，绑上域名 llm.yourdomain.com。同时在 nginx 层做 Bearer Token 验证，没有正确的 API Key 就返回 401。

这样 ollama 本身不需要改任何配置，鉴权完全在 nginx 侧完成。

第三步，Cloudflare DNS。

把 llm.yourdomain.com 的 A 记录指向公网服务器 IP，搞定。

最终效果：

●●●
curlhttps://llm.yourdomain.com/v1/chat/completions\
-H"Authorization: Bearer YOUR_API_KEY"\
-H"Content-Type: application/json"\
-d'{"model":"qwen3.5:27b","messages":[{"role":"user","content":"你好"}]}'
└

在公司、在咖啡厅、在出差路上，都能用，在其他地方的龙虾也能用。

而如果在家里的局域网内（比如 Mac 或手机），可以直接访问 http://192.168.1.10:11434，连 API Key 都不需要，延迟也更低。

家里的电脑开着就行。

你也可以

如果你手上有一张 24GB 显存的显卡，复刻这套方案其实不难。

硬件参考：

GPU	显存	适合跑什么
RTX 4090	24GB	27B Q4 轻松跑，还有余量给上下文
RTX 3090	24GB	同上，推理速度慢一些
RTX 4060 Ti 16GB	16GB	勉强跑 Q3，上下文窗口会比较受限
RTX 3060 12GB	12GB	跑 9B 绰绰有余
Mac M2/M3/M4 系列	最高 192GB	通过 llama.cpp 跑，利用统一内存