我用 Qwen 3.7 从 0-1 用 AI 搓了一款武侠 RPG 游戏，绝了！

发布日期：2026-05-21 13:11:31 浏览次数： 1904

作者：甲木未来派

微信搜一搜，关注“甲木未来派”

“

对话能装，但代码不会撒谎。一晚上 4200 行代码、0 类型错误，全程一会话推到底。

—— Qwen 3.7

昨天阿里正式发布Qwen 3.7-Max，

我用它直接搓了一款 RPG 游戏，先给大家过过目。

其实事情得从前两天说起。

那天我去参加观猹的线下活动，跟聪哥碰头。聊到一半他突然神神秘秘跟我说：“甲木，我最近测了阿里刚出来的 Qwen 3.7-Max，有点东西，强烈建议你也试试。“

聪哥是行走的 Qwen 代言人，一旦 Qwen 出好东西了总是会给我安利，然后我就当场掏出手机找阿里云的同学”刷了下脸”，要到了内测白名单。

晚上回到酒店，模型到手，琢磨搞点什么东西来测测模型能力，想了想——

决定用 Qwen 3.7-Max 写一款武侠 RPG 页游，看看它效果怎么样。

WHY CODING

为什么选编程？

最近这一年，AI 圈两个词：VibeCoding 和 VibeWorking。

前者是”氛围编程”，后者是”氛围工作”。本质上都是让 AI接管一段过去需要专业能力才能完成的工作流。

听着挺玄的，但底层逻辑只有一句话——

所有的 Vibe，都建立在底座模型够不够硬的基础上。

你让一个能力一般的模型去 VibeCoding，它跑两步就丢上下文；让它去 VibeWorking，它做完一个环节就忘了上下文。Vibe 不起来，反而比自己干还累。

所以我一直觉得，衡量一个模型”配不配 Vibe”，最好的场景就是编程开发。

它要求你有长上下文、多步推理(从需求 → 架构 → 实现 → 调试 → 优化，每一步都依赖前一步）、工具调用稳定，还能自我修正(写错了得自己发现、自己改，不能傻等用户指出）。

对话能”装”，但代码不会撒谎，能跑就是能跑，不能跑就是不能跑。

我要测的就是这个。让 Qwen 3.7-Max 从零搭一个完整的 RPG 游戏项目，从世界观设计到游戏代码，从战斗系统到 UI 动效，全程一个会话推到底。

能跑通，它就还算可以。

UPDATES

Qwen 3.7 这次更新了什么？

正式开测前先简单交代一下背景，不啰嗦，三段说完。

▎第一 · 编程榜单全面上探

Qwen 3.7-Max 在真实智能体编程榜 Terminal-Bench 2.0 Terminus 上拿了 69.7 分，超过了 DS-V4-Pro Max 的 67.9 分。

▎第二 · 推理能力刷了一堆纪录

详细数据大家可以看下面文章。

📎 Qwen3.7：智能体新前沿

▎第三 · 长程任务能力是这次最炸的点

官方放出来的一个 case 是：在一颗它训练时从未见过的全新芯片（平头哥真武 M890）上，Qwen 3.7-Max 完全自主跑了 35 小时，独立做了 432 次内核评估、1158 次工具调用，从零写出一个 CUDA 注意力内核，最后比 SGLang Triton 官方实现快 10 倍。

运行到 30 小时它还在发现新的优化点，甚至主动发起了一次架构重设计。

“模型能在长链路任务中不丢上下文、不胡说八道“，是用好的关键，

这也是我接下来这个 RPG 开发要重点验证的。

当然，榜单数据仅供参考，还是要通过实战来看看效果到底怎么样。

SETUP

实战准备：环境怎么配的

我用的是这套组合：

01Claude Code 当 IDE

02CC Switch 切换底层模型到 Qwen 3.7-Max

03Superpower Skills 作为我的方法论 plugin

CC Switch 是个挺好用的小工具，可以把底层模型一键切到 Qwen 3.7-Max。

然后我用的本地 Superpower Skills，这是一套我自己常驻在 Claude Code 里的 Skill，里面包括 brainstorming、writing-plans、subAgent-driven-development、verification-before-completion 等十几个 Skill。简单说，它们让 Claude Code 在执行任务前会先用规范化的方式做”立项 → 计划 → 拆任务 → 执行 → 验证”。

这套组合的好处是：Qwen 3.7-Max 出推理 + 编程的算力，Superpower Skills 出工程纪律。

底层模型再强，没有工作流约束，也容易跑偏；工作流再规范，模型不够稳，也跑不动复杂项目。两个加起来，效果远超单独的任何一个。

启动 Prompt 我没写得太复杂，就一段——

▎ 启动 PROMPT

“我们要协作开发一款武侠 RPG 游戏，工作标题《一念江湖》。单页面应用，30 天江湖日历内做出抉择触发 7 种结局之一。核心系统：12 NPC × 4 维好感度（信任 / 亲密 / 敬畏 / 忌惮）、江湖关系图、5 大门派 × 20 招武学、回合制战斗。视觉上走朱砂红古卷风。请用 TodoWrite 把后续阶段建成 todo 列表，本轮先完成 Phase 0：世界观设计 + 5 门派设定 + 12 NPC 名册 + 美术风格基线。“

剩下的，我打算交给 Qwen 3.7-Max 自己来。

模型输出速度演示

RESULT

一晚上跑出了什么？

先说结论：它没有让我失望。

晚上两个小时，Qwen 3.7-Max 在 Claude Code 里给我交付了一个可以直接 build、可以直接玩的完整项目。

结构长这样：

▎ PROJECT STRUCTURE

yinnian-jianghu/

├── src/

│ ├── components/ # 5 个组件：Layout / ActionPanel

│ │ / AffinityPanel / PortraitModal / TimeBar

│ ├── scenes/ # 8 个场景：标题 / 创角 / 大地图

│ │ / 地点 / 对话 / 战斗 / 装备 / 结局

│ ├── data/ # 7 份数据：NPC / 武学 / 门派

│ │ / 地点 / 对话树 / 事件 / 商店

│ ├── stores/ # gameStore.ts — Zustand 全局状态机

│ ├── types/ # 类型定义

│ └── utils/

├── public/assets/ # AI 生成的人物立绘 + 地图背景

├── api/ # 后端 API(部署到 Vercel)

├── tests/

└── vercel.json

技术栈是 React + TypeScript + Vite + Vercel，全套现代前端工具链。npm run build 全绿过——275ms 构建完，产物 319 KB(gzip 后 102 KB)。

4200+

代码总行数

275ms

build 耗时

类型错误

要设计一个好玩的游戏，世界观还是需要好好思量的，也就是内容厚度。

▎ 4-1 · 世界观和角色

Qwen 3.7-Max 自己定的世界观是北宋末年虚构武林，5 大门派全部避开金庸古龙原型：

门派 01青云剑派：掌门陆青崖，剑系正派

门派 02玄天教：教主厉无常 + 左护法殷夜，内功系

门派 03千机阁：首席柳如是（造物堂），暗器机关系

门派 04醉花阴：掌门花无缺，毒掌系女子门派

门派 05断念寺：住持了空大师 + 武僧慧明，拳脚禅意系

12 个 NPC 完整名册，每个人都有自己的性格、门派、年龄、立绘 prompt、对话树和隐藏剧情伏笔。

其中谢长亭是一个”神秘剑客”，指向主角身世的核心线索人物；赵铁衣是朝廷密探，开了一条体制 vs 江湖的支线。

我让它把对话树写出来的时候，它给陆青崖单独写了三条独立路线(拜师 / 问恩怨 / 挑战)，每条路线下面还有 2-3 层选择分支。给厉无常写了 路过 / 拜会 / 揭面 三条，每条的态度变化、情绪曲线、好感度数值变化都对得上。

光是 data/dialogues.ts 这一个文件就 900 多行。

▎ 4-2 · 多轮对话

之后通过 Superpower 的 Brainstorm 跟 Qwen 3.7 进行了多轮对话，确定了开发 plan 文档，

Plan 审查 GIF 动图

之后就直接通过 Superpower一次性开启多个 sub-agent，进行内容的输出。

咔咔一顿跑，跑了大概十六分钟，输出了第一个版本。

这时候我想让它直接去生成一个游戏里面的一些素材等等，我直接让它用 GPT Image 2 来进行生成。

之后就根据游戏需要，自行写绘画 prompt，然后调用模型，

生成了一批游戏素材，供页面使用，

▎ 4-3 · 4 维好感度系统

这是我开始最担心做不好的部分。

简单的好感度系统大家都能写，“+10 -5” 就完事。但我希望它做出来的是一个 多维度叠加 + 互相影响 + 决定行为可见性 的真好感度。

Qwen 3.7-Max 给我的方案是把好感度拆成信任 / 亲密 / 敬畏 / 忌惮四个维度，每个维度独立累计。

不同的对话选择、礼物、行动会对不同维度产生不同方向的影响。

▎ 4-4 · 战斗 + 商店 + 任务

回合制战斗系统也做了。武学按”拳 / 剑 / 内 / 毒 / 掌”五类设计，相克关系做了完整矩阵 ——剑克招式、毒克续航、内克气血。20 招武学每一招有自己的内力消耗、伤害类型、状态附加效果。

商店系统是后来追加的，包含金币系统、物品分类、购买和使用动作。

赏金任务系统在 gameStore 里以 doQuest action 实现，完成任务自动加金币、消耗时辰、记入日志。

每一个子系统单独看都不算复杂，但 Qwen 3.7-Max 是一次会话里把它们全做完的，而且互相之间数据是打通的，

你战斗赢了会涨敬畏，逛商店买东西会扣金币，赏金任务消耗时辰会触发新的剧情节点——各系统之间真正联动。

当然也会有一些问题，遇到交互不好的地方，直接嘴喷需求就行了。。

多轮对话，依旧保持上下文内容无失忆，

完整地玩上一轮之后，最终游戏结束，没有触发隐藏结局。。

等我今天没事了再耍耍。。

HIGHLIGHTS

三个让我”哎呦不错”的瞬间

光说结果太抽象，挑三个开发过程中我印象最深的瞬间。

▎ PART 1 · 自己提议拆 Store 架构

我最早的需求里没有说要用 Zustand 做全局状态管理。我只是说”做一个 RPG 游戏”。

Qwen 3.7-Max 这次给我的判断节奏，是真”工程师”的节奏。

▎ PART 2 · emoji 那一波翻车-修正

开发到一半的时候，因为我自己当初提示词写得不严谨，给的关键词里有”emoji + Unicode + CSS 渐变”。

整个修正过程没有让我介入任何代码细节，也没有出现”漏改了某个地方”。这点对我来说才是真正能“放手让它干活” 的关键。

▎ PART 3 · 4200 行代码 build 零错

最后我跑了一次 npx tsc --noEmit，TypeScript 严格模式 0 错误。

Qwen 3.7-Max 在整个开发过程里没有让我手动改过一次类型错误。

它每写完一个模块自己跑 tsc 自查，发现错就自己回去修。

这种”工程纪律的自闭环”，是我对它打分最高的一项。

当然，这个游戏还有很多 bug 和值得优化的地方，才能把它做得跟传统 RPG 游戏一样好玩，Qwen 3.7-Max 在 Coding 能力上相比前代版本有很大提升。

但是其它方向还没来得及测，等明天继续。。

∞

THOUGHTS

结语

熟悉我公众号的朋友知道，我从 Qwen 2.5 开始就一直在跟千问。

每一代我都过一遍，体感一代比一代稳。

这次 Qwen 3.7-Max 在Coding 和长程任务上也有不错的提升。

阿里云百炼即将上线 Qwen 3.7-Max 的 API,Qwen 3.7 系列会补充多模态能力，保持关注，我会继续跟下去。

回头看这一年，DeepSeek、千问、智谱、Kimi、豆包……每隔几天就有新模型、新突破、新排名。

这不是某一家独大的故事，是整个行业在狂奔。

而千问，又一次冲在了最前面。

也期待我们国内的 AI，越来越强。

以上。

END

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业