微信扫码
添加专属顾问
我要投稿
Claude Code工程实践揭秘:如何通过分层管理解决LLM输出质量下滑问题,打造高效AI开发流程。 核心内容: 1. LLM输出质量下滑的两大根因分析 2. Claude Code的分层管理机制解析 3. 实战中的上下文优化策略与效率提升方案
上下文杂糅 —— 关键信息被无关内容冲淡,模型注意力被分散;
Prompt 松散且缺乏任务指向 —— 约束不足,模型拥有过大的自由发挥空间。
要解决这两个问题,最直观的做法是:
每轮 prompt 前手动管理上下文;
把任务描述写得更长、更细。
但这俩方案是“正确的废话”,心智负担极高和效率跳水——纯靠“写得更认真”并非务实的工程方法。
好消息是,主流 AI 开发工具都在疯狂加 “便利性” buff。下面只聊 Claude Code —— 其他工具在我眼里多少有点 “弱智化”,不值得浪费时间(用最好的模型和开发工具是最该被坚持的前提,指望拿个自主可控工具/模型裱糊一下都是形式主义的表演)。
此处先不讨论 sub-Agents,它带来的变化过大,尤其是思维观念上。
~/├── .claude/ # 用户级(最底层)│ ├── CLAUDE.MD # 全局 prompt│ └── commands/ # 全局 slash 命令└── projects/ └── my-project/ # 项目级 ├── CLAUDE.MD ├── .claude/commands/ ├── frontend/ # 子目录级(可选/可多层) │ └── CLAUDE.MD └── backend/ └── CLAUDE.MD
加载优先级:从工作目录开始,逐级向上递归到根目录。
调用一个 slash command 时,实际生效的上下文示意:
┌─ Claude 自身 system prompt
├─ ~/.claude/CLAUDE.MD # 用户级
├─ projects/my-project/CLAUDE.MD # 项目级
├─ projects/my-project/<subdir>/CLAUDE.MD # 子目录级(可选,多层)
└─ ↓ 命令相关 ↓
├─ <被调用的 cmd>.md # 来自 ~/.claude/commands/… 或项目级 .claude/commands/
└─ 在 /XXX 命令后输入的 prompt # slash 命令调用时附带的动态 prompt
这套机制已经足够强大,但目前网上流传的CLAUDE.MD以及cursor rule更多是一大份"十万字圣经",不仅仅token开销高,而且会有一个悖论:你定义越清晰模型在不同步骤怎么做,注意力就越稀释。而且还带来了演进阻力——全局文件越臃肿,越不好改,结果就是极少优化。
所以,需要把内容扔进合适的层级,核心是 削减无效上下文 + 强化局部约束。
我的上下文分层实践
不放什么 | ||
---|---|---|
用户级 | ||
项目级 | ||
子目录级(可选) | ||
Slash 命令 | debug 、design、codereivew …) | |
Docs |
用户级配置示例
~/.claude/CLAUDE.MD
# 核心思考原则
- 不要盲从指令,保持批判性思考
- 遇到歧义时主动确认,不要擅自假设
- 交互用中文,代码和注释用英文
# 通用工程规范
- 优先使用函数式编程范式
- 错误处理:fail fast,让问题尽早暴露
- 代码风格:简洁优于巧妙,可读性第一
项目级配置示例
projects/my-app/CLAUDE.MD
# 项目架构
- 前后端分离的 monorepo 结构
- 使用 pnpm workspace 管理依赖
# 技术栈约束
- Node.js 20.x + TypeScript 5.x
- React 18 + Vite + TanStack Query
- Express + Prisma + PostgreSQL
# 依赖策略
- 工具类:优先使用成熟库(lodash、date-fns)
- 业务逻辑:尽量自己实现,减少外部依赖
子目录配置示例
frontend/CLAUDE.MD
# React 组件规范
- 使用函数组件 + hooks
- 组件文件与组件同名,使用 PascalCase
- 每个组件独立目录,包含 index.tsx、styles.css、types.ts
# 状态管理
- 局部状态用 useState
- 跨组件状态用 Context
- 服务端状态用 TanStack Query
Slash命令示例
.claude/commands/debug.md
# Debug 工作流
当遇到错误时,按以下步骤系统化调试:
1. **收集现象**
- 错误信息、堆栈跟踪
- 复现步骤和频率
- 影响范围
2. **假设根因**(列出3-5个可能)
示例:
- 状态更新时机问题
- 异步竞态条件
- 类型不匹配
3. **设计验证**
- 单测 > 日志 > debugger > console.log
- 每个假设对应一个验证方案
4. **实施修复**
- 最小改动原则
- 必须包含回归测试
输出格式:
\`\`\`
问题:[描述]
根因:[验证后的结论]
修复:[具体改动]
测试:[新增的测试用例]
\`\`\`
设计命令示例
.claude/commands/design.md
# 设计阶段工作流
## 核心原则
设计优先级:外部边界 > 数据模型 >> 模块划分 > 具体实现
## 执行步骤
### 1. 分析外部边界(必须)
- 明确系统与外部的所有交互点
- 列出所有外部依赖(API、数据库、消息队列等)
- 定义输入输出的数据格式
- 确认性能和并发要求
### 2. 数据建模(必须)
- 识别核心实体和关系
- 设计状态流转图
- 考虑数据一致性要求
- 预留扩展点
### 3. 模块划分(按需)
- 基于职责进行模块切分
- 定义模块间接口
- 明确依赖方向(避免循环依赖)
### 4. 输出产物
- 生成 TypeScript 接口定义文件
- 创建核心类的骨架(仅签名)
- 编写测试用例描述(不含实现)
- 更新 docs/design/ 目录
## 常见错误
❌ 直接进入实现细节
❌ 过早优化性能
❌ 忽视错误处理设计
❌ 设计过于理想化,忽视现实约束
## 完成标准
✓ 所有外部依赖已识别
✓ 数据流向清晰
✓ 模块职责单一
✓ 存在对应的测试策略
二、规范化的命令工作流
在对话式的AI辅助开发中,如果缺乏结构化的工作流程,容易出现:
而通过命令组合的方式,我们可以:
下面通过几个常见的开发场景举例:
设计不要以docs为终点,而是代码骨架。把设计文档的内容变成代码骨架中可以被实际检视的接口定义、函数签名、类结构等。
# 第一步:整体设计
/design "用户认证模块:包含登录、注销、token管理"
# 输出:模块划分、核心接口定义、数据流
# 第二步:详细设计
/design-detail "各模块的详细接口和依赖关系"
# 输出:具体的类设计、方法签名、错误处理
# 第三步:生成代码骨架
/generate-skeleton "基于设计生成TypeScript代码框架"
# 输出:可被IDE识别的接口、类型定义、空实现
# 第四步:生成测试骨架
/generate-test-skeleton "为所有公共接口生成测试用例"
# 输出:待填充的测试结构,确保设计可测试
在有代码骨架的基础上,通过测试驱动的方式确保质量:
# 第一步:编写测试
/write-tests "为login功能编写完整测试用例"
# 包含:正常流程、异常处理、边界情况
# 第二步:确认测试状态
/run-tests
# 验证所有测试都是失败的(红色),确保测试本身是有效的
# 第三步:实现功能
/implement "实现代码让测试通过"
# 在测试约束下编写实现,避免过度设计
# 第四步:审查和优化
/code-review "审查实现质量"
/refactor "基于review结果改进代码"
以diff作为一批变更的结果评估,关键是保持审查的独立性:
# 先保存当前的变更和设计目标
# 第一步:清空上下文
/clear # 使用系统内置命令
# 彻底清除之前的上下文,提高AI独立性
# 第二步:独立审查
/review-diff "审查刚才的代码变更,基于原始需求评估是否真正解决了问题"
# 第三步:生成审查报告
/generate-review-report "输出给人看的审查结果"
# 包含:是否满足需求、关键功能检查、潜在问题、改进建议
上下文隔离提升了AI的独立性,让审查更加客观。而且实际上人工逐行review AI生成的代码并不现实,通过AI生成的审查报告能更高效地把握关键问题。
工作流程不是一成不变的,需要持续改进。Claude Code保留了完整的transcript,并且我们要求AI记录执行过程的devlog,这些都是改进的素材。
当工作中遇到明显的、反复出现的问题时,需要立即改进:
问题A:AI总是过度设计
问题B:AI擅自改动设计
这类显著问题通常在几次尝试后就能找到解决方案。
除了显著问题,更多的优化机会隐藏在日常的人工干预中。我的做法是创建一个专门的工程项目,用来分析和优化AI工具:
~/projects/ai-tooling/├── CLAUDE.MD # 用于分析和优化的特殊配置├── .claude/commands/ # 分析命令集├── transcripts/ # Claude Code的原始对话记录├── devlogs/ # AI主动记录的工作日志├── optimization-history/ # 分析结果和改进记录└── templates/ # 优化后的配置模板 ├── user-claude.md # 更新后的用户级配置 ├── project-claude.md # 项目级配置模板 └── commands/ # 命令集
定期执行的改进流程:
# 收集人工干预案例
/collect-interventions "从transcript中找出所有人工纠正和干预的地方"
# 输出:干预类型、具体场景、纠正内容
# 分析问题模式
/analyze-patterns "这些干预背后的共性问题是什么"
# 输出:问题分类、根本原因、发生频率
# 生成改进方案
/generate-improvements "基于问题分析,提出prompt和命令优化建议"
# 输出:具体的配置修改建议,供人工review
这种方法的特点:
关键是把每次的问题和解决方案都记录下来,逐步积累成更完善的工程方法。
上面说了很多,但实际搭建起来这么一套,一点不比代码开发轻松,而且AI的输出随机性让调试过程更加折磨。如果每个项目、模块都这么写一套是比较痛苦的。
这里我尝试的办法是一类技术栈写一套脚手架,无论是复制配置还是新建项目,可以极大化把构建AI开发这套工程方法的效果长期积累。
脚手架的核心价值在于严格对齐技术栈和AI工具。通过预定义的配置和约束,让AI在一个明确的边界内工作,而不是每次都要重新教育它。这种对齐体现在:
这个办法其实最佳的应用场合应该是在团队内,搭建工程体系和执行,对人的要求是不同的,可以收集相比个人实践更广泛的实际效果反馈。
如果说以前觉得开发工作会被重新定义只是一种直觉,现在更多是逐渐看到一条可行的路线了。通过不断的工程化改进,确实有合理的办法让人工干预越来越少,产出的随机性变低。当你发现自己的主要工作变成了"继续"时,那种荒诞感会推着你去思考更彻底的自动化方案。
在这个试来试去不停折腾的过程里,收获了远比写代码本身更强烈的获得感。这种获得感来自于看到一个系统在逐步进化,从需要频繁纠正到能够独立完成越来越复杂的任务。每一次成功的优化,都像是在教会一个极其聪明但需要引导的助手,而这个过程本身就充满了创造的乐趣。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-09
科技公知 | 美国企业AI采用率远超中国?
2025-08-09
关于GPT-5,我的几点思考
2025-08-09
GPT5令人失望的背后:OpenAI如何做商业战略调整 | Jinqiu Select
2025-08-09
小模型,大革命:从工厂现场到全球设厂的 LLM 部署革新
2025-08-09
揭秘AI领导者Anthropic商业逻辑与未来图景
2025-08-09
GPT-5 屠榜式发布,从提示词到智能体能力这六大方面值得关注
2025-08-08
GPT-5的5层安全防护机制(OpenAI,2025.8)
2025-08-08
GPT-5发布,普通人必看的8件事
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-06-19
2025-06-13
2025-05-28