微信扫码
添加专属顾问
我要投稿
Arthas MCP让Java运维不再痛苦,AI自动诊断JVM问题,告别凌晨两点的命令记忆噩梦。 核心内容: 1. Arthas工具如何实时诊断JVM问题 2. 传统Arthas命令体系的复杂性与痛点 3. AI驱动的Arthas MCP如何智能规划排查路径
监控大盘显示某个订单服务的 P99 响应时间从 200ms 飙到了 8 秒,CPU 使用率 90%+,但没有任何报错日志。
你打开电脑,面对的是一个运行中的 JVM 黑盒。
加日志?要重新发布。接 JProfiler?生产环境没开端口。看 GC 日志?只有 Full GC 记录,看不出热点在哪。
做过 Java 运维的人都懂这种感觉。
Arthas 是阿里巴巴开源的 Java 诊断工具,解决的核心问题只有一个:不重启、不改代码,实时看清 JVM 内部在发生什么。
它通过字节码增强技术,在运行时"注入"到目标 JVM 进程,让你可以:
trace 找到哪个方法调用链路最慢watch 实时观察方法的入参、出参、异常,不用加一行日志jad 把线上运行的字节码反编译回 Java 源码,确认线上跑的代码和 Git 上的是不是同一份thread 找死锁、找 CPU 占用最高的线程dashboard 一眼看清 JVM 整体状态回到凌晨两点的场景:
# 找到 CPU 最高的线程
thread -n 3
# 追踪 OrderService.createOrder 的调用耗时
trace com.example.OrderService createOrder '#cost > 1000'
# 实时观察方法入参和返回值
watch com.example.OrderService createOrder '{params, returnObj, throwExp}' -x 2三条命令,通常能把问题范围缩小到具体的方法级别。
Arthas 在 Java 运维圈的地位,有点像 Linux 里的 strace + perf + jstack 的合体,但用起来友好得多。
Arthas 好用,但有个现实问题:命令体系很庞大。
trace、watch、stack、tt、monitor、profiler、vmtool、ognl……每个命令都有一堆参数,watch 的表达式语法本身就是一门小语言。
遇到陌生问题,你得先想"用哪个命令",再想"参数怎么写",再执行,再看结果,再调整。这个循环在凌晨两点特别折磨人。
更麻烦的是,很多排查需要多个命令组合使用,顺序和逻辑都有讲究。这些经验很难沉淀,也很难传递给团队里经验少的同学。
这正是 Arthas MCP 要解决的问题。
你不再需要记命令,只需要描述现象:
"服务响应慢,最近刚发布了代码,帮我排查一下"
AI 会自主规划排查路径:
dashboard 看系统整体负载trace 找耗时最长的方法jad 反编译目标类检查逻辑sc -d 确认类加载信息,排查依赖冲突你负责审批,AI 负责跑腿。
两步搞定。
第一步,添加依赖:
<properties>
<arthas.version>4.1.8</arthas.version>
</properties>
<dependency>
<groupId>com.taobao.arthas</groupId>
<artifactId>arthas-spring-boot-starter</artifactId>
<version>${arthas.version}</version>
</dependency>
<dependency>
<groupId>com.taobao.arthas</groupId>
<artifactId>arthas-mcp-server</artifactId>
<version>${arthas.version}</version>
</dependency>第二步,配置 application.yml:
arthas:
app-name: ${spring.application.name}
ip: 127.0.0.1
http-port: 8563
mcp-endpoint: /admin/mcp启动应用后,Arthas MCP Server 会随 Spring Boot 一起启动,在 http://localhost:8563/admin/mcp 暴露 MCP 端点。
如果你用的是 OpenClaw 、Hermes,可以安装 arthas-skills,把运维这件事推进到下一个层次。
npx skills add https://github.com/lltx/arthas-skills.git
安装完成后,你可以用一句自然语言驱动整个诊断流程:
看一下我的应用的 JVM 占用情况,提供一个分析报告
获取一下 userMapper 然后执行 Select 查询,通过 Spring Bean 的方式执行一下,看看当前有多少个用户
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-15
真正的 Skill 商店,为什么变成了微信公众号和小红书?
2026-04-15
装了N个skills之后,鹅厂员工觉得“最香”的是哪一个?
2026-04-15
Karpathy用Claude Code的最佳实践,开源了!飙升到 3.4 万 Star。
2026-04-15
产品经理的数据可视化神器:AntV 官方 Chart Skill 开箱即用
2026-04-15
PumpkinClaw 1.0 正式发布:让聊天变成工作,让笔记变成资产
2026-04-15
从 CLI 到桌面 App,再到技能市场:我们给我的 Rust Hermes Agent 造了一个完整的生态
2026-04-14
这个开源项目把前任做成 Skill,网友:这是什么赛博受虐狂?
2026-04-14
企业Skill的准确率,为什么总是上线即翻车?
2026-03-03
2026-04-05
2026-03-03
2026-03-04
2026-03-17
2026-03-10
2026-03-17
2026-03-05
2026-03-26
2026-03-05