微信扫码
添加专属顾问
让 AI Agent 替你跳面板、拼线索、写结论,把人从“采集者”变成“决策者”。核心内容:1. 智能入口:一句话启动,无需记忆复杂查询2. Agent大脑:自主编排工具,设计排查路径3. 仪表总览:一屏掌握集群态势与告警
一个看得懂系统、查得出根因、还能动手解决的AI Agent。 监控、远程执行、知识库、专家智能体、Bash、文件等各类技能——直接通过飞书、Slack、Telegram下达指令。
过去十年,运维工具堆得越来越高:Prometheus 看指标、Loki 翻日志、Grafana 画图、Jaeger 追链路、再加一堆告警群和值班表。但凌晨三点告警一响,工程师要做的事情还是老一套——在七八个面板之间来回跳,把碎片拼成一个"为什么"。
而Ongrid(https://github.com/ongridio/ongrid) 是完全AI Nitave的做法:让 AI Agent 替你跳面板、拼线索、写结论,把人从"采集者"变成"决策者"。而且——它完全开源、一行命令就能自托管,数据全程不出你自己的机房。
下面,跟着每一个模块,看看它到底能干什么。
打开 Ongrid,迎接你的不是密密麻麻的图表,而是一句随机prompt例如:"需要我先做些什么?"
顶部一行就是集群的"体温":4/4 在线设备、6 未确认告警、本周会话数、今日 LLM token。下面是几个开箱即用的意图卡片——"找出资源最紧张的 3 台设备"、"看一台设备的实时负载"、"对比设备之间的网络流量"。
你不需要记 PromQL,不需要知道指标叫什么。想问什么,就打一句中文。 剩下的,交给 Agent。
这是 Ongrid 的心脏。当你问"找出当前 CPU、内存或负载最紧张的 3 台设备,给出关键指标和判断依据"——
看它怎么干活:
rank_edges 返回空,自己判断"可能 scrape 数据尚未就绪",立刻改用 query_promql 直接从 Prometheus 取 top 3;device_id=1 内存有波动(72% → 41%),主动追加查询去确认当前值,并拉核数做 load 基准、检查近期告警。这不是一个"问一句答一句"的聊天机器人,而是一个会自己设计排查路径、遇阻会换路、看到异常会深挖的协调者(Coordinator)。它背后还能把任务分派给 SRE / 网络 / 数据库子专家。每一次工具调用都清清楚楚列在时间线里,可审计、可复盘。
在线设备、过去 24h 平均 CPU / 内存、今日 LLM token、本周会话数——核心指标卡顶在最上面。下面是 24 小时集群趋势、集群在线态势(绿色心跳条一眼看出谁掉过线)、告警分级环图,以及"告警源 TOP 5"。
它既是给人看的总览,也是给 Agent 用的上下文。 当你发起一次诊断,Agent 看到的,和你看到的,是同一份实时态势。
每台机器装一个轻量 edge agent,主动拨出到云端建隧道——主机上不需要开放 22 / 80 / 443 任何入站端口。列表里在线状态、最后心跳、版本一目了然。
最爽的是右边那颗"终端"按钮:
点一下,浏览器里直接弹出一个真实的 SSH 会话——root@VM-0-10-ubuntu,uptime、apt list 随便敲。没有跳板机、不用分发密钥、走反向隧道、全程审计。 在任何一台内网机器上拿到一个 shell,从此只要一次点击。
🔒 技术解密:零端口暴露怎么做到的?
传统方案是"云端来连主机",每台机器都得开端口、放行入站——每开一个口,就多一个被攻击的面。Ongrid 反过来:主机上的 edge 只做一件事——主动向云端拨出一条加密连接,就像浏览器访问网站一样。之后所有命令、SSH、文件传输,全都在这条主机自己发起的隧道里反向流动。
结果就是:主机零监听端口、防火墙入站规则可以全关,22 / 80 / 443 一个都不用开。攻击面从"每台机器一堆开放端口",收敛成"一条出站连接"。
Prometheus + Grafana 已经接好。全集群 CPU / 内存 / 磁盘 / 网络吞吐、按物理设备拆分、Top 8 进程 CPU / 内存——这些面板出厂即用。需要深度分析或自定义?一键跳 Grafana。
关键在于:这些 PromQL 不需要你写。 面板标题上挂着的就是真实查询语句,而当 Agent 排查时,它会自己拼出 topk(8, ...)、rate(node_network_receive_bytes_total{...}) 这样的表达式去取数。可观测栈是它的"眼睛",不是你的负担。
同样地——Agent 也能查日志。 一次根因分析里,它会把指标的异常窗口和日志里的关键事件对齐,让"现象"和"证据"自动咬合。
这是 Ongrid 最能打的一块。告警不再只是一条红色通知,而是一份带证据链的根因报告:
swap_high 触发后,Agent 自动起了一次 RCA,耗时 34 秒、调用 14 个工具、置信度 90%,给出结论:
根因:Milvus 向量数据库进程占用内存过高,把系统逼到使用 swap。 定位对象精确到
device=2 pid=3466113 service=Milvus。
下面是一条条带标签的证据链(memory monitoring → swap monitoring → alert monitoring)、关联告警(#5 磁盘使用率 > 85%)、以及带优先级的建议动作(mutate / observe)。右侧还顺手算出了影响面(拓扑邻居)——这台设备出事,会波及谁。
从"Swap 使用率 > 50%"这种干巴巴的阈值,到"是 Milvus 把内存吃爆了,建议这样配限制"——中间那一公里,Agent 替你走完了。
Ongrid 内置 96 篇运维知识,其中 70 篇诊断 Playbook——DNS 解析失败、文件描述符耗尽、OOMKilled、K8s Node NotReady、负载均衡健康检查抖动、非对称路由 rp_filter 丢包、IRQ 亲和失衡、NFS 卡死……几乎覆盖了一线最常见的疑难杂症。
这些不是摆设:Agent 排查时会用 query_knowledge 检索它们,把"行业经验"注入到每一次诊断里。组织还能上传自己的 Playbook(md / txt / pdf / docx),或接入私有代码仓库,让 AI 懂你自己的系统。
LLM 当前可见的能力一共 33 个——7 个跑在设备端、26 个跑在云端,按 agent / 主机 / 告警 / 平台 / 文件系统 / 知识 / 网络 / 观测分类:
correlate_incident——为一条 incident 做 metric / log / trace / edge 多源关联;expand_topology / find_topology_node——在业务拓扑图里 BFS 计算影响面;host_bash——设备上跑只读 shell 做诊断探索(沙箱化 read-only 策略);get_host_load / get_host_processes / host_du_summary / host_find_large_files——主机即时快照;host_netns_inspect——列出 network namespace 报告 IP / 路由 / 接口状态……每一个都标了 safe、标了运行位置、标了是否"仅 AI 调用"。这就是 Agent 的双手——而且每一次出手都在沙箱里、都被审计。
不绑定任何一家模型厂商。Anthropic / OpenAI / 智谱 GLM / DeepSeek / Gemini / Kimi——填上自己的 API Key 即可,每个提供商可配多个 model,聊天页下拉直接读这里。
改了 key 或模型列表,~60 秒内自动生效,无需重启。留空某个提供商的 key,它就不出现在下拉里。默认模型一键切换,全平台(RCA / 翻译 / 聊天)跟随——今天用 glm-5.1,明天想换 Claude,鼠标点一下的事。
排查能力再强,也得"送到人手边"。Ongrid 支持 Slack / Telegram / 飞书 / 钉钉 / 企业微信 五大 IM 双向通道——告警推得出去,指令也能从群里发回来,每个通道还能配独立语言。
一段飞书里的真实交互:
说了这么多能力,但 Ongrid 最该被记住的一点是——它完全开源,Apache 2.0 协议,代码就摆在 GitHub 上(github.com/ongridio/ongrid)。
这意味着什么?
docker compose up,Prometheus + Loki + Tempo + Grafana + Agent 一整套直接在你自己的机器上跑起来。不是 SaaS 试用,不是 demo 沙箱——是你拥有的、能改的、能审计的完整系统。闭源 SaaS 给你一个"信任我"的承诺;开源给你一份"自己验"的源码。运维这种事,后者才让人睡得着。
支持 Ubuntu 22.04+ / Debian 12+ / RHEL·Rocky 9。下载 release、解压、跑安装脚本:
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line# 1. 下载最新 releasewget https://github.com/ongridio/ongrid/releases/download/v0.7.168/ongrid-v0.7.168-linux-amd64.tar.xz# 2. 解压tar -xf ongrid-v0.7.168-linux-amd64.tar.xz && cd ongrid-v0.7.168-linux-amd64# 3. 安装sudo ./install.sh
想从源码起整套栈做本地开发?配好管理员账号和一个模型 API key 即可:
ounter(lineounter(linecp deploy/.env.example deploy/.envmake compose-up # 停止用 make compose-down
跑完,浏览器打开就是你在上面看到的那个工作台——全部在你自己的机器上。
Ongrid 把可观测、设备直达、AI Agent、知识库、IM 通道拧成了一根链条:
采集、拼图、翻面板的脏活,交给 Agent。判断和决策,留给人。 而这一切,开源、自托管、数据不出门。
运维届的 OpenClaw,真的来了——而且,它把源码也一起交到了你手上。
⭐ GitHub:github.com/ongridio/ongrid · Apache 2.0 · docker compose up 一键自托管
最后的最后,重要的事说三遍(不管你是懂chatbot、grafana、prometheus、loki、llm、agent、sandbox、skill、harness、网络等等):
欢迎贡献代码,一起来做最好的AI Ops Agent吧,迫切需要你加入!!!
欢迎贡献代码,一起来做最好的AI Ops Agent吧,迫切需要你加入!!!
欢迎贡献代码,一起来做最好的AI Ops Agent吧,迫切需要你加入!!!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-30
刚刚,OpenClaw和Cursor杀入手机!Agent从此塞进口袋
2026-06-21
openclaw深度实践(四种场景:企业提效参考)
2026-06-21
OpenClaw不仅仅是聊天框,还是Agent后台引擎,通过API接入现有平台
2026-06-18
OpenClaw MetaSKILLs 系统深度解析:AI Agent 正在学会「自己给自己写技能」
2026-06-17
OpenClaw 6.8 震撼发布:不堆噱头,彻底治愈 Agent 的“宕机失忆症”
2026-06-01
OpenClaw 5月28日更新:更加提升稳定性
2026-05-31
Claw Team 在 SRE 场景下的实践
2026-05-29
OpenClaw与Hermes:源码里的 AI Agent 架构知识大复盘
2026-04-09
2026-04-03
2026-04-15
2026-05-03
2026-04-09
2026-04-13
2026-04-18
2026-04-02
2026-04-04
2026-04-08
2026-04-09
2026-04-07
2026-04-02
2026-03-30
2026-03-30
2026-03-26
2026-03-24
2026-03-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。