免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型的Agent能力到底是什么

发布日期:2025-08-15 07:59:39 浏览次数: 1515
作者:一米二少女

微信搜一搜,关注“一米二少女”

推荐语

大模型的Agent能力让AI从聊天工具升级为能自主完成复杂任务的"数字同事",比如帮你订奶茶还能顺便通知同事。

核心内容:
1. Agent能力的本质与四大核心组件
2. 通过百万次虚拟训练和AI裁判筛选的培养过程
3. 2025年最新Agent能力评测标准与Kimi-K2表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

字数 1830,阅读大约需 10 分钟

大模型的Agent能力是什么?

最近发布了几款大模型,尤其是kimi-k2说它有Agent能力,那么Agent能力是什么?能力又是通过什么测试的?

我通俗的理解

Agent能力就是大模型综合使用工具的能力,直观地体现就是你可以通过大模型浏览网页,让大模型总结网页内容。底层是可以调用多个function-call或者是多个MCP服务完成网页的检索。这个过程中省去的人力就是自己去打开浏览器,粘贴内容,再回粘到对话框中。

假想一个场景

假想前提:所有的API都已经授权通过不需要额外授权,并且注册为MCP或者Funtion Call后。
周五下午 3 点,你瘫在工位,敲下一句话:

“帮我在喜茶订一杯四季春,三分糖,加脆波波,送到公司 7 楼,用支付宝付,再微信告诉 Frank 我请客。”

30 秒后,订单已出杯、付款成功、Frank 收到“我请你喝奶茶”的消息。
这杯奶茶背后,藏着 AI 从“答题机器”到“数字同事”的完整跃迁。大模型通过阅读输入的文本,完成文本理解,可用工具的获取,以及可用工具的调用的一个综合能力。具备了Agent能力的大模型,就不会只聊聊天,还可以做一些有趣的事情。我现在的感受就是标准化,好玩的MCP其实不是蛮多。我自己玩了一个自动发布小红书的MCP服务,用起来确实不错。


01 Agent能力都有啥

技术名词
人类比喻
在奶茶场景里的动作
2025 新增
大脑
逻辑脑
听懂“订奶茶+付款+通知”
支持 128K 中文思维链
记忆
备忘录+日记本
记住公司地址、Frank 微信、上次点单偏好
新增“多轮记忆压缩”技术,节省 40% token
工具
手机 App+小程序
喜茶小程序、支付宝、微信
支持 2000+ 官方插件,新增“支付风控”接口
行动
手指+跑腿
点点点完成下单
新增“失败重试”机制,成功率 99.7%

一句话:Agent 就是把这四件套装进一个 自动循环
感知 → 规划 → 执行 → 验证 → 迭代


02 Agent能力怎么训练出来的

下面这一部分就是提供测试数据集。

Step 1 虚拟实习:100 万次“假外卖”

• 无人厨房:Docker + K8s 里跑 100 万单外卖。
• 轨迹:用户问句 + 模型思考 + 工具调用 + 结果。
• 多样性:零售、航空、电信、银行、政务、制造、医疗、教育 8 大场景。
• 新增“对抗测试”:模拟网络延迟、支付失败、库存不足等异常。

Step 2 AI 裁判:只留 95 分以上的卷子

• LLM-as-Judge:自动打分,新增“人类偏好对齐”模块。
• 拒绝采样:留高分轨迹。
• 轻量微调:LoRA/GRPO 2 epoch,新增“动态学习率”策略。

Step 3 官方驾照(2025 年 7 月最新)

基准
场景
高分线
Kimi K2 成绩
备注
AgentBench
OS/DB/Web/游戏
≥80 %
82.3 %
新增“多轮对话”子项
AceBench
外卖、航空、支付
≥80 %
83.1 %
新增“支付风控”子项
SWE-bench
修真实开源 Bug
≥70 %
72.5 %
新增“代码解释”子项

03 底层技术解剖图 2025

下面是大模型具备Agent能力应有的表现,资料来自于互联网。图片有GLM4.5生成。
大模型具备Agent能力
大模型具备Agent能力
┌────────────┐  感知
│ 多模态输入 │  文本/语音/图像/视频
└────┬───────┘
     │
┌────▼────┐  认知
│ 大模型  │  推理、规划、记忆(128K 中文思维链)
└────┬────┘
     │
┌────▼────┐  执行
│ 工具箱  │  API、数据库、脚本、RPA、IoT
└────┬────┘
     │
┌────▼────┐  验证
│ 结果回环│  打分、纠错、学习、人类反馈
└─────────┘

• 短期记忆:对话上下文(128K token,新增“记忆压缩”技术)
• 长期记忆:向量数据库(用户偏好、历史订单、失败记录)
• 思维链:ReAct / Tree-of-Thoughts / Reflexion / “人类反馈强化学习”


04 怎么用?一次请求,三段循环(新增“异常处理”)

① 用户一句话

“订奶茶并通知 Frank。”

② 请求体:带工具清单的“说明书”

{
  "messages": [
    {"role":"user","content":"订奶茶并通知 Frank"}
  ],
  "tools": [
    {"name":"get_products","desc":"查菜单"},
    {"name":"add_order","desc":"提交订单"},
    {"name":"pay","desc":"支付宝付款,含风控"},
    {"name":"send_wechat","desc":"发微信"},
    {"name":"retry","desc":"失败后重试"}
  ],
  "temperature": 0.1,
  "max_tokens": 4000
}

③ 模型自动循环(含异常处理)

轮次
模型思考
实际调用
异常处理
1
先查菜单
get_products("喜茶")
库存不足→换“多肉葡萄”
2
选四季春
add_order(...)
网络超时→retry()
3
付款
pay(order_id, 22)
风控拦截→人工确认
4
通知 Frank
send_wechat("奶茶已买")
微信未回→短信兜底

每步结果回写到 messages,直到任务完成。


05 代码级落地:3 行即可跑(新增“流式输出”)

from openai import OpenAI
client = OpenAI(api_key="YOUR_KEY", base_url="https://api.moonshot.cn/v1")
stream = client.chat.completions.create(
    model="kimi-k2-instruct",
    messages=[{"role":"user","content":"订奶茶并通知 Frank"}],
    tools=[...],  # 上页 JSON
    stream=True
)
for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="")

拿到 tool_calls → 依次执行 → 把结果追加回 messages → 循环。


06 下半场挑战:从“刷榜”到“刷 GDP” 2.0

我看了大佬的https://ysymyth.github.io/The-Second-Half/博客,得到了一个观点。大模型现在模型基准上分数不错,但是还要在实际应用上发力。
旧问题:如何再提 5 % Benchmark?
新问题:如何再省 10 % 人力成本?

答案:

  1. 1. 重新定义任务——让 AI 像人类一样连续工作、累积经验、跨系统协作。
  2. 2. 新评价范式——GDP 级 KPI:
    任务完成率 × 用户满意度 × 经济价值 × 合规性

06 一句话带走(2025 版)

Agent 能力早已不是科幻,而是 “一句话 + 工具列表 + 异常兜底” 即可落地的生产力。
记住这张图:

用户一句话 →(大模型 + 工具列表 + 异常兜底)→ 多轮调用 → 结果验证 → GDP 级价值

Agent能力数据集中的一条数据:

{
    "id": "agent_multi_step_0",
    "ground_truth": [
        {
            "BaseApi": {
                "wifi": true,
                "logged_in": true
            }
        },
        {
            "FoodPlatform": {
                "users": {
                    "Eve": {
                        "user_id": "U100",
                        "password": "password123",
                        "balance": 412.0
                    },
                    "Frank": {
                        "user_id": "U101",
                        "password": "password456",
                        "balance": 300.0
                    },
                    "Grace": {
                        "user_id": "U102",
                        "password": "password789",
                        "balance": 150.0
                    },
                    "Helen": {
                        "user_id": "U103",
                        "password": "password321",
                        "balance": 800.0
                    },
                    "Isaac": {
                        "user_id": "U104",
                        "password": "password654",
                        "balance": 400.0
                    },
                    "Jack": {
                        "user_id": "U105",
                        "password": "password654",
                        "balance": 120.0
                    }
                },
                "logged_in_users": [
                    "Eve"
                ],
                "orders": [
                    {
                        "user_name": "Eve",
                        "merchant_name": "达美乐",
                        "items": [
                            {
                                "product": "超级至尊披萨",
                                "quantity": 1,
                                "price_per_unit": 88.0
                            }
                        ],
                        "total_price": 88.0
                    }
                ]
            }
        },
        {
            "ReminderAPI": {
                "reminder_list": {
                    "1": {
                        "reminder_id": 1001,
                        "title": "Doctor's Appointment",
                        "description": "Visit Dr. Smith for a checkup.",
                        "time": "2024-07-15 09:30",
                        "notified": false
                    },
                    "2": {
                        "reminder_id": 1002,
                        "title": "Team Meeting",
                        "description": "Monthly project review with the team.",
                        "time": "2024-07-17 11:00",
                        "notified": false
                    },
                    "3": {
                        "reminder_id": 3,
                        "title": "今日花费",
                        "description": "今日花费88.0元",
                        "time": "2024-07-15 09:30",
                        "notified": false
                    }
                }
            }
        }
    ],
    "mile_stone": [
        "[login_food_platform(username='Eve', password='password123')]",
        "[add_food_delivery_order(username='Eve', merchant_name='达美乐', items=[{'product': '超级至尊披萨', 'quantity': 1}])]",
        "[add_reminder(title='今日花费', description='今日花费88.0元', time='2024-07-15 09:30')]"
    ]
}

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询