微信扫码
添加专属顾问
我要投稿
大模型的Agent能力让AI从聊天工具升级为能自主完成复杂任务的"数字同事",比如帮你订奶茶还能顺便通知同事。 核心内容: 1. Agent能力的本质与四大核心组件 2. 通过百万次虚拟训练和AI裁判筛选的培养过程 3. 2025年最新Agent能力评测标准与Kimi-K2表现
字数 1830,阅读大约需 10 分钟
最近发布了几款大模型,尤其是kimi-k2说它有Agent能力,那么Agent能力是什么?能力又是通过什么测试的?
Agent能力就是大模型综合使用工具的能力,直观地体现就是你可以通过大模型浏览网页,让大模型总结网页内容。底层是可以调用多个function-call或者是多个MCP服务完成网页的检索。这个过程中省去的人力就是自己去打开浏览器,粘贴内容,再回粘到对话框中。
假想前提:所有的API都已经授权通过不需要额外授权,并且注册为MCP或者Funtion Call后。
周五下午 3 点,你瘫在工位,敲下一句话:
“帮我在喜茶订一杯四季春,三分糖,加脆波波,送到公司 7 楼,用支付宝付,再微信告诉 Frank 我请客。”
30 秒后,订单已出杯、付款成功、Frank 收到“我请你喝奶茶”的消息。
这杯奶茶背后,藏着 AI 从“答题机器”到“数字同事”的完整跃迁。大模型通过阅读输入的文本,完成文本理解,可用工具的获取,以及可用工具的调用的一个综合能力。具备了Agent能力的大模型,就不会只聊聊天,还可以做一些有趣的事情。我现在的感受就是标准化,好玩的MCP其实不是蛮多。我自己玩了一个自动发布小红书的MCP服务,用起来确实不错。
大脑 | |||
记忆 | |||
工具 | |||
行动 |
一句话:Agent 就是把这四件套装进一个 自动循环:
感知 → 规划 → 执行 → 验证 → 迭代。
下面这一部分就是提供测试数据集。
• 无人厨房:Docker + K8s 里跑 100 万单外卖。
• 轨迹:用户问句 + 模型思考 + 工具调用 + 结果。
• 多样性:零售、航空、电信、银行、政务、制造、医疗、教育 8 大场景。
• 新增“对抗测试”:模拟网络延迟、支付失败、库存不足等异常。
• LLM-as-Judge:自动打分,新增“人类偏好对齐”模块。
• 拒绝采样:留高分轨迹。
• 轻量微调:LoRA/GRPO 2 epoch,新增“动态学习率”策略。
AgentBench | 82.3 % | |||
AceBench | 83.1 % | |||
SWE-bench | 72.5 % |
┌────────────┐ 感知
│ 多模态输入 │ 文本/语音/图像/视频
└────┬───────┘
│
┌────▼────┐ 认知
│ 大模型 │ 推理、规划、记忆(128K 中文思维链)
└────┬────┘
│
┌────▼────┐ 执行
│ 工具箱 │ API、数据库、脚本、RPA、IoT
└────┬────┘
│
┌────▼────┐ 验证
│ 结果回环│ 打分、纠错、学习、人类反馈
└─────────┘
• 短期记忆:对话上下文(128K token,新增“记忆压缩”技术)
• 长期记忆:向量数据库(用户偏好、历史订单、失败记录)
• 思维链:ReAct / Tree-of-Thoughts / Reflexion / “人类反馈强化学习”
“订奶茶并通知 Frank。”
{
"messages": [
{"role":"user","content":"订奶茶并通知 Frank"}
],
"tools": [
{"name":"get_products","desc":"查菜单"},
{"name":"add_order","desc":"提交订单"},
{"name":"pay","desc":"支付宝付款,含风控"},
{"name":"send_wechat","desc":"发微信"},
{"name":"retry","desc":"失败后重试"}
],
"temperature": 0.1,
"max_tokens": 4000
}
get_products("喜茶") |
|||
add_order(...) |
retry() |
||
pay(order_id, 22) |
|||
send_wechat("奶茶已买") |
每步结果回写到 messages
,直到任务完成。
from openai import OpenAI
client = OpenAI(api_key="YOUR_KEY", base_url="https://api.moonshot.cn/v1")
stream = client.chat.completions.create(
model="kimi-k2-instruct",
messages=[{"role":"user","content":"订奶茶并通知 Frank"}],
tools=[...], # 上页 JSON
stream=True
)
for chunk in stream:
print(chunk.choices[0].delta.content or "", end="")
拿到 tool_calls
→ 依次执行 → 把结果追加回 messages
→ 循环。
我看了大佬的https://ysymyth.github.io/The-Second-Half/博客,得到了一个观点。大模型现在模型基准上分数不错,但是还要在实际应用上发力。
旧问题:如何再提 5 % Benchmark?
新问题:如何再省 10 % 人力成本?
答案:
Agent 能力早已不是科幻,而是 “一句话 + 工具列表 + 异常兜底” 即可落地的生产力。
记住这张图:
用户一句话 →(大模型 + 工具列表 + 异常兜底)→ 多轮调用 → 结果验证 → GDP 级价值
Agent能力数据集中的一条数据:
{
"id": "agent_multi_step_0",
"ground_truth": [
{
"BaseApi": {
"wifi": true,
"logged_in": true
}
},
{
"FoodPlatform": {
"users": {
"Eve": {
"user_id": "U100",
"password": "password123",
"balance": 412.0
},
"Frank": {
"user_id": "U101",
"password": "password456",
"balance": 300.0
},
"Grace": {
"user_id": "U102",
"password": "password789",
"balance": 150.0
},
"Helen": {
"user_id": "U103",
"password": "password321",
"balance": 800.0
},
"Isaac": {
"user_id": "U104",
"password": "password654",
"balance": 400.0
},
"Jack": {
"user_id": "U105",
"password": "password654",
"balance": 120.0
}
},
"logged_in_users": [
"Eve"
],
"orders": [
{
"user_name": "Eve",
"merchant_name": "达美乐",
"items": [
{
"product": "超级至尊披萨",
"quantity": 1,
"price_per_unit": 88.0
}
],
"total_price": 88.0
}
]
}
},
{
"ReminderAPI": {
"reminder_list": {
"1": {
"reminder_id": 1001,
"title": "Doctor's Appointment",
"description": "Visit Dr. Smith for a checkup.",
"time": "2024-07-15 09:30",
"notified": false
},
"2": {
"reminder_id": 1002,
"title": "Team Meeting",
"description": "Monthly project review with the team.",
"time": "2024-07-17 11:00",
"notified": false
},
"3": {
"reminder_id": 3,
"title": "今日花费",
"description": "今日花费88.0元",
"time": "2024-07-15 09:30",
"notified": false
}
}
}
}
],
"mile_stone": [
"[login_food_platform(username='Eve', password='password123')]",
"[add_food_delivery_order(username='Eve', merchant_name='达美乐', items=[{'product': '超级至尊披萨', 'quantity': 1}])]",
"[add_reminder(title='今日花费', description='今日花费88.0元', time='2024-07-15 09:30')]"
]
}
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-15
Anthropic重磅分享:构建高效能AI Agent的三大核心法则与未来展望
2025-08-15
构建可靠AI Agent:从提示词、工作流到知识库的实战指南
2025-08-15
Spring AI Alibaba 构建自我反思的 Reflection Agent
2025-08-15
AI知识库之腾讯 IMA Copilot: 最近可太卷了!3大新功能上线,全是实用狠活!
2025-08-15
腾讯,开始尝到AI甜头
2025-08-15
Anthropic分享如何构建多智能体研究系统
2025-08-15
Qwen3-4B:256K上下文,性能相当GPT-4.1-nano
2025-08-14
DeepSeek 思维链(CoT)在 AIOps 智能运维中的应用与落地实践
2025-05-29
2025-05-23
2025-06-01
2025-06-21
2025-06-07
2025-05-20
2025-06-12
2025-06-13
2025-06-19
2025-05-28
2025-08-14
2025-08-14
2025-08-13
2025-08-13
2025-08-11
2025-08-11
2025-08-11
2025-08-11