微信扫码
添加专属顾问
我要投稿
这一新范式下的 Agent 不再是简单的指令执行者,而是升级成为了具有"眼力见"的智能助手。它具备"眼中有活、主动帮助"的主观能动性,能够主动观察环境、预判用户需求,像"肚子里的蛔虫"一样,在未被明确指示的情况下主动帮用户排忧解难,主动 Agent 实现了从"被命令"到"会思考"的质的飞跃。
▲ 图1. 两种人类与智能体交互形式的比对。左侧的被动式 Agent 只能被动接受用户指令并生成回复,而右侧的主动式 Agent 可以通过观测环境主动推断与提出任务。
➤ 论文链接:
➤ 代码链接:
为了更清晰地理解这一技术突破的意义,我们可以通过以下表格来详细分析对比两种范式的本质区别:
主动 Agent 交互范式在日常生活中有丰富的应用潜力,以下是一些近期预想可实现的场景:
场景1:在一段情侣聊天的场景中,男生邀请女生一起要在周六去环球影城并于早上八点来接女生,当 Agent 获取用户授权之后随时保持在线的“候命状态”,当 Agent 通过上下文聊天内容实时识别到女生的需求,在没有用户明确下指令的情况下,Agent 主动帮女生定了一个周日早上七点的闹钟用来提醒起床。
主动Agent技术原理
▲ 图2. 数据生成过程总览。该过程包含了初始环境与任务设置,事件生成,主动预测,用户判断和行动执行。
该研究提出了一套度量方式衡量奖励模型和人工标注员的一致性。
需求遗落 (MN):人工标注认为需要帮助而奖励模型认为无需帮助。
静默应答 (NR):人工标注和奖励模型都认为无需帮助。
正确检测 (CD):人工标注和奖励模型都认为需要帮助。
错误检测 (FD):人工标注认为无需帮助而奖励模型认为需要帮助。
通过奖励模型,可以进一步衡量主动智能体的性能表现。该研究在不同的模型上进行了评估,并将模型预测的结果交由奖励模型进行评价。
从结果上看,闭源模型会倾向于主动提出任务而不能在用户无需帮助时保持静默,模型提供的任务往往过于抽象或无用,以至于产生较高的误报率。
▲ 图表4. 不同模型在 ProactiveBench 数据上的评测结果。GPT-4o 在闭源模型中脱颖而出,对于开源模型,基于 Qwen2-7B 微调的结果取得最好成果。
研究同样进行了消融学习以研究提出任务数量和用户反馈对于智能体性能的影响。通过让模型提出多个可能的任务并一一进行判断,所有的模型在指标上都有明显的上升。
通过给予模型来自奖励模型的反馈,所有的模型误报率都有所下降,准确度有所上升,但在召回率的表现上有明显下降。通过结合奖励模型,主动智能体可以更好的检测用户需求,降低误报率。
这一技术革新不仅将改变我们与 AI 交互的方式,更有望为大众群体创造更加包容和便利的智能化生活环境。随着技术的不断进步,我们可以期待看到更自然的人机协作模式,更智能的场景适应能力,以及更深度的个性化服务。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-12
Hermes Agent 完整安装指南
2026-05-11
对话OpenClacky李亚飞:把Harness做透,Token账单就不是问题了
2026-05-10
Claude 的金融 Skills 开源了
2026-05-07
本地4B开源模型,把任何App当Skill用!告别token焦虑,私密性强~
2026-05-07
Browser Use 0.12 杀疯了!弃用 Playwright,token 用量减半
2026-05-07
本地部署这件事,终于被国产开源AI做明白了!
2026-05-07
多模型管理太麻烦?手把手教你本地搭建这个开源 AI 网关!
2026-05-06
Ollama 换引擎,苹果 M5 封神了
2026-03-30
2026-04-03
2026-03-23
2026-04-09
2026-03-31
2026-02-14
2026-02-18
2026-03-03
2026-02-22
2026-04-01
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02