微信扫码
添加专属顾问
我要投稿
硅谷顶级风投与AI专家揭秘:为何95%的AI Agent会失败?关键在上下文工程与记忆设计。核心内容: 1. AI Agent失败的核心原因:上下文工程、安全性和记忆设计等支撑体系不足 2. 高级上下文工程的三大要素:LLM特征选择、语义分层、元数据架构 3. Text-to-SQL等实际应用中的挑战与解决方案
Datawhale干货
作者:Oana Olteanu,编译:Datawhale
大多数创始人以为自己在打造 AI 产品,但实际上他们真正在构建的是上下文选择系统。
上下文工程 ≠ 提示词技巧
索引过多 → 检索到过多信息 → 混淆模型
索引过少 → 模型缺乏有效信号
混合结构化和非结构化数据 → 破坏嵌入或简化关键架构
那么,真正的高级上下文工程到底是什么样的呢?
“如果两个员工问同一个问题,模型的输出应该不同,因为他们的权限不同。”
“当 AI 触及到与你的安全、你的钱等非常敏感的领域时,你会信任它吗?我认为这是当前最大的障碍之一。我们确实有时候会使用 AI Agent,但最终还是会要考虑:我真的能信任这个 AI 吗?”
提供图形界面的控制功能,支持后续的精细化调整与迭代
让用户能够根据具体任务和个人偏好,自由选择合适的模式
一位嘉宾提到了自然语言处理(NLP)的两个理想应用场景:
处理偶发的、情绪化的任务,比如客户服务。例如用户感到沮丧时,只想倾诉或寻求帮助,而不是去费力地浏览层层菜单。
进行探索性的、开放式的查询,比如“帮我找一家靠近加州、第一排、能看到海景和蓝天的 Airbnb”,这类需求往往较为复杂且高度依赖具体情境
关键在于:应该去理解用户使用自然语言的真正意图,并据此进行设计,而非一味地将所有交互都强加于聊天界面之中。
在讨论中提到了一些还没有被深入挖掘的方向,但其实它们是真正有待产品化的核心组件:
哪些输入能够持续提升输出质量?什么样的上下文容易引发模型幻觉?你该如何像测试模型提示词那样来测试上下文?
目前,大多数团队都处于盲目前行的状态,缺乏系统性的方法来评估哪些上下文真正提升了模型性能,哪些反而造成了负面影响。
记忆是否可以随用户携带(而非依附于应用),具备安全性和可移植性,并支持用户按需选择组织、团队或个人状态的层级?
这将解决两个问题:
用户不需要在每个新工具中重新建立上下文
隐私和安全由用户掌控,而不是被服务提供商限制
大多数企业用户的需求都是结构化且重复的。与其费力地将自然语言解析成容易出错的 SQL,为何不直接设计更高层次、具备约束安全性且更可靠的专用语言(DSL)呢?
有团队建议,不应该局限于文本转 SQL,而是应该构建一个语义化的企业业务逻辑层,例如“显示第四季度收入”直接对应到一个经过验证的计算方法,而不是直接生成原始 SQL。
一位讨论嘉宾提到,他们开发的带记忆增强功能的聊天机器人,虽然响应速度较慢,但体验却令人欣喜。原因在于,机器人会根据用户上周的提问,智能地生成一系列后续回应。
这为异步、主动式 AI 如何提升用户体验提供了新思路,不仅限于聊天场景。想象一下:Agent 在你开会前自动生成好简报,在你打开文档时动推送相关信息,或是在你尚未察觉时就提前预警数据中的异常。
关键洞见:不同任务对延迟的要求不同。如果是一个笑话任务,需要即时呈现,而如果是一个深度分析任务,即使延迟 10 秒,只要系统能展示它的思考过程并最终给出有效的答案,用户体验就不会差。
参加完这场专题讨论后,我更加确信:我们很快将迎来一波基础设施工具、记忆模块、编排框架以及上下文可观测性技术的发展浪潮。这些技术在将来回顾时,可能会显得顺理成章,但目前仍处于混乱且未被解决的状态。
生成式 AI 领域真正的壁垒,将不在于模型的获取,而在于:
上下文的质量
记忆设计
编排的稳定性
信任的用户体验
我的应用程序的上下文容量是多少?(理想的上下文窗口大小是多少?我又该如何优化其中的内容?)
我的记忆边界在哪里?(哪些信息属于用户级、团队级、组织级?这些数据存储在何处,用户是否可以查看?)
我能否追踪输出结果的来源?(我能通过调试 LLM 的回复,知道具体是哪个输入导致了该回复吗?)
我使用的是单一模型还是多模型?(我是如何根据复杂度、延迟还是成本来分配请求的?)
用户会放心把他们的资金或医疗数据交给我的系统管理吗?(如果不会,我的安全性或反馈机制上还缺失什么?)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-15
当“翻译”成本归零:AI如何重塑组织架构
2025-10-15
ChatGPT 成人模式要来了,但作为成年人我一点都不高兴
2025-10-15
4年融资7000万美元,给工地装上AI大脑,这家公司想解决建筑业数据灾难
2025-10-15
万字长文|大语言模型结构化输出(Structured Output)的技术原理和实现
2025-10-15
深度|收入8个月翻4倍,自动化神器n8n创始人:AI要么是一个巨大的机遇,要么是公司的终结
2025-10-14
Opera Neon 浏览器重磅升级:集成 OpenAI Sora 2,开启智能创作新纪元
2025-10-14
Palantir 创始工程师深度分享:FDE 模式是 Agent 时代的 PMF 范式
2025-10-14
Comet、Dia相继开放!AI浏览器到底在解决我们的什么问题?
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-14
2025-10-13
2025-10-09
2025-10-09
2025-10-07
2025-10-04
2025-09-30
2025-09-29