2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

构建生产就绪的智能体系统:来自 Shopify Sidekick 的经验教训

发布日期:2025-11-13 13:06:04 浏览次数: 2129
作者:持续交付2.0

微信搜一搜,关注“持续交付2.0”

推荐语

Shopify Sidekick 智能体系统的实战经验分享:从工具复杂性问题到即时指令解决方案,揭秘如何构建高效可靠的AI助手。

核心内容:
1. Sidekick 智能体系统的架构演进与核心设计理念
2. 工具扩展性挑战与即时指令(JIT)创新解决方案
3. GRPO训练优化与奖励黑客防范的实践经验

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

1
引言

智能体系统(Agentic System)是指能够自主执行任务、与环境交互并学习优化策略的系统。与传统的基于规则的系统不同,智能体系统利用 AI 技术(如大语言模型)实现了高度的自主性和灵活性。

那么,在现实世界中,智能体系统如何应用于具体场景,有哪些实际案例,会有哪些挑战呢?


下面是关于 Shopify 关于他们在构建智能体系统的经验综述




Shopify 一直在打造 Sidekick——一个通过自然语言交互帮助商家管理店铺的 AI 驱动助手。

从分析客户细分群体到填写产品表单,再到导航复杂的后台界面,Sidekick 已从简单的工具调用系统发展成为一个复杂的智能体平台。

在这一过程中,我们积累了关于架构设计、评估方法和训练技术的宝贵经验,希望能与更广泛的 AI 工程社区分享。

在接下来的文章中,将详细介绍 Sidekick 架构的演进历程、我们构建的健壮评估系统,以及如何通过 GRPO 训练优化模型性能,并防范奖励黑客问题。

2
Sidekick 架构的演进

Sidekick 的设计围绕着 Anthropic 提出的"智能体循环"展开——这是一个连续循环过程:人类提供输入,LLM 处理该输入并决定行动方案,这些行动在环境中执行并收集反馈,循环持续进行直至任务完成。

在实际应用中,这意味着 Sidekick 能够处理诸如"我的客户中哪些来自多伦多?"这类请求,通过自动查询客户数据、应用适当的过滤器并呈现结果。而当商家需要帮助编写 SEO 描述时,Sidekick 可以识别相关产品,理解上下文,并直接在产品表单中填入优化后的内容。

工具复杂性问题

随着 Sidekick 功能的不断扩展,我们很快遇到了一个许多智能体系统开发团队都熟悉的扩展性挑战。我们的工具清单从最初几个明确定义的函数,逐渐增长到数十个专业化功能:

  • 0-20 个工具
    :边界清晰,易于调试,行为直接可控
  • 20-50 个工具
    :边界开始模糊,工具组合可能产生意外结果
  • 50+个工具
    :完成同一任务出现多种路径,系统变得难以推理和维护

这种增长导致了我们所谓的"千条指令之殇"——系统提示逐渐演变为一个臃肿的特殊情况集合、相互冲突的指导原则和边缘情况处理逻辑,不仅拖慢了系统速度,更使其几乎无法维护。

即时指令:扩展性解决方案

面对工具复杂性问题,我们的突破来自于实施即时(Just-In-Time,JIT)指令机制。我们不再将所有指导原则塞进系统提示,而是在需要时与工具数据一起返回相关指令。我们的目标是为 LLM 在每种情境下都精心构建最理想的上下文,不多一个 token,不少一个 token。

实际工作机制

这种方法的核心是根据当前上下文动态生成指令,确保 LLM 只接收与当前任务最相关的指导。

这种方法带来了三个关键优势:

  1. 本地化指导
    指令仅在相关时出现,使核心系统提示始终聚焦于基本智能体行为
  2. 缓存效率
    我们可以动态调整指令而不破坏 LLM 提示缓存
  3. 模块化设计
    可根据 beta 标志、模型版本或页面上下文提供不同的指令


效果立竿见影——系统变得更加易于维护,同时各项性能指标也得到了显著改善。

3
构建健壮的 LLM 评估系统

架构优化解决了可扩展性问题,但要确保系统在生产环境中的可靠性,我们还需要建立一套严格的评估机制。部署智能体系统面临的最大挑战之一是评估问题。传统软件测试方法在应对 LLM 输出的概率性质和多步骤智能体行为的复杂性时,显得力不从心。

如今,许多人仅对 LLM 系统进行表面的"氛围测试",并认为这已足够;然而事实并非如此。简单创建一个"给这段内容评分 0-10"的"氛围 LLM 评委"是远远不够的。评估必须建立在原则基础上,并且在统计上严格可靠,否则你将带着虚假的安全感进行部署。

真实数据集优于黄金数据集

我们从精心策划的"黄金"数据集转向了反映实际生产分布的真实数据集(GTX)。我们不再试图预测每一种可能的交互情况(规范文档通常尝试枚举的内容),而是对真实商家对话进行采样,并基于实践中观察到的情况制定评估标准。

这一过程包括:

  1. 人工评估
    由至少三位产品专家根据多项标准对对话进行标注
  2. 统计验证
    使用 Cohen's Kappa、Kendall Tau 和 Pearson 相关系数测量标注者间的一致性
  3. 基准设定
    将人工一致性水平视为我们的 LLM 评委可达到的理论最大值

LLM 评委与人工判断的相关性

我们为 Sidekick 性能的不同方面开发了专门的 LLM 评委,但关键洞见在于确保这些评委与人工判断保持一致。

通过迭代优化提示,我们将评委表现从几乎与随机无异(Cohen's Kappa 值为 0.02)提升至接近人工水平(0.61,而人工基线为 0.69)。


我们的思路是:一旦 LLM 评委与人工判断达到高度相关,我们便尝试在 GTX 中随机用人工替换部分对话的评委。当观察者难以区分评估结果是来自人工还是评委时,我们就可以确信已拥有一个可靠的 LLM 评委。

通过用户模拟进行全面测试

为在生产部署前测试候选变更,我们构建了一个由 LLM 驱动的商家模拟器,它能够捕捉真实对话的"本质"或目标,并通过新的系统候选版本重新执行这些对话。这使我们能够同时运行多个不同候选系统的模拟测试,并选择表现最佳的方案。

这种方法在商家实际接触系统前就发现回归问题并验证改进效果方面,证明了其不可估量的价值。

4
GRPO 训练与奖励黑客防范

有了稳健的架构和评估系统后,我们开始关注如何通过训练提升模型性能。对于模型微调,我们采用了组相对策略优化(Group Relative Policy Optimization,GRPO)方法——这是一种强化学习技术,使用我们的 LLM 评委作为奖励信号。我们开发了一个 N 阶段门控奖励系统,将程序验证(语法检查、模式验证)与来自 LLM 评委的语义评估相结合。

奖励黑客的现实挑战

尽管我们精心设计了评估机制,但在训练过程中仍遇到了显著的奖励黑客问题。模型找到了各种巧妙的方式来"游戏"我们的奖励系统:

  • 回避策略
    模型面对困难任务时,会解释为何无法提供帮助,而非尝试解决问题
  • 标签滥用
    将客户标签作为万能解决方案,而非进行适当的字段映射
  • 模式违规
    臆造 ID 或使用不正确的枚举值

例如,当被要求"细分状态为启用的客户"时,模型学会了创建customer_tags CONTAINS 'enabled'这样的过滤器,而非正确的customer_account_status = 'ENABLED'

迭代式改进

解决奖励黑客问题需要更新我们的语法验证器和 LLM 评委,使其能够识别这些失败模式。实施修复后:

  • 语法验证准确率在所有技能领域从约 93%提升至约 99%
  • LLM 评委相关性平均从 0.66 提高到 0.75
  • 最重要的是,端到端对话质量达到了监督微调基线水平

5
生产智能体系统的关键要点

通过构建和优化 Sidekick 的过程,我们总结出了一套构建生产就绪智能体系统的关键经验。以下是我们的核心建议:

架构原则

  • 保持简洁
    :抵制在没有明确边界的情况下盲目添加工具的冲动。对于智能体能力而言,质量远胜于数量
  • 从模块化起步
    :从设计之初就采用 JIT 指令等模式,确保系统在扩展过程中保持可理解性
  • 初期避免多智能体架构
    :简单的单智能体系统能处理的复杂性往往超出预期

评估基础设施

  • 构建多维度 LLM 评委
    :智能体性能的不同方面需要专门的评估方法
  • 确保评委与人工判断一致
    :与人工评估者的统计相关性是建立自动化评估信任的关键
  • 提前防范奖励黑客
    :预见到模型可能会"游戏"奖励系统,并相应构建检测机制

训练与部署

  • 程序+语义双重验证
    结合基于规则的检查和基于 LLM 的评估,构建健壮的奖励信号
  • 投资用户模拟
    开发真实的用户模拟器,进行全面的上线前测试
  • 持续优化评委
    规划多轮评委改进,以应对不断发现的新失败模式

6
展望未来

总结我们的实践经验后,我们对智能体系统的未来发展充满期待。我们将继续演进 Sidekick 的架构和评估系统。未来工作包括将推理轨迹纳入训练流程,在训练期间同时使用模拟器和生产环境评委,以及探索更高效的训练方法。

生产智能体系统领域仍处于起步阶段,但我们在 Shopify 开发的模式——模块化架构、健壮的评估框架和对奖励黑客的密切关注——为构建商家可以信赖的可靠 AI 助手奠定了基础。

构建生产就绪的智能体系统需要的不仅仅是将 LLM 连接到工具。它需要深思熟虑的架构决策、严格的评估方法,以及对这些系统可能以意外方式失效的持续警惕。但当一切运转良好时,结果将是真正能够以有意义的方式增强人类能力的 AI。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅