微信扫码
添加专属顾问
Shopify Sidekick 智能体系统的实战经验分享:从工具复杂性问题到即时指令解决方案,揭秘如何构建高效可靠的AI助手。 核心内容: 1. Sidekick 智能体系统的架构演进与核心设计理念 2. 工具扩展性挑战与即时指令(JIT)创新解决方案 3. GRPO训练优化与奖励黑客防范的实践经验
智能体系统(Agentic System)是指能够自主执行任务、与环境交互并学习优化策略的系统。与传统的基于规则的系统不同,智能体系统利用 AI 技术(如大语言模型)实现了高度的自主性和灵活性。
那么,在现实世界中,智能体系统如何应用于具体场景,有哪些实际案例,会有哪些挑战呢?
下面是关于 Shopify 关于他们在构建智能体系统的经验综述。
Shopify 一直在打造 Sidekick——一个通过自然语言交互帮助商家管理店铺的 AI 驱动助手。
从分析客户细分群体到填写产品表单,再到导航复杂的后台界面,Sidekick 已从简单的工具调用系统发展成为一个复杂的智能体平台。
在这一过程中,我们积累了关于架构设计、评估方法和训练技术的宝贵经验,希望能与更广泛的 AI 工程社区分享。
在接下来的文章中,将详细介绍 Sidekick 架构的演进历程、我们构建的健壮评估系统,以及如何通过 GRPO 训练优化模型性能,并防范奖励黑客问题。
Sidekick 的设计围绕着 Anthropic 提出的"智能体循环"展开——这是一个连续循环过程:人类提供输入,LLM 处理该输入并决定行动方案,这些行动在环境中执行并收集反馈,循环持续进行直至任务完成。
在实际应用中,这意味着 Sidekick 能够处理诸如"我的客户中哪些来自多伦多?"这类请求,通过自动查询客户数据、应用适当的过滤器并呈现结果。而当商家需要帮助编写 SEO 描述时,Sidekick 可以识别相关产品,理解上下文,并直接在产品表单中填入优化后的内容。
随着 Sidekick 功能的不断扩展,我们很快遇到了一个许多智能体系统开发团队都熟悉的扩展性挑战。我们的工具清单从最初几个明确定义的函数,逐渐增长到数十个专业化功能:
这种增长导致了我们所谓的"千条指令之殇"——系统提示逐渐演变为一个臃肿的特殊情况集合、相互冲突的指导原则和边缘情况处理逻辑,不仅拖慢了系统速度,更使其几乎无法维护。
面对工具复杂性问题,我们的突破来自于实施即时(Just-In-Time,JIT)指令机制。我们不再将所有指导原则塞进系统提示,而是在需要时与工具数据一起返回相关指令。我们的目标是为 LLM 在每种情境下都精心构建最理想的上下文,不多一个 token,不少一个 token。
这种方法的核心是根据当前上下文动态生成指令,确保 LLM 只接收与当前任务最相关的指导。
这种方法带来了三个关键优势:
效果立竿见影——系统变得更加易于维护,同时各项性能指标也得到了显著改善。
架构优化解决了可扩展性问题,但要确保系统在生产环境中的可靠性,我们还需要建立一套严格的评估机制。部署智能体系统面临的最大挑战之一是评估问题。传统软件测试方法在应对 LLM 输出的概率性质和多步骤智能体行为的复杂性时,显得力不从心。
如今,许多人仅对 LLM 系统进行表面的"氛围测试",并认为这已足够;然而事实并非如此。简单创建一个"给这段内容评分 0-10"的"氛围 LLM 评委"是远远不够的。评估必须建立在原则基础上,并且在统计上严格可靠,否则你将带着虚假的安全感进行部署。
我们从精心策划的"黄金"数据集转向了反映实际生产分布的真实数据集(GTX)。我们不再试图预测每一种可能的交互情况(规范文档通常尝试枚举的内容),而是对真实商家对话进行采样,并基于实践中观察到的情况制定评估标准。
这一过程包括:
我们为 Sidekick 性能的不同方面开发了专门的 LLM 评委,但关键洞见在于确保这些评委与人工判断保持一致。
通过迭代优化提示,我们将评委表现从几乎与随机无异(Cohen's Kappa 值为 0.02)提升至接近人工水平(0.61,而人工基线为 0.69)。
我们的思路是:一旦 LLM 评委与人工判断达到高度相关,我们便尝试在 GTX 中随机用人工替换部分对话的评委。当观察者难以区分评估结果是来自人工还是评委时,我们就可以确信已拥有一个可靠的 LLM 评委。
为在生产部署前测试候选变更,我们构建了一个由 LLM 驱动的商家模拟器,它能够捕捉真实对话的"本质"或目标,并通过新的系统候选版本重新执行这些对话。这使我们能够同时运行多个不同候选系统的模拟测试,并选择表现最佳的方案。
这种方法在商家实际接触系统前就发现回归问题并验证改进效果方面,证明了其不可估量的价值。
有了稳健的架构和评估系统后,我们开始关注如何通过训练提升模型性能。对于模型微调,我们采用了组相对策略优化(Group Relative Policy Optimization,GRPO)方法——这是一种强化学习技术,使用我们的 LLM 评委作为奖励信号。我们开发了一个 N 阶段门控奖励系统,将程序验证(语法检查、模式验证)与来自 LLM 评委的语义评估相结合。
尽管我们精心设计了评估机制,但在训练过程中仍遇到了显著的奖励黑客问题。模型找到了各种巧妙的方式来"游戏"我们的奖励系统:
例如,当被要求"细分状态为启用的客户"时,模型学会了创建customer_tags CONTAINS 'enabled'这样的过滤器,而非正确的customer_account_status = 'ENABLED'。
解决奖励黑客问题需要更新我们的语法验证器和 LLM 评委,使其能够识别这些失败模式。实施修复后:
通过构建和优化 Sidekick 的过程,我们总结出了一套构建生产就绪智能体系统的关键经验。以下是我们的核心建议:
总结我们的实践经验后,我们对智能体系统的未来发展充满期待。我们将继续演进 Sidekick 的架构和评估系统。未来工作包括将推理轨迹纳入训练流程,在训练期间同时使用模拟器和生产环境评委,以及探索更高效的训练方法。
生产智能体系统领域仍处于起步阶段,但我们在 Shopify 开发的模式——模块化架构、健壮的评估框架和对奖励黑客的密切关注——为构建商家可以信赖的可靠 AI 助手奠定了基础。
构建生产就绪的智能体系统需要的不仅仅是将 LLM 连接到工具。它需要深思熟虑的架构决策、严格的评估方法,以及对这些系统可能以意外方式失效的持续警惕。但当一切运转良好时,结果将是真正能够以有意义的方式增强人类能力的 AI。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-01
Sonnet 5终于来了,然而Opus 4.8现在有点尴尬
2026-07-01
AI可观测性:Prompt、Tool Call、Trace、Token全链路追踪
2026-07-01
AI Infra 全景图:Agent Framework、调度、编排、沙箱、记忆管理、Tracing 分层拆解
2026-07-01
Claude Science发布:60+科学数据库一个对话搞定
2026-07-01
AI 的向量空间里藏着心理学,这是一场嵌入模型的情绪对决
2026-07-01
Claude Sonnet 5 来了:Opus 级智能,Sonnet 级价格
2026-07-01
Anthropic在Claude Code植入间谍检测你是否来自中国
2026-06-30
Context 即 Agent:下一场 AI 产品战争,是上下文之争
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-02
2026-04-05
2026-04-14
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。