微信扫码
添加专属顾问
我要投稿
探索AI技术在自营领域的创新应用,应对业务链路复杂性与场景多样性的技术挑战。 核心内容: 1. AI智能体在自营技术领域的应用背景与挑战 2. AI智能体的整体架构设计与核心能力 3. AI智能体的具体实施方案与应用效果展望
前⾔
关于⾃营技术,业务域覆盖了C端(猫超交易、营销&导购、直播&⽤户)与B端(供给、供应链、物流履约、计费)等核⼼业务领域,且细分出众多业务⼦域。这些⼦域紧密围绕业务质量保障体系,因各⾃特性呈现出显著的差异化。同时业务链路冗⻓,业务场景繁杂多样,致使技术⼈员在⽇常⼯作中⾼频⾯临诸多棘⼿痛点:不知业务背景,不知该如何操作,不知有什么⼯具,不会⽤⼯具,不会构造测试数 据,异常排查耗时等等。
随着AI⼤模型的迅猛发展,已经具备⾜够的"智能"并且可以相对"低成本的"去解决⼯作中的各种问题的能⼒,我们看到了为业务技术同学⽇常⼯作提效的可能性。
打造⼀款业务 AI测试助理⻆⾊,即质量技术 AI智能体的想法油然⽽⽣。我们期望它成为技术⼈解决⽇常问题的得⼒助⼿,营造出有系统功能问题找 AI、有数据诉求找 AI、有⼯具诉求找 AI的⾼效⼯作氛围。
痛点问题的思考:
在⼀个全链路项⽬中,可能会涉及20多个技术团队,系统链路⻓,不同业务域的业务场景差异较⼤,⼯具平台种类繁多、⼯具繁多且分散,规则复杂。⼈⼯⽅式管理\调度⼯具具有较⼤的理解和使⽤成本。
在AI+⽅向,⾯对不同业务特性,如何能够统⼀⼊⼝,沉淀通⽤能⼒赋能到开发、测试、产品同学。
解决是私域问题,如果减少模型环境和不可解释性,让输出更稳定&准确
AI智能体如何具备可迭代扩展、可低成本接⼊和运维、可复⽤的系统能⼒
专项⽬标:
抽象通⽤能⼒(所有业务域均可使⽤),优先完成通⽤能⼒Agent建设,其次解决领域特有场景
沉淀解决⽅案和实施细节,打通链路,成可复⽤的智能测试解决⽅案框架,减少⼤家在AI实践过程由于踩坑产⽣的沉默成本
⽅案的创新:
提出基于流程任务编排引擎+RAG的解决⽅案,流程任务编排引擎作为业务系统与⼤模型之间的交互桥梁,承担执⾏层的能⼒。
任务能⼒划分:
静态数据通过知识库管理 --⽤于⼤模型交互\意图识别\任务推理等环节
动态数据\配置或任务通过流程任务引擎管理 --⽤于场景配置化接⼊、⼤模型与外界系统交互的执⾏媒介
整体⽅案
基于流程任务编排引擎+RAG架构开发垂直领域场景agent,实现集⼯具查找、⼯具调度、数据查找、数据答疑、业务答疑、⽇志\链路\异常诊断,扩展业务垂直Agent于⼀体的⾃营质量技术AI智能体。
整体⽅案架构图如下
RAG架构选型采⽤的是淘天AiStudio平台,⽀持快速搭建⼀个灵活、快捷、稳定的RAG系统。
通过动态任务配置模块,⽀持通⽤场景配置化快速接⼊,⽆需开发,⽆需调优。
通过流程编排任务引擎进⾏领域交互解耦、拆解⽤户任务,提供灵活、稳定、定制化的RAG⽅案。
当⽤户输⼊问题,通过定制化拆分多个"查找、检索、增强、⽣成"⼦任务完成⼀个复杂的agent功能
通过动态配置化模型,⽀持对任务进⾏管理&调度能⼒。任务之间具备上下⽂管理,具备流程任务编排调度能⼒
任务管理:⽀持任务编排管理,具有调度、修改、重试等功能,便于排查调度过程,提⾼复杂场景调度稳定性
多协议接⼊:⽀持HSF、HTTP、BEAN、THUB等多种通⽤或平台协议快速接⼊原⼦服务能⼒
动态配置化:⽀持⼯具服务配置、参数模板配置、数据中⼼基础信息配置、链路诊断配置项等等
解决⽤户对⼯具诉求的意图。如查找⼯具、⼯具⽤法\介绍、执⾏⼯具。
常⻅有2种接⼊⽅式,⽅案1⽆法做到通⽤,本⽂重点介绍⽅案2的实现。
⽅案1:将⼯具通过http、hsf协议配置到Ai Studio平台,通过⼤模型的function_call回调。
限制:
配置繁琐,新增删除⼯具还需增加提示词需要发布agent。仅有functionCall的模型⽀持;
⼯具的调⽤完全依赖模型的推理能⼒,⽆法保证不稳定;
⼯具太多,幻觉更⼤难以控制
仅有调度,⽆法进⾏⽇常查找、答疑等能⼒
应⽤:部分业务⼦域可参考此⽅案,如:交易⼦域的造单⼯具
⽅案2:通过RAG+重构function_call回调流程任务
1.⼯具特征知识库设计,结构化⼯具介绍、使⽤说明、参数说明等结构
a.可考虑结构化json格式展示
2.⽂档切⽚,控制单⼯具信息切⽚在同⼀个chunk⾥
3.召回,通过双路召回(基于语义向量和关键字进⾏知识召回)
4.提示词⼯程和⼤模型选型调优(核⼼)
5.回调流程任务引擎,根据⼤模型输出构建流程任务并进⾏调度。
详细系统流程如下:
结果稳定。不会因为⼯具数量增多,导致出现幻觉或不稳定调⽤
易于调优。幻觉通常出现在语义相似⼯具之间,可通过优化知识库⼯具特征、增加⽤户问题的提示词可减少幻觉。
可扩展。针对⼯具增加默认参数模板、trace、⾃定义输出结构等扩展能⼒
多协议。不仅⽀持http、hsf协议的调⽤,还⽀持thub、数据源等⽅式查询
可异步。针对⼯具执⾏时间⻓的场景,可异步执⾏返回。
⽀持http、hsf、thub等多种通⽤\平台协议的⼯具配置化接⼊
接⼊注意事项:
注意⼯具语义描述,⼯具的基础信息能够准确⽀持⽤户查找、使⽤他的所有场景,并且能够区别其他相似⼯具。
⼯具答疑
⼯具使⽤提示
⼯具调度
解决⼤家总是有找商品、找供应商、找指定商品的信息、找指定供应商账号密码、找......
静态数据查找可通过答疑agent实现,该agent主要实现动态数据查找
不同于⼯具agent,数据查找不是静态的知识库RAG⽅案可实现,⽽是动态的进⾏数据查找。整体可以⽤户诉求抽象成以下两个步骤:
1.查资料
a.资料从哪⾥来
i.接⼝
ii.数据源:ADB、ODPS
2.⼤模型总结回答
a.不同场景如何定制化回答 ---动态prompt实现
详细系统流程
1.动态RAG链路,接⼊成本低。调试后仅需配置化接⼊
2.⽀持灵活的流程任务配置,适合明确流程的场景应⽤
1.数据源查找⽅式,⽀持配置化接⼊,详细参考⽂档
2.接⼝查找⽅式,如需定制化prompt,需动态调试。调试⽅法参考⽂档。
效果&演示
效果
⽬前已接⼊全链路商品数据池动态查找测试数据、查找供应商相关信息、商品不可售规则查询诊断、交易订单特征查询答疑场景
演示
查找全链路数据池(odps)商品
查找指定供应商信息
查指定交易订单特征
查商品在区域是否可售
通过对关键字、问题进⾏链路数据查找,⽇志查找获取相关信息后,由⼤模型进⾏分析总结。
详细设计⽅案
1.数据来源
a.链路数据依赖阿拉丁链路诊断和鹰眼数据
b.⽇志诊断依赖集团⽇志运维平台
2.任务拆分,根据⽤户指定拆分查找链路任务or查找⽇志任务
a.⽇志查找任务⽀持多种维度数据筛查,⽬的是为了精准捞取⽬标⽇志,去除⽆⽤⽇志,减少⼲扰
i.关键字追加筛选项
ii.配置化查询⽇志必要字段
iii.⽀持动态前置过滤和排除的正则规则
3.动态prompt进⾏异常诊断、⽇志分析等定制化任务
4.后置扩展:如查询异常的git提交信息详细系统流程
⽅案优势
1.⽀持多种维度规则配置,控制捞取更准确的⽬标数据
2.⽀持链路巡检、⽇志巡检、链路+⽇志巡检三种⽅式
3.⽀持不同数据源对接
4.⽀持后置能⼒扩展,如查代码、查变更、通知等
效果&演示
效果:
⽬前mmc所有应⽤均已接⼊,⽀持相关应⽤的链路和⽇志异常诊断。演示:
演示:
基于知识库图谱,进⾏兜底答疑。
实现⽅案
通过对知识⽂档向量库的构建,根据⽤户问题对相关⽂档进⾏召回,⼤模型交互输出答案和参考⽂献。
知识库⽂档构建,将⼤家核⼼的测试⽂档通过AI进⾏标准化为知识图谱的⽅式进⾏管理。提⾼⽂档的召回准确度
召回基于语义向量和关键字的知识查询,将最相关的topN⽂档召回
定制化域⼤模型交互的prompt,通过模型选型和prompt调优,得到答疑结果
效果展示
⾃营技术质量AI智能体经过能⼒的迭代的发展,⽬前处于功能优化&推⼴试⽤阶段。
截⽌当前:
为100+同学提供过服务,涉及开发、测试、产品、业务。
使⽤次数达8k+次
其中数据查找、⼯具调⽤在项⽬提效效果明显
链路诊断⽀持系统异常分析,⽬前仅部分业务接⼊,待推⼴
⽀持其他⽇常答疑
随着测试语料库的持续完善和新增,AI质量技术智能体⽀持解决问题的能⼒也会新增。在整个过程中,如何持续调整优化、保障稳定性和准确性是接下来的挑战。
综合成本、技术⻔槛、未来的不确定性,结合⼯程侧+RAG+MCP构建质量技术智能体,解决私域复杂场景仍是可⾏的⽅向。
当前:
已初步建成具备多服务能⼒的质量技术AI智能体,能够给开发、测试、产品同学⽇常知识库管理、数据构造,数据查找,问题排查提供有效的帮助。
核⼼功能覆盖:
智能⼯具调度:实现⼯具的智能咨询、调度能⼒
数据查找答疑:⽀持跨系统数智能检索与关联分析
业务链路诊断:提供基于关键字进⾏智能溯源链路、分析⽇志的能⼒
知识库图谱答疑:构建答疑知识库,通过AI标准化知识图谱,提供答疑能⼒
未来:
能⼒完善:完善⾃营质量技术AI智能体通⽤模块agent的能⼒,打造测试、开发、产品等通⽤AI测试助⼿。
⽅案沉淀:为未来AI完成测试分析和测试执⾏的愿景提供⽅案建设和沉淀原⼦能⼒,形成可复⽤的智能测试解决⽅案框架。
⽣态共建:持续挖掘垂直场景的agent,推动⼤家参考相关⽅案和系统能⼒并能够有效场景落地。
场景攻坚:考虑通过推理模型解决复杂场景问题
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-05-16
2025-05-15
2025-05-14
2025-05-14
2025-05-13
2025-05-11
2025-05-08
2025-05-05