2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

一拥而上采用DeepSeek?作为Agent架构师需要三思

发布日期:2025-03-01 06:35:42 浏览次数: 2728
作者:沐然云计算

微信搜一搜,关注“沐然云计算”

推荐语

作为Agent架构师,面对DeepSeek热潮,深思熟虑是关键。

核心内容:
1. DeepSeek模型服务稳定性问题及其对企业应用的影响
2. 考虑已有模型替换的必要性与步骤
3. Prompt适配与模型精调的成本和挑战

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


春节假期被DeepSeek刷屏了,不少同学出了多个维度的解析,也介绍了不同平台支持一键部署DeepSeek的教程。作为尝鲜和使用,这样使用无可厚非,对于Agent ToB商用来说,是否要第一时间追逐采用最新的模型,这又是另外一个话题。

先说观点,我认为是有必要紧跟热点技术,但不能一拥而上,Agent ToB商用的架构师在设计方案时需要考虑切换模型带来的风险、选择合适的业务进行试点、通过技术架构封装底层模型变化,并且采用对Agent进行评估和灰度发布的方式进行新模型替换上线。


1


切换模型的风险


1.1 底层模型服务不稳定

DeepSeek提供模型服务状态监测status.deepseek.com。春节期间以及最近经常遭受攻击等问题导致服务出现异常卡顿等现象。我们希望DeepSeek能扛住并持续提供稳定服务,不过对于Agent架构师来说需要考虑这样一个问题:企业级应用来说是否能接受其中一项核心服务中断?答案不言而喻!


1.2 已经采用其他模型

已经开发和运行中的企业应用肯定已经采用了其他模型,包括Qwen、文心一言,也可能使用了GPT、Claude等模型,现在DeepSeek在性能、安装部署等方面有很大优势,是否要替换已有的模型?不采用DeepSeek是否会错失先机?采用DeepSeek模型需要遵循什么样的节奏和步骤?每次有新的大模型出来都要第一时间追随?

1.3 Prompt等需要适配,是否容易集成到现有应用中

开发的企业应用也会根据底层模型优化Prompt,不同底层模型会对Prompt有所挑剔,那么直接更换底层模型是否会打乱已经调整到最佳状态的模型+Prompt组合?替换底层模型是否会造成上层应用重新适配?

1.4 对模型精调会有额外成本和精力消耗

在企业级应用时会根据基础模型进行精调/微调,对于采用DeepSeek来说也会存在相同的抉择,对新推出的DeepSeek多个版本模型进行精调?每一次新模型和新版本发布都进行精调?这个维度看起来也不合适。


2


选择什么样的业务适配新模型


刚才也说了结论,我们应该积极拥抱新技术,应该挑选一部分业务进行试点验证,再逐步推广。那么如何挑选业务进行试点呢?建议参考以下维度。

2.1 之前遇到瓶颈的业务

基于现有模型开发的产品还存在瓶颈,那么应该优先考虑通过新模型来尝试解决。也应该看新模型在一些指标上是否和当前业务瓶颈存在相关性。参照模型厂商或第三方机构提供的Benchmark等评估数据来匹配。

2.2 低风险场景优先

选择对业务影响较小的场景进行试点,如内部工具、非核心业务流程或用户感知度较低的功能。例如,在客服系统中,可以先在新模型的问答功能上进行测试,而不是直接用于核心的订单处理。

2.3 高价值场景验证

选择能够体现新模型优势的场景、具有代表性的业务拆分出实验版本进行验证,如需要高精度自然语言理解或生成的任务,验证其性能提升效果。例如,在内容生成业务中,可以先用于生成辅助性内容(如推荐语、标签),而不是直接生成核心文案。


3


通过LLM Gateway封装模型


底层模型会经常变化,除了DeepSeek还会采用其他模型,2025年也会有新的模型推出,如何适应这种变化?

可以通过LLM Gateway将模型进行封装。

3.1 先进行架构解耦

根据墨菲定律,担心的也都有概率发生,AI应用架构每一层都可能出现故障,而Agent架构师需要做的就是将架构进行解耦并保持每一层的高可用。

首先要先理清Agent应用技术栈,初步拆分为IaaS基础设施/算力、模型、中间处理层、Agent应用层。其实还可以有更详细的拆分,在这里仅为了突出模型层的位置。

在模型层我们可能会在多个平台采用多个模型,比如在阿里百炼使用Qwen和DeepSeek,也可能会在火山方舟使用豆包和DeepSeek,也可能会在Amazon Bedrock采用Cluade和DeepSeek。这类平台包括阿里百炼、火山方舟、百度千帆、腾讯Ti-One、Amazon Bedrock等,这些平台提供对模型的封装,需要切换平台只需更换模型ID。

以阿里百炼为例,通过平台API访问模型兼容OpenAI格式,如果需要切换模型只需要更改下面代码第10行中的model即可。

import osfrom openai import OpenAI
client = OpenAI(    # 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",    api_key=os.getenv("DASHSCOPE_API_KEY"),     base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",)completion = client.chat.completions.create(    model="qwen-plus", # 此处以qwen-plus为例,可按需更换模型名称。模型列表:https://help.aliyun.com/zh/model-studio/getting-started/models    messages=[        {'role''system''content''You are a helpful assistant.'},        {'role''user''content''你是谁?'}],    )
print(completion.model_dump_json())


3.2 LLM Gateway

在传统开发中有API Gateway的服务集成多个平台的API,统一提供对外访问接口、统一鉴权、统一日志和监控等处理,对于模型服务同样也能采用这个思路,Konghq、APIPark、LiteLLM等提供对于模型调用的封装管理。

在这些平台中配置多个模型api_key,并支持提供统一对外的访问接口。比如Agent应用中调用的/chat API可以是Qwen、DeepSeek等多个模型或者自定义API提供的服务,那么/chat这个API就实现了对后端模型的封装。

(图片来自APIPark官网)

LLM Gateway平台支持模型调用优先级,数字越小则调用优先级越高,用于自行设定AI服务调用后端模型的顺序,如果排序靠前的模型出现故障则按照调用优先级自动选择后续提供服务的模型。

https://docs.apipark.com/zh-Hans/docs/ai/ai_model_balance

下图是对APIPark自行安装部署,LLM Gateway平台还有Kong AI Gateway、LiteLLM、OneAPI等等。



4


LLM Gateway最佳实践


4.1 负载均衡

在前面已经介绍LLM Gateway可以在多个模型之间进行负载均衡,不同标签的流量可以分发到不同模型提供服务,并且还能支持模型级别的高可用。

4.2 根据Prompt选择模型

根据Prompt来优化模型,好马配好鞍,不同的模型也需要不同的Prompt。当用户询问问题不同时会拼接为不同的Prompt,这时可以通过LLM Gateway来选择最佳模型提供服务。

4.3 LLM APIKEY资源池

APIKEY 资源池能够集中管理和调配 APIKEY,可以查看和管理各个供应商的 APIKEY,包括其状态(如正常、超额、过期等)和调用优先级。并且支持调整 APIKEY 的优先级顺序,以适应不同的业务需求。当某个 APIKEY 出现超额或过期等问题时,系统自动按优先级启用其他 APIKEY ,确保AI服务的持续可用。支持同一个平台配置多个APIKEY,即便一个APIKEY出现问题也不影响切换到其他APIKEY继续提供服务。

还有一个好处,就是通过AI APIKEY 资源池对 AI 调用资源额度进行统一再分配。

4.4 通过AgentScope等框架二次开发

AgentScope是对LLM和Agent进行编排的开源框架,由阿里团队提供(https://github.com/modelscope/agentscope/),使用这个框架需要先配置模型(见下面model_configs部分),dialog_agent部分可以实现用户和多个Agent/模型进行对话。

如果从gpt-3.5-turbo模型切换为DeepSeek模型,也只需要更换模型名称即可(均需要提前配置好模型名称、api_key等参数)。但是一个模型提供的服务异常,我们还是需要手动通过代码检测并切换模型。

无论是使用AgentScope框架还是采用其他框架或者自行编写代码来调用模型/Agent,都存在这个问题。

# -*- coding: utf-8 -*-"""A simple example for conversation between user and assistant agent."""import agentscopefrom agentscope.agents import DialogAgentfrom agentscope.agents.user_agent import UserAgentfrom agentscope.pipelines.functional import sequentialpipeline

def main() -> None:    """A basic conversation demo"""
    agentscope.init(        model_configs=[            {                "model_type""openai_chat",                "config_name""gpt-3.5-turbo",                "model_name""gpt-3.5-turbo",                "api_key""xxx",  # Load from env if not provided                "organization""xxx",  # Load from env if not provided                "generate_args": {                    "temperature"0.5,                },            },            {                "model_type""post_api_chat",                "config_name""my_post_api",                "api_url""https://xxx",                "headers": {},            },        ],        project="Multi-Agent Conversation",        save_api_invoke=True,    )
    # Init two agents    dialog_agent = DialogAgent(        name="Assistant",        sys_prompt="You're a helpful assistant.",        model_config_name="gpt-3.5-turbo",  # replace by your model config name    )    user_agent = UserAgent()
    # start the conversation between user and assistant    x = None    while x is None or x.content != "exit":        x = sequentialpipeline([dialog_agent, user_agent], x)

if __name__ == "__main__":    main()


4.5 LLM Gateway封装Bedrock中的API

还有一个用法,LLM Gateway可以封装基础模型API,也可以封装模型平台的服务或者自定义API,这也是一个融合的封装方案。


5


Agent应用评估与灰度发布


5.1 通过评分方式进行应用评估

试点业务需要时可保持能够适配新模型,采用新模型是否达到足够的效果,可以通过自动评估或人工评估方式来量化应用效果。

选择的评估范围可以这样来选:

  • 针对瓶颈业务进行评估,在采用新模型之前的应用通常遇到的难点,可以拿在在新项目中进行测试;

  • 综合全量评估:采用新模型前后均进行Agent应用评估,可以参考AI自动评估、人工评估的方式。


参照Prompt评估方案我们可以提供一个Agent应用效果评估方法,比如通过人工方式进行评估,则需要先准备以下数据和人力:

  • 评测数据集,类似于测试用例集,包括输入信息、参考答案;

  • 评分标准,类似于评委的打分表,对于Agent的输出信息应该从哪些维度进行打分;

  • Agent应用输出信息;

  • 评审专家,人工方式评估是需要人力来根据评测数据集、评分标准、Agent应用输出信息进行打分的,这个打分会有主观因素存在,但这也是当前比较合适的评估方式。


扩展下,除了使用人工评估,还可以把上面的评估打分方式交给大模型和Agent来处理,我们写好对应的Prompt即可,这也就是自动评估方式。


5.2 通过A/B测试方式进行评估

业务上线后可以针对线上环境对基于新模型的应用进行测试与评估。

  • A/B测试设计

将用户随机分为两组,一组使用旧模型(对照组),另一组使用新模型(实验组),对比两组的效果。例如,在推荐系统中,对比新旧模型的点击率、转化率等关键指标。

  • 效果评估指标

定义明确的评估指标,如准确率、响应时间、用户满意度、业务转化率等。通过监控系统实时收集数据,分析新模型的表现。

  • 迭代优化

根据A/B测试结果,优化新模型的参数、提示词(Prompt)或微调策略,逐步提升性能。

5.3 灰度发布上线

在以上业务验证后可以采用流量分层和灰度发布的方式进行部署,这与传统发布方式相同。

  • 流量分层

将业务流量划分为多个层次,逐步增加新模型的流量占比。例如:

  • 第一阶段:1%的流量切换到新模型。

  • 第二阶段:10%的流量切换到新模型。

  • 第三阶段:50%的流量切换到新模型。

  • 最终阶段:全量切换。

如果是采用LLM Gateway方式,则按照流量分层方式将新模型纳入到LLM Gateway后端模型组中。

  • 灰度发布

通过用户分层(如按地域、用户群体、设备类型)逐步放开新模型的使用范围。例如,可以先对新注册用户或特定地区的用户开放新模型功能。


6


Agent架构师


除了上面因素,选择模型还需要考虑价格、版本选型、本地部署还是云端部署等因素,在LLM Gateway中还有限流、鉴权、监控数据等统一处理。

Agent架构师负责Agent应用整体架构设计,也就需要在更多维度进行考虑和设计,比如合理部署模型与应用、通过模型微调/RAG/Prompt优化等方式进行性能优化、高可用/高可靠/可扩展设计、数据库/数据集/知识库进行管理、应用/数据/环境安全、应用/算法/使用方式合规、成本量化及优化、对模型/Agent/应用进行监控告警和运营分析。

(部分图片来自konghq.com、APIPark、火山引擎官网)

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅