免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

森马如何用阿里云 AI 网关,轻松实现“AI+业务”高效落地

发布日期:2025-11-17 19:27:39 浏览次数: 1525
作者:阿里云云原生

微信搜一搜,关注“阿里云云原生”

推荐语

森马携手阿里云AI网关,实现AI与业务无缝融合,提效30%的实战经验分享。

核心内容:
1. 森马AI转型面临的四大核心挑战
2. 阿里云AI网关+Nacos3.0的解决方案架构
3. 落地后带来的30%综合效率提升

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
图片

作者:森马 数字中心-杭州研发部;基础运维部、阿里云产品运营专家刘森(延德)

本文导读:


森马快速实现 AI 转型,通过阿里云 AI 网关(即 Higress 企业版)及注册配置中心 Nacos3.0 实现了多模型多 MCP server 统一接入统一管理统一配置,将存量服务一键转换为 MCP server,使 AI 与生产业务相结合,综合提效 30%

森马简介




Cloud Native

上海森马服饰有限公司(以下简称“森马”)是中国休闲服饰和童装领域的领先企业,旗下拥有“森马”、“balabala”、“mini bala”等十余个核心品牌。其中,balabala 品牌在中国童装市场占有率连续多年位居第一,并跻身全球童装市场前列。集团覆盖线上线下全渠道零售,门店总数达到 8000+ 家。2025 年  23 日,中国服装协会发布“2024 行业百企发布”名单。森马服饰凭借卓越的市场表现,成功入围“营业收入”、“利润总额”和“营业收入利润率”三项指标榜单,再次彰显其在国内服装行业的领军地位。

自 2023 年起,森马中台技术团队正式启动 AI 探索之旅。初期,团队基于 Serverless 函数计算平台,为设计师与消费者提供高效的服饰设计支持,显著提升了图像生成效率与顾客满意度。

进入 2025 年,森马全面加速 AI 战略布局,将智能化能力快速延伸至法务、财务、采购、物流、IT 及运维等多个核心业务领域,面向集团内外部团队提供高效、可复用的 AI 服务,持续释放组织生产力。在此过程中,团队聚焦大森 3.0 平台建设,以快速上线、持续优化为核心目标,推进智能体(AI Agent)的规模化落地。通过构建标准化、模块化的智能体架构,实现从需求识别、开发训练到部署运营的高效闭环,大幅缩短 AI 应用交付周期,加速 AI 价值在业务场景中的转化与沉淀。

森马在 AI 时代面临的挑战




Cloud Native

然而在 AI 转型过程中,随着 AI 在业务中使用越来越深入,森马的技术团队同学们陆续发现了如下问题:

  1. 模型太多,不好管。森马在百炼平台调用不同的商业化模型,同时自身还有在 PAI 平台训练/微调的模型,不同的模型如何进行统一管理统一鉴权;

  2. 谁用了多少 AI?成本怎么分摊?森马的不同模型都会交叉给到各个业务团队进行使用,如何整体统计各个团队及二级经营单元的 AI 使用情况、以及后续成本如何分摊给各业务单元;

  3. 模型偶尔“罢工”,影响体验。大模型整体 SLA 有限,当部分模型服务出现问题的时候,如何确保业务团队的使用体感,避免问几次问题均返回失败导致业务团队对大模型印象降低而放弃使用的问题;

  4. 老系统改造太麻烦。森马的 AI 业务强依赖于存量的几百个微服务,全部手工转成 MCP server 费时费力。

上述问题看起来都有解法,但是需要森马的技术同学在业务研发以外投入较大人力才得以解决。为了快速解决上述问题,森马引入了阿里云 AI 网关进行模型与 MCP server 的统一管理,提高了 AI 的落地效率。

为什么选择阿里云 AI 网关




Cloud Native

森马技术团队选择阿里云 AI 网关,主要基于以下考量:


1. 统一模型入口

AI 网关面向 AI 场景全新打造,可以统一管理商业大模型服务和用户自建的大模型服务,并统一对外暴露的 API (兼容 OpenAI),截止 2025 年 月,AI 网关已支持包括阿里云百炼、OpenAI 等在内十几家国内外大模型供应商和自建大模型服务(如 Ollama)。


2. 模型切换与模型路由管理

AI 网关提供按比例、按模型名称等多种形式的 AI API 集成方式,用户可根据业务需求灵活配置;当 Model API 的模型服务因异常、故障或高负载而无法正常响应时,通过配置 Fallback 切换到备用模型,有效避免因模型服务中断导致的响应失败问题。

图片


3. 安全可控

AI 网关提供多模型统一的鉴权、限流、api key 分发、内容安全等能力,解决用户在安全方面的顾虑;消费者鉴权通过 API key 的认证方式验证调用者的身份,精准控制 API 访问权限,实现多租户细粒度管控,保障敏感数据隔离与合规调用,有效防止未授权访问和资源滥用。限流策略专为大模型服务及高并发调用场景设计,采用基于调用 Token 量的动态控制机制,取代传统请求数或请求体积的限流方式。该策略可针对消费者身份、请求 Header 参数、Query 参数、客户端 IP 等多维度配置限流规则,根据单次 API 调用消耗的 Token 总量进行实时计费和流量管控。这种以 Token 消耗为核心的限流模式能精准匹配大模型计算资源消耗特性,有效防止系统过载、接口滥用及恶意调用,同时保障核心业务在复杂场景下的稳定运行。AI 网关支持多种限流范围(如每秒、每分钟、每小时、每天),可以根据业务需求灵活调整限流规则,确保系统在高并发场景下仍能稳定运行。同时支持通过对特定消费者、headerquery 参数或 cookie 进行限流,可以有效限制爬虫或自动化工具的访问频率,保护数据安全。

图片


4. AI 观测

结合阿里云可观测产品,AI 网关提供统一 AI 观测能力,包括 AI 请求的 MetricsLogging  Tracing 能力。与一般的 API 观测不同,AI 观测支持按 Token 维度对 AI 调用进行统计,支持 API、模型、消费者等观测维度,AI 请求和响应的日志也会被记录下来,用于后续的追踪与审计。核心指标包括 token 消耗数、QPS、请求成功率、首包延迟(TTFT)、每 token 输出时长(TPOT)等。同时,所有网关日志及 MCP 服务日志均可保存至阿里云日志服务 SLS 中,用户可以根据业务需求进行告警、加工、投递等相关操作。

图片

图片


5. 存量业务一键升级 MCP

AI 网关的 MCP 服务管理能力提供 RESTful API 至 MCP 服务的平滑迁移能力,支持SSEStreamable HTTP 两种协议访问,并集成基于消费者身份的鉴权认证机制,为企业级 API 治理提供技术支撑。此外,MCP 支持直接代理模式,适用于原生支持 MCP 协议的服务。该模式能够实现高效的流式通信和上下文保持,特别适合高并发、长连接的场景,例如 AI 推理、多模型协同等。同时,MCP 还可与 Nacos Registry 深度集成,通过 Nacos 提供的 MCP Router 功能,实现服务注册发现及协议自动转换,支持存量 HTTP 服务“零改动”升级为 MCP 协议接口,结合 AI 网关实现服务的动态治理与智能路由。

MCP 服务管理能力覆盖的业务场景:森马全域货通中台 个工作台、个智能体、个业务场景、种解决范式(商品缺货分析,2B2C 找货分货,智能链路排查等业务场景),MDM 主数据,大森 3.0 平台。

图片

消费者认证

图片

MCP 调用统计

图片


6、缓存

在重复性强的 AI 请求场景,AI 网关通过 Redis 精确缓存与语义缓存的双引擎协同,实现对大语言模型(LLM)调用的降本增效。直接减少用户请求等待时间提高用户体验,并减少 token 消耗降低企业模型调用成本。

通过使用 AI 网关的相关能力,森马在 AI 领域的应用上线时间缩短了 50%,用户体验提高了 60%AI 请求成功率提高了 50%AI 网关持续支持森马落地更多 AI 应用。

未来规划




Cloud Native

基于与阿里云 AI 网关的深度合作基础,森马将以“动态协同、效率跃迁、价值倍增”为核心,持续深化 AI 技术与业务场景的深度融合,重点聚焦两大方向发力:

1. 深化 AI 网关动态路由能力,实现 LLM 智能调度与价值最大化

森马将充分发挥 AI 网关的动态路由优势,构建“业务场景 - 模型能力 - 资源消耗”的智能匹配体系。通过精准识别不同业务场景(如设计生成、法务合规审核、供应链智能调度、客户服务应答)的核心需求,结合模型的擅长领域(如创意生成类优先调用生成式大模型、数据计算类优先调用轻量化推理模型)、响应速度、Token 成本等多维度指标,实现 LLM 的动态调用与智能切换。例如,设计师进行服饰图案创意生成时,自动路由至生成质量更优的模型;财务团队进行票据数据提取时,切换至效率更高、成本更低的轻量化模型,让每一次 AI 调用都精准匹配业务价值需求。

2. 构建业务 - AI 一体化动态流量均衡体系,保障全域服务稳定性与高效能

针对服饰行业“大促峰值、新品上市、供应链波动”等场景下的流量波动特点,森马将基于 AI 网关的流量治理能力,打造“业务场景 - AI 服务 - 计算资源”三位一体的动态均衡机制。通过实时监控不同业务线(零售、商品供应链、研发)的 AI 调用流量、Token 消耗峰值、模型负载状态,自动调整流量分配策略:在大促期间,优先保障线上客服、订单履约等核心业务 AI 资源供给,通过流量削峰与错峰调度避免系统过载;在日常运营中,动态均衡各二级经营单元的 AI 资源占用,确保法务、采购等后台业务的稳定响应。同时,结合 Nacos3.0 的服务注册发现能力,实现 AI 流量与存量业务流量的协同调度,让全域系统在高并发、强波动场景下仍能保持 99.9% 以上的可用性,既避免资源浪费,又杜绝业务中断风险。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询