微信扫码
添加专属顾问
我要投稿
货拉拉悟空平台如何通过大模型技术突破物流行业智能化边界?揭秘其功能拓界与业务赋能的创新实践。 核心内容: 1. 悟空平台构建的多模态知识引擎与AI Workflow引擎技术突破 2. 当前面临的三大核心挑战:应用安全、推理性能与快速拓展困境 3. 下一阶段战略:功能拓界与业务赋能的具体实施路径
前言
大模型已成为驱动各行业智能化转型的核心引擎,货拉拉基于自身在物流领域 AI 落地的深厚积累,率先布局并打造了货拉拉的大模型应用一站式开发平台 -- 悟空平台。依托悟空平台,交付 AI Workflow、AI Agent、多模态知识引擎、AI 插件等功能积木,已在十几个部门落地数十上百个 AI 场景。证实了货拉拉在大模型落地之路上的坚定步伐和成果。
如今,随着公司业务持续扩张、场景日益复杂,以及用户对智能化体验要求的不断提升,原有的大模型应用体系面临着新的机遇和挑战。如何在已有的基础上,进一步拓展能力边界,使其更好地服务于企业的实际业务需求,成为了我们亟待攻克的关键课题。
正是在这样的背景下,功能拓界与业务赋能,成为了悟空下一阶段的核心战略,下面我将详细介绍。
货拉拉大模型应用现状分析
在货拉拉大模型应用与开发初期,我们面临多项挑战,例如,如何统一结构化和非结构化企业知识、如何动态组合业务逻辑和大模型等,针对这些挑战,我们做了针对性突破:构建了一套多模态知识引擎,提供了一套自研的 AI Workflow 引擎等,在前文中已有详细介绍,在此不做赘述。
尽管货拉拉大模型应用已取得阶段性进展,但随着业务愈发深入,场景愈发复杂,我们面临着新一轮的问题与挑战。
1
应用安全挑战
截至当前,悟空平台已托管 7k+ 个 AI 应用,这些 AI 应用类型涉及 AI Workflow、Single-Agent、Multi-Agent、LangChain、LangGraph 等,覆盖十几个业务部门的场景点。如何保证如此多的 AI 应用稳定、可靠、互不影响,即应用安全问题,成为了重中之重。
运行安全:AI 应用之间运行时态没有完全隔离,部分流程、资源、依赖处于共用和抢占状态
数据安全:业务使用 AI 应用,输入可能包含企业敏感信息,输出可能用于外部,例如 App 端,容易引发舆情风险
效果安全:AI 流程最终输出是黑盒且发散的,如何做到 AI 输出的可评测、可观测、可记录、是效果安全的前提
2
推理性能瓶颈
在一些复杂业务场景,例如 DeepSearch、BI 问数、AI 选车等,业务流程复杂,单次推理调用,可能涉及数十个节点环节执行,且中间涉及多次不同大模型的调用、MCP 运行、Agent 决策等,并且对整体推理耗时有要求。AI 应用的推理性能逐渐到达了一个瓶颈。
复杂流程推理慢:基于 DAG 的串行化流程,在推理时严格遵循串行化,会让流程耗时呈线性增加
资源不均衡占用:AI 应用流量不同于传统服务,具有周期性、临时性、突发性的特点,极易造成服务资源不均衡
大模型负载爆满:随着业务和调用量上涨,模型负载飙升,如何在业务内部和业务间平衡使用负载,也是一个老大难问题
3
快速拓展困境
场景适配成本较高:不同业务部门协议、接口、能力差异大,现有 AI Tool 注册机制难以直接适配
插件开发部署困难:AI 插件的使用依赖传统服务部署流程,悟空现无法支持多语言的插件托管。
平台架构扩展不足:现有平台架构可能难以支撑应用数量和类型的爆发式增长,平台本身的扩展性成为了成为了瓶颈
综上现状,推动货拉拉大模型应用开发进行功能拓界与业务赋能,具有极强的必要性和战略意义。
货拉拉大模型应用开发功能拓界
1
悟空平台新架构总览
为了应对当前平台架构本身的不足,在原有单服务架构基础上,我们完成了平台架构拆分,采用微服务架构, 按照功能模块划分服务,服务间通信交互,职责清晰。
为应对运行安全、资源不均衡等问题,悟空引入 Serverless 无服务器应用,实现 AI 运行时态沙盒,解决了环境隔离和资源抢占的现象。此外,悟空保持前沿技术引进,通过推动货拉拉 MCP 市场,整合不同部门能力统一输出,以应对场景适配成本高的问题。最后,悟空平台联动信息安全、风控等多方部门,构建了 AI 应用全方位的安全检测和拦截体系,确保企业安全。
悟空新架构如下:
2
基于 DAG 的并行推理 AI Workflow 引擎
悟空支持的自研 AI Workflow 引擎,提供灵活、通用、上手快、运行稳定的 AI 流程编排能力,可快速构建可扩展的企业级 AI 应用。但面对复杂业务,其推理性能和速度已经到达了瓶颈。
2.1 并行复杂推理
AI 工作流的并行推理在 dify 和中也有相似能力介绍,并行推理允许多个工作流节点或分支在同一时间内共同触发执行,并行节点/分支间不存在依赖关系,能够同时执行任务,更好的提升 AI 工作流的整体运行效率。实现原理是基于 DAG 图算法,结合节点依赖变量驱动,配合动态标记剪枝完成。
包含以下使用并行推理模式:
1.基础并行
基础并行是指 开始->并行结构->结束 三层关系,也是并行推理的最小单元,这种模式最为直观,用户输入变量后,工作流能够同时运行多个节点。
2.嵌套并行
嵌套并行是指 开始->并行结构 -> 并行结构-> .... -> 并行结构->结束 多层关系,适用于内部复杂的流程。比如需要先完成请求外部 API,在将响应结果整合后同时交给下游多个节点执行。
3.迭代并行
迭代并行用于在业务有循环逻辑或批处理逻辑,可以在循环体和批处理体内支持编排并行结构,加速一轮迭代内各节点执行效率,以及多轮迭代间的并发执行效率。
4.条件/意图并行
条件分支并行是根据指定条件运行不同的并行结构,此外也支持多个条件同时命中运行多个并行结构。
悟空也扩展了意图节点的能力,可根据命中用户意图,运行不同的并行结构,甚至也可以同时命中多个意图选项,同时运行多个意图下的并行结构。
2.2 大模型流量调度
悟空平台已存在七千多个 AI 应用,日均承载了数百上千万次 AI 应用调用,而 AI 应用的行为与性能又高度依赖模型服务,模型服务受限于底层算力资源,普遍存在较低的接口限流阈值,且相比传统 API 服务,其响应延迟(RT)和调用成功率波动较大,服务可用性相对不稳定,对上层 AI 应用的连续性和体验构成挑战。
模型调用的挑战有三个:
模型多:一个 AI Workflow 中可能使用多个大模型,这些大模型节点分散在工作流的运行链路中,且这些模型供应商不同,规范也不同、调用方式也可能不同。
模态多:一个 AI Workflow 中可能包含语言模型、图像理解模型、图像生成模型、语音模型、Embedding 模型等,用于处理不同的输入模态,模态间数据模式和协议缺乏统一标准
场景多:不同业务场景对 AI 应用需求差异显著,有的要求稳定性,有的需要强限流,有的需要逻辑容错,有的只在固定时段高峰调用。
面对 AI 应用和模型调用的挑战,解法就是统一模型服务的流量调度,从重要性上最源头划分核心业务和普通业务,所有业务 Workflow 运行中模型节点的流量都会走到流量调度模块,在流量调度模块,完成鉴权、模态加载、风险拦截等前置动作。根据是否核心,判断模型流量走普通 Model Endpoint 或核心专属的 Endpoint。
此外,针对有低时延要求的业务,提供模型的 TPM 保障,可根据配置或定时策略,手动或自动的开启 TPM 保障。对于稳定性要求高的业务,提供可自定义的逻辑容错策略和模型的 fallback 机制。
例如,某个业务 Workflow 的逻辑容错和 fallback 策略如下:
2.3 异步事件触发
在实际业务场景中,有部分业务诉求是基于业务自身事件触发时,开始 AI Workflow 的推理。
例如,员工通过企业办公软件(飞书)在群组中发送了消息,需要监听消息推送事件,运行 AI Chat 工作流;或是研发提交了一个 Gitlab Merge Request,触发了 Gitlab MR Webhook,运行 AI 代码审查工作流;甚至是推送了一条 Kafka Message,当 Consumer 到 Message 时,运行 AI 工作流。
悟空已支持/正在支持的事件类型:
消息触发:通过通用的办公软件和其他终端交互软件,实现单聊/群组消息触发 AI 工作流
Kafka 事件触发:Kafka 关联下游 AI 工作流,通过推送事件到 Kafka,AI 工作流实时消费时间,并基于事件内容作为输入运行
Webhook 触发:提供自定义的 Webhook 地址,接收外部系统的 HTTP 请求后运行工作流,支持与外部系统的无缝集成
定时触发:按固定时间间隔(每小时、每天)或 Cron 规则运行 AI 工作流,比较适合周期性任务
API:通过同步(流式/非流式)和异步提交 API,手动触发工作流运行
2.4 构建全方位的安全拦截
企业 AI 使用,安全是一切的基石。企业 AI 使用中涉及法务约束、算法备案、数据合规、涉敏涉政、文本检测、多模态识别、审计留存等环节,都需要做好安全配套把关和拦截能力。其中 AI 运行时动态的知识、图片、离线文件、代码、环境、依赖、日志等处理环节和数据,尽量不出内网,按需隔离。需要出内网,做好检测和拦截机制。
安全环节总览:
数据安全能力建设:
3
推动企业 MCP
"All problems in computer science can be solved by another level of indirection" -- Butler Lampson在计算机科学中,任何问题都可以通过一个抽象层解决。
MCP(Model Context Protocol,模型上下文协议)是一项开放标准协议,旨在搭建大模型和外部工具之间的信息传递通道。通过 MCP 协议,开发者不用为每个外部工具编写复杂的接口,即可接入海量第三方工具。MCP 技术细节相信各位读者都很熟悉,在此不做赘述。
针对货拉拉内各部门和业务的协议、接口、能力差异大、AI 插件接入成本较高的问题,MCP 通过统一、标准、易集成等优点,成为了悟空 AI Agent 使用 Tools 的首选。
3.1 MCP 交互实现
这里我们基于悟空 Supervisor 模式的 Multi Agent 使用场景,探寻货拉拉 AI Agent + MCP 的交互方式:
此外,在 AI Workflow 中,大模型也可关联 MCP 使用,将单一的模型升级为基于 ReAct 模式的 Agent,再结合工作流模式,也能达到 Multi Agent 的另类实现:
3.2 MCP市场
基于 MCP 能力,可以将业务逻辑交还给业务,业务负责自身领域 MCP 的开发,平台提供 MCP 的注册,并在 Agent 和 Workflow 中使用业务注册的 MCP List 即可。此外基于 Serverless 技术,平台也在支持将 MCP Package 打包成 Saas,托管在平台中。这样将货拉拉内部的业务服务和可用的开源 package 整合,形成了货拉拉内部的企业级 MCP 市场,推动部门团队间的能力复用。
4
可视化的 AI 调试工具
在前文中我们简单介绍了应对 AI 应用运行的可观测性,但比较简陋基础,而为了应对日趋复杂的 AI 业务,我们对原有的观测工具做了功能升级,形成一个专注于 AI 应用开发和运维的平台级工具,用于解决 AI 应用开发和使用过程中面临的各种挑战,提供从开发、调试、观测、追踪的生命周期管理能力。
4.1 评测
悟空提示词评测基于结构化评估框架,对评估对象进行全面质量监控和优化,核心在于建立多种评估策略(如 LLM 评委、人工评委)以及多维度指标,包括质量、性能、成本,确保评估对象在各方面都能达预期。
4.2 观测
在 AI 应用的开发与使用过程中,请求调用链错综复杂,悟空的观测功能可以追踪并记录环节之间的调用顺序,帮助业务分析推理行为、定位问题或优化性能,实现从 “黑盒模型” 到 “透明决策” 的跨越。
4.3 追踪
一次 AI 推理调用的 Context 日志长度很可能大于 1MB,涉及复杂业务或多模态 AI,AI 的上下文长度更是暴涨,日增量存储接近 1TB,传统 Kafka+Flink 流式处理,以及基于 CK or ES 的实时搜索引擎已经不满足追踪使用现状了。因此基于 Apache Amoro 湖仓技术,实现了日志的流写批读,以及后续成本计算、业务统计等 ETL 过程。
5
打造一体化的AI Sandbox
AI 应用推理过程中可能涉及代码执行、API 调用、MCP 使用、文件读写等步骤,而之前的悟空 AI 应用对应 Application Json Schema 配置,本质上运行的是同一套服务代码,这就导致这些步骤被服务环境、运行依赖、语言版本等差异性限制。具体痛点如下:
环境隔离:单服务或单功能沙盒(如 E2B、Browserbase 等)需要 AI 应用跨沙盒通信,增加延迟和复杂度
定制困难:不同 AI 应用需要预装不同的技术栈,传统服务提供统一的预置镜像,无法满足个性化诉求
无法隔离:既要让 AI 应用拿到真实服务能力(API、MCP、DB),又要强隔离避免越权和数据外泄
悟空基于函数计算和 Serverless 打造了一套面向 AI 应用运行态的虚拟 Sandbox 接口,按照应用和工具粒度,实现 AI 运行时的主要资源隔离和安全隔离,提升了 AI 应用任务执行的效率。
货拉拉大模型应用开发赋能业务
1
智能问数
通过 SQL 查数据的需求非常广泛,无论是研发定位,运营分析,还是管理者查指标,底层都是通过实时或准实时数仓获取的,基于悟空实现了智能问数场景的落地,支持指标查询、口径查询、同比环比、对比分析、趋势分析。覆盖货拉拉 5 条业务产线。
2
数据工厂
针对货拉拉数据平台上 3k+工具,打造一个能理解自然语言、自主调度工具的智能体(Agent) ,实现精准懂需求、智能配工具、自动跑流程,彻底改变用户与数据工厂的交互方式。
总结与展望
近半年,我们完成了之前制定的三个目标工作:1. AI 业务挖掘与赋能、2. Workflow 扩展、3. 大模型广场丰富。
而随着货拉拉落地的 AI 应用越来越多,以及货拉拉大模型应用开发平台搭建与交付过程中,我们非常认同的是,AI 应用在企业落地 90% 的工作都是工程架构设计(软件工程),只有 10% 是真正的大模型。在这 90%的工作中,我们还有非常多可探索的方向。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-19
扣子工作流:AI任务执行的自动化革命
2025-11-19
我们给六个 AI 同一段市场数据,它们生成了六种完全不同的交易策略 | Jinqiu Scan
2025-11-19
即刻使用 Gemini 3 开始构建
2025-11-19
Gemini 3 开启智能新纪元
2025-11-19
如何利用 Google NotebookLM 实现精准、可溯源的内容生成呢?
2025-11-19
谷歌官宣Gemini 3,团队揭秘模型训练的两个“啊哈时刻”,哈萨比斯:“又向AGI迈进一步”
2025-11-19
Google发布Gemini 3,你想看的都在里面
2025-11-19
Gemini 3 Pro 发布了:这一次,Google 终于端出了一盘“真菜”
2025-08-21
2025-10-02
2025-09-16
2025-09-19
2025-09-08
2025-09-17
2025-09-29
2025-10-26
2025-09-14
2025-10-07
2025-11-19
2025-11-19
2025-11-19
2025-11-18
2025-11-18
2025-11-17
2025-11-15
2025-11-14