免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

多轮 Agent 场景下,滴滴的 EAGLE-3 训推加速实践

发布日期:2026-05-14 20:12:34 浏览次数: 1527
作者:滴滴技术

微信搜一搜,关注“滴滴技术”

推荐语

滴滴在Agent场景中通过训练与推理优化,将EAGLE-3的推理速度提升2倍以上,为长序列处理带来突破。

核心内容:
1. 从Chat到Agent场景下,推理延迟被复合放大的挑战
2. 解码阶段面临的memory-bound与串行依赖瓶颈
3. 基于投机解码的EAGLE-3训推加速实践与收益

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

概述


过去两年,大语言模型(LLM)的应用形态从 ChatBot 快速演进为 AI Agent。在自动化代码工程、长文档分析、多轮工具调用等复杂工作流中,上下文长度已从千级 token 扩展至数十万级;与此同时,LLM 的自回归生成具有强串行特性,导致延迟和吞吐成为制约用户体验与成本的核心瓶颈。


围绕这一问题,本文基于开源投机采样框架——SpecForge,介绍滴滴在多轮 Agent 场景中对 EAGLE-3 训练与推理的实践。在训练侧,针对 EAGLE-3 在长序列场景中的显存与通信瓶颈,引入统一序列并行(USP),使得在大规模集群上训练 128K 乃至更长上下文成为可能,现已将相关能力贡献至 SpecForge 开源社区;推理侧,相较 MTP 方法,EAGLE-3 在长序列场景中可实现超过 2 倍 的 TPOT(Mean/P95)收益。上述训练与推理优化,已在实际业务场景中得到验证。


智能体时代的推理挑战:

为何我们需要极致训推速度?


2.1 从 Chat 到 Agent:推理延迟会被“复合放大”

在传统 Chat 场景中,交互以短问答为主,用户对秒级延迟具有一定容忍度;而在 Agent 场景下,执行流程演进为“思考—行动—观察—再规划”的多轮循环,包括读取上下文、生成思考 token、调用工具并基于反馈持续迭代。这样的循环结构会使推理延迟被不断叠加与放大。


以一个直观示例来看:如果模型生成速度是 20 tokens/s,一个包含 500 tokens 的“思考过程”就需要 25 秒,若一个任务包含 10 轮类似循环,仅“思考”就可能达到分钟级。在对实时性要求较高的场景中,这样的延迟难以被接受。


2.2 解码阶段的现实瓶颈:memory-bound 与串行依赖

解码阶段通常属于典型的 memory-bound 场景,每生成一个 token 都需要执行一次前向计算,并伴随对显存的高频访问(包含权重访问与 KV cache 读写等)。与此同时,自回归的顺序依赖使得整个生成过程难以并行优化,使得推理呈现“逐 token 串行执行”的特征。


因此在实际执行中,每生成一个 token 都对应一次高成本的前向计算与显存访问开销(权重 + KV cache),直接推高了基础 TPOT;在多并发或多卡环境下,由于部分 decode step 存在排队或同步等待现象,还会进一步拉高 TPOT 的 P95/P99,从而放大长输出请求的端到端长尾延迟。


2.3 投机解码:为什么“推理变快”离不开“训练做对”

投机解码可以理解成:先用更便宜的方式写草稿,再让大模型一次性批改;在验证过程中,单次可被接受的 token 越多,推理就越快。其本质价值在于减少 Target 模型的验证 step 数量,使 TPOT 的均值与尾部延迟同时下降,实现整体推理加速。


图 1:投机采样的两阶段流程(Draft → Target 一次验证接受多 token)  

来源:Thomas Myxke, Efficiently serving LLMs (Part 3): How speculative decoding works, LinkedIn Pulse,https://www.linkedin.com/pulse/efficiently-serving-llms-part-3-how-speculative-decoding-thomas-myxke


具体来讲就是:

  • Draft:生成一段候选 token

  • Verify:Target 一次前向整体校验

  • Accept/Reject:通过的直接输出,失败则回退重来

在 Agent 长上下文场景中(如工具调用、多轮链式推理、结构化输出),高熵片段通常更为密集,表现为前序一步偏差,后序往往整段作废,导致 Draft 生成序列的 Accept Len 容易骤降,加速效果会明显波动,甚至“越长越不赚”。


业界普遍认为,投机解码的加速效果主要取决于两个因素:Draft 的生成成本,以及 Accept Len 的长度与稳定性。换言之,关键不在于“有没有 Draft”,而在于 Draft 能否以较低的成本,持续生成可被稳定接收的长序列草稿。


表 1:投机采样方法对比


我们对比了不同投机路线(见表 1)。在 Agent 场景里,长上下文(64K/128K+)是常态:工具调用历史、长链路推理、代码/文档混合输入都会把序列拉长。只用 2K/4K 训练会导致上线后高熵段频繁掉链子,Accept Len 变短且波动,加速难以稳定兑现——因此长序列训练是前置条件


在这个前提下,对比各类投机路线(见表 1):model-free 复用依赖重复性,高熵段命中率下降快;独立小 Draft/多头预测在长链路里误差更易累积,Accept Len 往往随上下文变长而衰减。所以我们选择训练 EAGLE-3:用 TTT 等机制按真实推理流程对齐训练,让长上下文下的连续放行长度更稳,从而把推理加速真正落到业务场景。


EAGLE-3 的训练形态:

为什么小模型也会在长序列下 OOM?


在将 EAGLE-3 用作投机解码方案后,训练阶段会出现一个反直觉现象:序列长度达到 16K+ 时便开始 OOM。按照常规 SFT 的经验,这一现象并不符合预期——以约 1.5B 规模的 Draft 模型为例,在 batch=1、未开启 checkpoint 的情况下,16K 序列的单卡显存占用通常在约 30GiB 左右,在 80GB 显存卡上仍应有较大余量。


这一差异的关键在于 EAGLE-3 训练目标的“双重性”:即:不只是“把 token 拟合好”,还需要拉长可连续接收的长度,为此,EAGLE-3 改变了训练形态。要理解显存为何突然变重,需要从其两个核心设计出发进行分析。


3.1 多层特征融合:条件更强,状态也更多


EAGLE-3 并不是简单放大 Draft,而是增强它的输入条件。在生成候选 token 时,由于不同层级承载的信息粒度不同,Draft 会融合 Target 的低层 / 中层 / 高层特征,而不是只使用最后一层 hidden state。

  • 低层:局部形式、短程线索

  • 中层:结构与模式

  • 高层:语义与决策信号

通过多层信息融合,可以提升多步预测的稳定性,使 Draft 更容易生成“连续可被接收”的高一致性草稿。但这一设计在工程上带来的代价也较为直接:

  • 需要保留多层特征参与计算

  • 反向传播时需要保存更多中间激活

相比传统 SFT 仅依赖单层表示的方法,这种多层特征参与会显著增加激活存储与反传计算开销,且该开销随序列长度增长而进一步放大。


3.2 TTT:把推理流程搬进训练


更大的显存压力来自 TTT(Training-Time Test),即在训练阶段引入推理过程。传统训练通常以 ground truth 历史 token 作为条件,而在真实推理中,Draft 只能基于自身刚生成的历史继续生成,这会导致训练-推理分布不一致:训练阶段 Step1 模型始终接收“干净输入”,而推理阶段 Step2 则需要在“带误差的历史”上持续生成。一旦前序预测出现偏差,误差会逐步累积,后续 token 更容易被拒收,导致 Accept Len 快速下降。


为缓解这一问题,EAGLE-3 在训练阶段引入 TTT 机制(见图 2),按照真实 decode 流程展开:先生成一步预测,再将该预测作为下一步输入,多步递进,从模拟真实推理过程。通过这种方式,使训练与推理形态保持一致,让模型在训练阶段即适应“带误差历史”的输入环境,从而在推理时获得更稳定的连续接收能力。

图 2:TTT 如何减小训练-推理分布偏移  

来源:EAGLE-3, arXiv:2503.01840, Fig. 3


3.3 显存为什么会OOM?


直观来看,Draft 模型规模并不大,但由于 EAGLE-3 的训练形态不同于常规 SFT,其显存开销来源也发生了变化:除了与参数规模相关的基础开销外,更主要的消耗来自“中间状态”与“训练展开步数”。可以将这两部分理解为两层“放大器”。


放大器 1:多层特征参与训练(激活存储增加)

EAGLE-3 的 Draft 会用到 Target 的多层特征,这会带来更多输入状态与中间表示。在 offline 训练中,这体现为更多 hidden states 的加载、缓存与搬运成本;在 online 训练中,还会叠加 Target 前向生成特征的显存与调度压力。真正反向传播的主要压力仍集中在 Draft/Fusion 路径及 TTT 多步展开产生的激活上。随着序列长度增加,这部分激活占用也会更快增长。


放大器 2:TTT 的多步展开(k 倍计算与中间态)

普通 SFT 基本是“一次前向算完 loss”。而 TTT 则是在训练中模拟推理 decode:如果需要连续预测 k 个 token,就需要将过程展开 k 次(每一步基于上一步的预测继续向后计算)。由于反向传播需要保存每一步的中间结果,显存开销会近似按 k 倍放大。当序列长度 L 也很大时,两者会叠加形成乘法效应:每一步本身就因为 L 很长而“很重,再叠加 TTT 的展开步数 k,最终出现“16K+ 就触发 OOM”的现象。


一句话总结:EAGLE-3 的显存问题来自<长序列 L × TTT 展开步数 k × 多层特征带来的额外中间态>的叠加,而不是 Draft 参数量本身。


长序列训练的显存墙:

问题在激活,不在参数(所以必须 SP)


4.1 EAGLE-3显存墙的实质:“中间状态”


在 64K / 128K 级别的长序列训练中,显存的主要消耗来自“中间状态”,包括 attention 的中间激活(如 softmax 相关中间量、Q/K/V 张量等),以及反向传播必须保留的激活,包括 EAGLE-3 特有的多层特征参与训练所带来的额外激活存储,与 TTT 多步展开引入的 k 轮中间态堆叠。这类开销的共同特点是会随着序列长度 L 快速增长,并在 TTT 场景下近似按 k 倍进一步放大。因此,即使 Draft 参数量本身并不大,长序列训练也会很快撞上显存墙,其瓶颈并不在参数规模,而在“激活与 attention 中间状态”。


4.2 显存墙:128K 下单卡训练无法启动


当序列长度扩展到 128K 时,瓶颈主要来自 attention 和激活等中间状态,而非参数规模本身。在此基础上,再叠加第 3 节中的多层特征与 TTT 多步展开机制,显存开销会随 L×k 快速放大,使得单卡难以稳定启动训练。不同并行方式在长序列场景下的作用边界如下:

因此,要让长序列训练可行,必须引入序列并行(Sequence Parallelism, SP),在 token 维度对激活与 attention 中间状态进行切分。接下来我们将进一步说明,为什么需要通过 USP 将 SP 进一步做到“既能跑、又能快、还要稳”。


4.3 为什么进一步需要 USP:不仅要能切,还要切得快、切得稳


序列并行(SP)虽然降低了显存占用,但在扩展到更长序列时仍面临两个关键限制:其一是更高的通信频率,序列切分越细,跨卡数据交换越频繁;其二是更高性能的算子,attention 的实现方式直接影响整体吞吐与显存开销。


综合这两方面因素,我们采用 USP(Unified Sequence Parallelism),在统一框架下组合序列并行策略,兼顾显存切分通信/算子效率,将长序列训练从“可启动”进一步提升为“可规模化”。


我们的工作:

EAGLE-3 专属的统一序列并行(USP)


我们为 EAGLE-3 实现了 USP,将注意力计算拆分为“主干(main)+ TTT 分支(branch)”两条路径:主干部分采用 ring attention 进行分布式计算,分支部分在本卡完成增量更新,最终通过 LSE 进行数值一致性融合。该设计一方面将显存压力按序列维度分摊到多卡,另一方面保证了训练过程的稳定性,使 Accept Len 不受影响。


基于这套实现,超长序列训练从“无法启动”推进到单机 8 卡即可稳定支持 128K 上下文;在此基础上,进一步提升上下文长度时,也可以通过扩展 SP 规模(横向增加卡数或机器数)实现持续扩展。


5.1  USP:把 Ulysses(按 head 切)+ Ring(按序列切)组合起来


在 EAGLE-3 的长序列训练中,显存压力主要来自两个方面:一是序列长度 L 很大,使得 attention/KV/及激活等中间状态随之快速增长;二是 TTT 需要进行多步展开,使整体训练开销近似再乘以 K。在这种 L×K 的设置下,单一并行方式通常难以覆盖全部瓶颈,因此我们引入 USP,将两种互补的序列并行方式统一到同一条 attention 计算路径中。

  • Ulysses:按 head 维度切分(All-to-All 重排),将 attention 计算分摊到不同 head 上,使吞吐更容易提升;但由于切分粒度受 head 数限制,在序列较长时,显存开销更多来自序列相关的中间状态,仅依赖 head 切分难以完整覆盖。

  • Ring:按序列/token 维度切分(ring attention 通信),将随序列长度 L 增长的 KV/中间状态按 token 分布到多卡,从而使显存可随 SP 规模近似线性下降;但其代价是通信更频繁,因此要在算子与通信编排上做好优化,才能兼顾性能与稳定性。

USP 的核心作用在于将两者统一协同:由 Ring 负责将长序列训练的显存压力“托住”,由 Ulysses 提升并行计算效率,同时结合后续的要介绍的“主干 / 分支解耦 + LSE 融合”机制,保证在分布式切分条件下 EAGLE-3 的计算规则与数值口径依然一致。

图 3:USP 的总体思路(Ulysses + Ring 的组合)


这类 USP/SP 在社区中并不是全新概念,已有不少开源实现与工程实践,不同框架和 attention kernel 在实现路径上也各有取舍。因此重点并不在于“重新定义 USP”,而在于如何让 USP 真正适配 EAGLE-3 的训练形态(TTT + 分支结构 + 训推一致性),并在工程层面真正跑通 128K 级别的长序列训练规模。


5.2 难点是什么:TTT 不是一条线,而是“主干 + 分支”的树状可见性


当前的USP 实现中,默认 attention 是一张标准的 causal attention(下三角),即第 t 个 token 只能看 [0..t-1]。只要是这种线性的因果结构,序列切分与通信/归一化的规则都比较固定。但在 EAGLE-3 里,TTT 的关键动作是:训练时不再只依赖 ground truth 历史,而是让 Draft 先前向生成一段 token(对应的 hidden state 也随之产生),再将这些“自生成的历史”用于下一步训练。


也就是说,Step2/Step3 在训练时会真实“吃到” Step1 的预测输出,而不是永远站在干净真值上。


当这种“自生成历史”被引入训练输入后,整体计算图的结构也随之变化(如图5):除原有的主干线性因果链外,还会额外形成由 TTT 展开带来的分支路径。对应到 attention mask 上,也不再是简单的下三角结构,而是“主干 + 若干由展开产生的额外块”的组合形式。


这正是问题所在:常规 USP 默认的 mask 假设被打破,无法将其当普通 causal attention 直接做序列切分与融合,否则在分布式切分后出现口径不一致(该看的没看到 / 不该看的看到了),进而影响训练稳定性与最终 Accept Len 表现。

图 5:树状 TTT 下的可见性约束

来源:EAGLE-3, arXiv:2503.01840, Fig. 6


5.3 我们的方法:在 USP 分布式 attention 中“先分支、再融合”


如第 3.2 节图 2 所示,TTT 的作用是让训练过程更接近推理过程,从而缓解长序列下的 train/test mismatch,使 Accept Len 更稳定。这里不再展开图 2 的细节,但需要强调其对工程实现的关键影响:一旦引入 TTT,训练阶段的 attention 结构不再是标准的 causal attention(三角形),而会演化为“主干 + 分支”的组合结构。也正因为这一结构变化,许多现成的 USP/SP attention(默认仅适配标准 causal mask)无法直接复用到 EAGLE-3 上,问题不在于并行切分本身,而在于如何正确计算分支部分,以及如何在主干与分支之间保持一致的归一化与融合口径。


顺带回答一个常见问题:为什么其他投机解码方法较少使用 TTT?它们是否不存在 train/test mismatch?实际上,这类方法同样存在不同形式的 mismatch,只是“表现形态”与“处理方式”不同(可参考表 1)。例如 MTP 通常在一次前向中直接生成多步候选,后续步并不会经历“生成—作为新条件输入—继续生成”逐步的自回归更新,因此一旦早期 token 出现偏差,后续更容易出现连锁放大。工程上通常会将有效步长控制得较短,并通过校验/回退机制降低风险,但也因此限制了整体加速收益。


本质差异在于:这类方法通常不会像 TTT 一样将“连锁误差”提前暴露到训练过程,从而让模型在训练阶段就学习如何在“带误差历史”下维持更长的稳定接收长度与更高的 Accept Len 稳定性。

图 6:USP 下的 EAGLE-3 attention 计算逻辑(主干 ring + 分支增量 + 流式 softmax)


基于这一训练形态(如图 6 所示),我们在 USP 分布式 attention 中采用“先分支、再融合”的解耦计算方式,整体分为三步:


  • Step 1:主干(Main)沿用 ring attention(causal attention)。将主干历史按 token 分片分布到多卡,通过 ring 通信完成主干的 causal attention 计算,得到主干输出 Out_main 以及用于后续融合的归一化统计量 LSE_main。

  • Step 2:分支(Branch)在本卡完成增量更新。这里的关键在于,TTT 分支更像是“局部增量”,仅涉及少量新增 token 的 KV(TTT 步数通常在 7 以内),而单卡在 SP 下承担的主干序列分片往往达到万级 token,两者量级差异明显,因此无需通过 ring 跨卡补齐历史,可以直接在本卡完成点状或块状的增量计算,得到分支贡献 Out_branch 及其统计量 LSE_branch(或 step-wise LSE)。

  • Step 3:Fusion(流式 softmax 融合),将分支结果作为增量并入主干,并保证 softmax 归一化口径一致。具体做法是采用“流式 softmax”(类似 FA 的分块归一化),在每次引入分支增量时同步更新整体归一化统计量,并将 Out_branch 按对应权重并入 Out_main(实现上用 log-sum-exp/LSE 保持数值稳定)

    直观来看,并不是先汇总所有项再统一做归一化,而是在引入分支增量的同时持续维护归一化过程,从而得到与整体 softmax 等价的结果,同时避免额外的全局同步开销。一句话总结:主干通过 ring 机制解决“长序列可计算”的问题,分支利用“无需通信”的特性在本地进行增量更新,最终通过流式 softmax 融合,保证结果能够正确合并且归一化口径一致。


5.4 为什么这能解决“长序列训不动”:显存、稳定性、吞吐三件事一起兼顾


这套 USP 设计带来的效果主要体现在三个方面:

  • 显存可控:通过在序列维度进行分片,每张卡仅需保存 1/SP 的主干 KV 与中间态;

  • 训练更稳:借助 LSE 融合保证分布式切分下归一化口径一致,使计算规则正确,从而避免 loss 漂移,实现训推一致,并维持 Accept Len 的稳定;

  • 吞吐更高:将最重的主干计算交由高效的 ring attention 路径处理,而分支部分采用轻量级增量更新,避免将稀疏分支按致密矩阵计算与同步,从而提升整体执行效率。


5.5 进一步补齐长序列 offline 训练的三块“工程地基”


(1) 输入与 loss 计算都按 SP 分片:显存随卡数近似线性下降

在长序列 offline 训练中,最容易踩的坑是:先将 hidden states / targets 整段加载到 GPU,再在算子内部做切分,这会导致即使开启 SP,显存峰值依然难以下降。我们将“切分”前移到数据入口,offline dataset 通过 mmap 读取 hidden states,每个 SP rank 仅加载自身对应 token 分片,同时 loss/metric 的归约也按 SP 口径处理。这样显存压力从“单卡扛全序列”变为“多卡分摊序列”,显存占用随 SP degree 基本线性缩放,使长序列训练具备真正可扩展性。


(2) 统一训练口径:将 backend 差异收敛到 adapter

如果 USP / 非 USP 路径长期分叉,最容易在 loss/metric 归约、step view、position_ids 等细节上出现隐性不一致,并在长序列场景下被放大为可见偏差。为此我们引入 adapter 抽象层,将 step view、分布式 loss/metric reduction、position_ids 等训练口径统一收敛,从而减少长序列训练中最难定位的“漂移问题”。


(3) 压缩 hidden states:存储更省,精度不变

offline 模式下的主要压力来自磁盘存储,因此我们对 hidden states 做了压缩处理,使磁盘占用下降约 25%。同时压测结果显示 Accept Len 保持不变(1.93 vs 1.93),time/step 仅小幅增加(0.45s → 0.47s,约 4%)。


5.6 效果:能训、训得稳


通过这套 USP 方法,我们同时兼顾三个工程目标:

  • 长序训练:单机 8 卡即可稳定支持 128K 上下文训练;

  • 训练得稳:loss 与推理侧 Accept Len 对齐,确保训推一致性与加速收益可真实兑现。


实测数据与部署验证


6.1 实验设定


实验场景:Agent 长序列推理压测(对比 MTP baseline 与 EAGLE-3)  

  • 并发 = 请求数:1 / 8 / 32  

  • Batch size = 20

  • 指标:  

        • Accept Len:单次验证平均接受 token 数  

        • TPOT:单位输出 token 的 decode 延迟(mean / P95,单位 ms/token)


6.2 Accept Len 对比:EAGLE-3 稳定是 MTP 的 ~2.2–2.3×



结论:EAGLE-3 的平均 Accept Len 约为 MTP 的 2.2–2.3×。这意味着在相同输出长度下,EAGLE-3 往往能用更少的验证轮次完成生成,是 TPOT 显著改善的核心因素。


6.3 P95 TPOT:尾部延迟稳定降低约 35%–44%


在并发 1–32 范围内,EAGLE-3 相对 MTP 在 P95 TPOT 上稳定降低约 35%–44%


结论:在高并发压力下,EAGLE-3 能显著降低单位输出 token 的尾部成本,使服务在 P95 口径下更稳定。


6.4 Mean/Median TPOT:以并发 8 为例,Mean TPOT 降低约 59%(≈2.4×)


在并发 8,TPOT单位ms/token:

  • EAGLE-3:Mean TPOT 4.38,Median TPOT 3.27  

  • MTP:Mean TPOT 10.67,Median TPOT 11.70 

计算:

  • Mean TPOT 降幅 = 1 − 4.38 / 10.67 ≈ 58.9%

  • 等价加速倍数 = 10.67 / 4.38 ≈ 2.44×


结论:在该压测设定下,EAGLE-3 相比 MTP:Mean TPOT ≈2.4×(降低约 59%),P95 TPOT 下降约 35%–44%。


当前挑战与后续规划


7.1 当前挑战:从“能训练”走向“能长期跑、能稳定赚”


挑战 1(合并 OOD):Accept Len 为何会掉?如何长期稳定?


线上 Agent 的 OOD 主要有两类来源,但最终都会表现为 Accept Len 下降 → TPOT 反弹

  • OOD-A:数据/流程分布漂移(需要更快迭代训练) 提示词模板、工具参数、工作流编排、甚至业务策略会持续变化,导致线上分布快速漂移(data drift / policy drift)。一次离线训练很快过期,模型收益会随时间逐步衰减。

  • OOD-B:模型能力不足(需要更强表达的 Draft)在多 Agent 混部场景下,任务类型更发散。即使数据回流训练跟得上,若现有 Draft 的表达能力/泛化能力不足,仍会使得“关键高熵段”命中率偏低,导致 Accept Len 的上限偏低、波动偏大。

结论:OOD 并不是单一问题,而是“双因素驱动”:一方面需要更快的训练更新机制,另一方面需要更强、更可泛化的 Draft 能力,两者缺一不可。


挑战 2:长序列训练与特征管线成本仍高


长序列下,无论 online 还是 offline,都存在结构性成本:

  • Offline:依赖 hidden states/特征落盘与搬运,单 Agent 规模很容易到 TB 级;存储、IO、数据管理成本高。

  • Online: target 生成特征与训练过程强耦合,在长序列+大模型场景下资源排布较为紧张,容易与线上服务产生显存与算力争抢问题,整体调度与横向扩展也不够友好。


挑战 3:系统要面向“稳定收益”,而不仅是 mean


线上真实场景更关注 P95/P99 的稳定收益。在高熵片段或 OOD 场景下,如果仍然采用固定步长“硬跑”,验证开销可能反向放大,进而引发尾部延迟波动。因此系统需要具备基于置信度或一致性的动态退让能力。


挑战 4:算法快速演进,Infra 必须可插拔


投机范式在快速演进(如:DFlash扩散式投机等),如果每引入一种新方法就需要重写训练/推理的关键路径,迭代速度会被 infra 拖慢。因此需要抽象出“数据/特征接口、验证接口、调度策略”,降低接入成本。


7.2 后续规划:更快追上 OOD + 更健康的成本结构 + 更稳的尾延迟


规划 A:分离式特征生成 + 训练解耦(把成本结构做健康)

Target 特征生成尽量复用低峰时段的线上 server,或通过共享离线 server 批量生成,减少专属大卡的长期占用;Draft 多 epoch 训练依托 Mooncake store 进行样本复用,避免重复生成 hidden states 带来的额外开销,资源调度更加弹性,长序列显存压力更可控,长期综合成本更健康。


规划 B:近线/在线快速迭代(对应 OOD-A:分布漂移)

建立线上数据回流机制,优先收集被 Reject 的片段、低置信片段以及高熵工具调用片段,用于针对性微调;同时,为显著降低 Accept Len 的衰减速度,使整体收益曲线更加平稳,可将模型更新节奏从周/月级提升至天级,在条件允许时进一步逼近小时级(视稳定性与收益约束而定)。


规划 C:更强表达的 Draft + 路由专精(对应 OOD-B:能力不足)

引入 MoE / Routing Draft 机制,根据 Agent 类型、工具链特征与任务模式进行路由分配,将请求分发到不同专家路径;采用更强表示能力的 Draft 架构(更强的条件建模 / 泛化能力)以覆盖高熵片段,实现在多 Agent 混部场景下,仍能保持 Accept Len 的上限与稳定性。


规划 D:面向未来范式的可插拔框架

抽象训练侧的数据/特征接口与推理侧的验证/调度接口;将新范式(例如扩散式投机)的接入成本降低为“替换模块”而非“改造架构”,从而实现是跟上算法演进速度,而不是被 infra 形态所限制。


总结


Agentic AI 需要处理长上下文、多轮工具调用与长链条推理,这类工作流对推理系统的要求不仅是“更快”,更是在长上下文与高并发下持续、稳定地快。围绕这一目标,我们为 EAGLE-3 适配并落地统一序列并行(USP),将长序列训练从“起不来/训不稳”推进到“可规模化”,并在 Agent 长序列压测中验证了 TPOT(Mean/P95)与 Accept Len 的显著收益。


在这一过程中,滴滴始终积极参与上游 SpecForge 开源社区建设,在构建内部系统能力的同时,将相关实践回馈并开放给社区开发者共同使用。目前相关能力已集成至 SpecForge,支持开箱即用,欢迎大家试用:


  • https://github.com/sgl-project/SpecForge/pull/425

  • https://github.com/sgl-project/SpecForge/pull/454




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询