vAttention:大模型里面不需要PageAttention一样可以进行动态显存管理
vAttention 论文介绍了一种不需要 PageAttention 的大模型动态显存管理方法,能提升 token qps 和 prefill 阶段速度,使用者无需修改之前的 attention 代码,LLM 推理分为 prefill 和 decoding 阶段,可使用 KV-Cache 减少 K 和 V 的计算量,但需显存存储,Orca 等系统中 L 一般设为 max seq length,限制了可调度的 batch size,而 LLM 中每个输入数据生成的 token 长度不统一。
发布日期:
2024-05-15 13:21:24