微信扫码
添加专属顾问
我要投稿
SGLang:突破LLM应用瓶颈,实现5倍于vLLM的推理速度。 核心内容: 1. LLM应用面临的性能瓶颈问题 2. SGLang的软硬件协同设计理念 3. RadixAttention和前端DSL的技术特色及其优势
当前,LLM的应用场景已远不止简单的对话,而是扩展到需要多轮交互、复杂逻辑控制以及与外部环境集成的复杂任务。因此,在构建复杂、高效且可控的LLM应用仍然面临诸多瓶颈,比如:
为了突破这些瓶颈,SGLang应运而生。它通过软硬件协同设计的理念,从后端运行时系统到前端编程语言进行全面优化,旨在让开发者能够更快速、更轻松地构建高性能、高可控性的LLM应用,其性能比同门vLLM高出5倍。
技术特色
SGLang的特色在 RadixAttention 和 前端DSL。这两大组件协同工作,为LLM应用带来了质的飞跃。
LLM在生成文本时,需要维护一个 KV 缓存,用于存储之前生成token的中间计算结果。在多轮对话或复杂任务中,很多请求可能共享相同的前缀,例如相同的系统提示或对话历史。传统的推理系统在处理这类场景时,往往会重复计算这些共享前缀的KV缓存,造成大量的冗余计算和内存浪费。虽然有些系统支持KV缓存复用,但通常需要手动配置,且难以应对复杂的复用模式。
蓝色框是可共享的提示部分,绿色框是非共享部分,黄色框是非共享的模型输出。可共享部分包括少量示例学习示例、自我一致性中的问题、多轮对话中的聊天历史以及TOT中的搜索历史。
而SGLang提出了 RadixAttention,它是一种自动且高效的KV缓存复用技术。它将KV缓存组织成 基数树 (Radix Tree) 的数据结构,并结合 LRU (Least Recently Used) 淘汰策略 和 缓存感知调度策略,实现了在运行时自动识别和复用不同LLM调用之间的共享KV缓存。简单类比:你可以将RadixAttention想象成一个智能的图书馆管理员。图书馆(GPU内存)里存放着大量的书籍(KV缓存),每本书都有一个独特的书名(token序列)。当新的读者(LLM请求)来借书时,管理员(RadixAttention)能够快速查找图书馆中是否已经存在包含读者所需信息的书籍(共享前缀的KV缓存)。如果存在,则直接复用,无需重新购买新书(重新计算),大大节省了时间和资源。
如下图所示,Radix树的每个节点代表一个token序列,边代表token。当新的请求到来时,RadixAttention会在树中进行前缀匹配,找到最长共享前缀的节点,并复用其KV缓存。基数树的优势在于其高效的前缀搜索、插入和淘汰能力,能够灵活应对各种复杂的KV缓存复用模式。
RadixAttention的优势也比较明显,具有以下特点。
SGLang不仅在后端进行了优化,还提供了一个嵌入在Python中的领域特定语言 (DSL),旨在简化LLM应用的编程过程。它允许用户轻松地表达高级提示技术、控制流、多模态输入、并行性和外部交互。 SGLang 程序可以通过解释器模式或编译器模式执行。
如下图展示了一个使用SGLang实现的多维度论文评分器的例子。这个例子使用了 branch-solve-merge prompting 技术,从多个维度评估论文质量,并最终生成总结和评分。通过这些简洁而强大的API,开发者可以轻松构建复杂的LLM应用逻辑,而无需关注底层的模型调用和缓存管理细节。
性能表现
SGLang 通过自动 KV 缓存重用、解释器内的程序并行性和前端后端的协同设计,在吞吐量和延迟方面实现了显著的性能提升。在一系列基准测试中,相比于现有的系统(如 Guidance 和 vLLM)实现了 高达5倍的吞吐量提升。
SGLang作为后起之秀,站在巨人的肩膀(SGLang Runtime 从 vLLM 导入了一些模型和层的实现,但重新设计了批处理和缓存调度器),聚焦LLM应用发展过程中遇到的新痛点,在性能和开发效率上取得非常好的成绩,同时由于项目比较新,在易用性上还存在一些缺点(配置较vllm复杂),因此,也还有更长的路要走,但面向复杂的LLM应用改进推理服务的思路是无比正确的,未来充满前景,值得大家关注学习。
项目地址:https://github.com/sgl-project/sglang
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-25
引爆SaaS万亿美元抛售之后,Anthropic加码Cowork,要改变所有白领
2026-02-24
当软件不值钱了以后,最稀缺的资源是什么?
2026-02-24
OpenAI Codex负责人:我们熟悉的编程方式正在终结 | Jinqiu Select
2026-02-24
OpenClaw 最佳实践:5条“基本原则”
2026-02-24
春节归来第一天,Second Me 做了一个「Agent 互联网的 App Store」
2026-02-24
万字深度解读 MCP Apps:重构 Web 应用,开启 AI 助手的“小程序”时代。
2026-02-24
AI Agent系列|什么是 ReAct Agent?
2026-02-24
刚刚,Anthropic深夜大点名,这三家中国公司进行蒸馏攻击?!
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-09
2026-02-03
2025-12-21
2026-01-09
2026-01-09
2026-01-27
2026-02-24
2026-02-24
2026-02-20
2026-02-14
2026-02-13
2026-02-12
2026-02-12
2026-02-11