微信扫码
添加专属顾问
我要投稿
腾讯混元AI Infra团队开源高性能LLM推理核心算子库HPC-Ops,性能提升显著,助力大模型推理效率突破瓶颈。核心内容: 1. HPC-Ops算子库的技术创新与性能突破 2. 现有主流算子库的痛点与HPC-Ops的解决方案 3. 开源项目地址与应用前景
腾讯混元AI Infra团队开源生产级高性能LLM推理核心算子库 HPC-Ops,该算子库基于生产环境痛点,采用 CUDA 和 CuTe 从零构建,通过抽象化工程架构、微架构深度适配及指令级极致优化等,降低底层算子开发门槛,将核心算子性能逼近硬件峰值,实现了显著性能突破。
在真实场景下,基于HPC-Ops,混元模型推理 QPM 提升30%,DeepSeek模型 QPM 提升17%。同时,在单算子性能方面,HPC-Ops实现Attention相比 FlashInfer/FlashAttention 最高提升2.22倍;GroupGEMM 相比 DeepGEMM 最高提升1.88倍;FusedMoE 相比 TensorRT-LLM 最高提升1.49倍。
项目开源地址:
👉 GitHub项目地址:https://github.com/Tencent/hpc-ops
在大模型时代,计算效率已成为 AI 应用及发展的关键瓶颈。目前主流算子库(如FlashInfer、DeepGEMM)多以 NVIDIA H800等高配训练卡为首要优化目标,但限于客观原因,不少大模型的大规模线上推理服务只能采用 H20 等推理型计算卡。现有 SOTA 算子库在这些显卡上往往难以发挥硬件峰值能力。同时业务侧对极致吞吐、低延迟以及 Blockwise FP8 等复杂量化策略的需求日益迫切,亟需更适配的底层支持。
现有主流算子库主要存在以下痛点:
基于以上问题,腾讯混元使用 CUDA 和 CuTe 开发了一套轻量、高效的 LLM 核心算子库,主要包括几个模块:FusedMoE、Attention、机内/机间通信、Norm、Sampler、以及各类小算子的融合算子,整体算子库架构如图1所示。通过分析任务特性和硬件微架构,将任务的划分逻辑与硬件指令做了更好的对齐,以此获得更好的性能,并且对工程代码进行了适度的抽象,让开发者能聚焦于算法本身,降低维护门槛。本算子库不仅是高性能生产工具,也可作为开发者深入理解 CUTLASS 与 CuTe 工业级开发的实践范本,具体的技术细节如下:
1.任务特性与硬件能力对齐:针对访存瓶颈的算子,其性能主要受限于数据加载速度。针对国内的主流推理显卡,通过调整指令发射顺序进行数据预取优化,确保数据传输单元一直处于高利用率。针对不同的问题规格做了更细致的指令对齐和优化,去除冗余低效指令以减少算力的浪费,如针对 Decode Attention 和小 batch 下的 GroupGEMM 都做了AB矩阵交换的优化,以此对齐到硬件架构上的 wgmma 指令,访存带宽可达到硬件峰值能力的80%以上。
2.精细的任务调度和数据重排:针对每个算子问题,都重新思考了任务数据的划分调度策略,尽可能保证每个 SM 都任务均衡的同时兼顾cache的连续性,并且采用了 persistent kernel 的方式隐藏 kernel prologue 和 epilogue 的开销。另外也通过数据重排减少了额外的操作和显存占用,比如在 FP8 Attention Kernel 中创新性采用了 Interleave 重排技术,解决了指令不匹配的问题,减少线程间数据 shuffle,获得了优于业界 SOTA 的算子性能。
3.聚焦于计算逻辑本身:GPU编程的复杂度很大程度上来源于操作的复杂性,为了能使用高效指令,一般需要对数据进行多次的重解释和变换等编程技巧,这大大加重了开发者的心智负担。因此基于 CuTe 扩展开发 vec 抽象层统一负责高效数据搬运,利用 Layout 代数抽象隔离复杂的 Tiling 与计算逻辑,让开发者能聚焦于算法本身,降低维护门槛。
通过以上高效算子实现,在混元模型上将QPM端到端提升30%,DeepSeek 上 QPM 提升17%。同时针对 LLM 中核算子模块进行了测试,以常用的模型规格(混元、DeepSeek)进行了测试,并对比了目前主流的算子库实现,实验表明,在 LLM 的核心模块 Attention 和 FusedMoE 上的性能都超越当下 SOTA 实现。
1.GroupGEMM:与 DeepGEMM (v2.2.0) 的两种版本进行对比,在 Batch<=64 的低延迟场景下优势显著,较 DeepGEMM 最佳表现最高提升 1.88x,且通过流水线掩盖技术使 Blockwise 与 PerTensor 性能几乎持平;在大 Batch 场景下,亦能保持约 1.1x 的领先优势。该算子同时兼容紧密排布与 Token 不连续输入,显著减少临时显存用量。
2.FusedMoE完整封装了包括前序数据重排、GroupGEMM 及后续 Reduce 加权平均在内的全流程模块,并在序列长度取16倍数的均衡分配规格下,对比了 vLLM (v0.11.0) 与 TensorRT-LLM (v1.1.0) 的实现。测试结果显示,该 FusedMoE 模块在 TP 场景下相比 TensorRT-LLM 提升显著,最大性能提升达 1.49x;在 EP 模拟均衡场景下最大提升1.09x。针对不同输入长度采取的差异化重排策略,进一步确保了整体模块在各类规格下的最优表现。
3.Attention:针对 Prefill 场景,测试128~64K的输入长度。在 batch 较小时,BF16 精度下相比 SOTA 实现提升1.3x;在大 batch 时基本与当前 SOTA 对齐。针对 Decode 场景,根据线上 SLO 约束,搭配一组 batch 和输入长度的测试用例,BF16 精度下提升1.35x~2.22x;FP8 精度下,当 Sequence Length 较小时与 SOTA 相当,当 Sequence Length 较大时相比 SOTA 提升1.09x~2.0x。
作为面向大模型推理场景的高性能算子库,HPC-Ops 凭借 Attention、FusedMoE、GroupGEMM 等核心算子的极致优化,达成最高2.22倍的性能提升,且已在腾讯大规模生产环境中完成验证。其简洁易用的 API 可无缝对接 vLLM、SGLang 等主流推理框架,原生支持 BF16、FP8 等多精度量化方案,同时还以 CuTe、CUTLASS 为基础,提供了数百行代码即可构建 SOTA 算子的实践范例,为开发者降低了高性能 CUDA 内核的开发门槛。
在未来的发展规划中,HPC-Ops 将持续深耕大模型推理性能的突破方向:一方面,将重点研发稀疏 Attention 算子,针对性解决长上下文大模型的内存与算力瓶颈;另一方面,会拓展更丰富的量化策略,覆盖 4bit/8bit混合精度等更多量化方案,进一步平衡推理速度与模型精度;此外,算子库还将布局计算-通信协同优化的内核,通过融合多 GPU 间的计算逻辑与通信流程,大幅降低分布式推理场景下的通信开销,为超大规模大模型的高效部署提供底层支撑。
目前,HPC-Ops 已在 github 开放源码供开发者下载使用,同时腾讯混元infra团队也表示,欢迎行业内的技术实践者提交高价值 PR,参与算子边缘场景优化、教程案例打磨等精准化贡献,共同推动大模型推理技术的边界拓展。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-17
英伟达重磅开源!Nemotron 3 Super:专为AI智能体打造的"超级大脑
2026-03-16
22.4K Stars,减少 93% 上下文。AI Agents 专用浏览器自动化 CLI 真强!
2026-03-13
你的 AI Agent 真的在受控运行吗?
2026-03-12
Harness Engineering 的防御视角:从 Codex Security 看 AI 生成代码的治理
2026-03-12
阿里开源龙虾组合来了:HiClaw + CoPaw,内存占用大幅降低,还能直接操作本地环境
2026-03-12
大厂抢的不是“龙虾”,是人与AI的新型关系
2026-03-11
Google Workspace 团队开源了一个工具,叫 gws,直接搬进终端里了。
2026-03-11
OpenClaw爆火背后,我们所见的时代情绪 | Linear View
2026-01-27
2026-01-30
2026-01-12
2026-01-29
2026-01-27
2025-12-22
2026-01-28
2026-01-21
2025-12-23
2026-01-06
2026-03-13
2026-03-02
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20