微信扫码
添加专属顾问
我要投稿
NVIDIA DOCA 3.0为AI基础设施带来革命性升级,助力超大规模GPU计算实现前所未有的性能与安全。核心内容: 1. DOCA 3.0框架的创新功能与性能提升 2. 超大规模AI部署中的安全与资源优化方案 3. 开发者工具与生态系统的最新进展
NVIDIA DOCA 框架已发展成为新一代 AI 基础设施的重要组成部分。从初始版本到备受期待的 NVIDIA DOCA 3.0 发布,每个版本都扩展了 NVIDIA BlueField DPU 和 ConnectX SuperNIC 的功能,从而实现了前所未有的 AI 平台可扩展性和性能。
通过丰富的库和服务生态系统,DOCA 充分利用 BlueField DPU 和 SuperNIC,实现了在超过 10 万个 GPU 上的超大规模部署,同时保持严格的租户隔离并优化资源利用率。DOCA 的安全功能可为容器化 AI 工作负载提供硬件级威胁检测,而不会对性能造成影响。DOCA 的智能数据加速功能解决了 AI 数据流水线中的关键瓶颈,而其编排功能则简化了复杂的 DPU 加速服务部署。
本文将介绍 DOCA 3.0,它代表了这些进步的最终成果。DOCA 3.0 为 AI 工厂提供全新升级的基础设施服务,并为 AI 数据中心基础设施提供优化的框架,为开发者提供构建安全、高效的 AI 基础设施所需的必要工具,其规模之大前所未有。如今,一个广泛且蓬勃发展的开发者社区正在使用 DOCA,这项技术将继续改变企业部署、管理和编排基础设施的方式,为未来的 AI 创新提供支持。
DOCA 3.0 简介
在当今快速发展的 AI 领域中,支持大规模 AI 部署的基础设施与模型本身同样重要。随着企业从实验性 AI 项目扩展到生产就绪型部署,底层计算、网络和存储基础设施必须不断发展,以满足前所未有的需求。DOCA 正是这一发展的核心,它正在彻底改变开发者构建、部署和管理下一代 AI 平台的方式。
最新版本的 DOCA 3.0 为开发者提供了丰富的库、驱动和 API,帮助他们为 NVIDIA BlueField DPU 和 Connect-X SuperNIC 创建高性能应用程序和服务。这一创新框架可将资源密集型任务从 CPU 卸载到专用硬件加速器,从而显著提高 AI 工作负载的性能、安全性和效率。
DOCA 3.0 的亮点包括:
DOCA 支持 InfiniBand Quantum-X800 和 ConnectX-8 SuperNIC (GA)
用于 NIM 容器威胁检测的全新 DOCA Argus 服务
DOCA 平台框架(DPF)可信主机用例(GA)
使用 BlueField-3 的 DOCA SNAP Virtio-fs(测试版)文件系统仿真
适用于 AI 计算集群的 DOCA Perftest(GA)RDMA 基准工具
图 1:NVIDIA DOCA 3.0 堆栈
有关完整详细信息,请扫描以下二维码,参阅 DOCA 3.0 版本说明。
超大规模 GPU 计算:扩展多租户 AI 工厂
构建具有更多参数和训练数据的更大规模 AI 模型的竞赛,将计算需求推向了前所未有的高度。现代 AI 工厂必须支持涵盖数万个 GPU 的大规模部署,同时保持租户之间严格的性能隔离。
DOCA 通过其网络库解决这一挑战,这些库在多租户环境中实现高效的资源利用和工作负载隔离。具体而言,DOCA RDMA 库提供了对大规模分布式 AI 训练至关重要的高性能、低延迟通信功能。该库支持节点之间的直接内存访问,无需 CPU 参与,从而显著降低多 GPU 系统中的通信开销。
DOCA GPUNetIO 库通过 GPUDirect Async Kernal-initiated 通信(GDAKI),在网络中提供 GPU 之间的直接数据路径,进一步增强 GPU 之间的通信,从而实现对分布式训练算法至关重要的高效集合操作。这些库与 DOCA 以太网、DOCA RDMA 或 DOCA DMA 协同工作,构建了一个高性能网络基础,可以扩展到支持超过 10 万个 GPU 的部署。
传统的软件定义数据中心方法可能会消耗 30% 甚至更多的服务器 CPU 核心。通过 DOCA Flow 等库将这些功能卸载到 BlueField DPU,DOCA 可以释放宝贵的 CPU 资源用于 AI 计算,这相当于 30 多个 CPU 核心的性能。DOCA Flow 库支持复杂的数据包处理和流管理,支持大规模 AI 工厂中复杂的流量模式。
适用于 AI 工作负载的多租户隔离
DOCA 架构通过其基于主机的网络服务提供强大的隔离机制,确保来自不同租户的工作负载保持安全隔离。该服务在租户环境之间实施硬件强制隔离,防止未经授权的访问,同时实现 AI 的无缝执行。对于将敏感 AI 工作负载与其他应用程序一同运行的云服务提供商和企业而言,此功能至关重要。
强大的威胁检测:实时保护 AI 工作负载
随着 AI 系统对业务运营的重要性与日俱增,保护其免受威胁也变得至关重要。DOCA 释放了 BlueField DPU 和 SuperNIC 的网络安全潜力,支持快速创建和集成应用程序,从而卸载和加速加密、分布式防火墙、入侵检测和网络微分段等安全任务。
通过结合使用 DOCA 库,NVIDIA 网络安全 AI 平台利用硬件级检测提供对网络流量和系统行为的深度可视性。与依赖软件代理的传统安全解决方案不同,BlueField DPU 充当嵌入式安全处理器,可将关键的网络安全任务从传统 CPU 上卸载。这种方法可以在不影响系统性能的情况下实现实时监测和保护。
DOCA 支持的安全应用程序可以:
持续分析遥测数据,识别潜在威胁的模式和异常
通过 AI 驱动的异常检测提供实时威胁检测
在风险升级为重大安全事件之前主动降低风险
在 AI 组件之间实施强大的加密和安全通信通道
对于 AI 工作负载,这种安全架构具有显著优势。AI 模型和训练数据通常代表着宝贵的知识产权,因此成为攻击的主要目标。DOCA 支持机密计算功能,可保护部署在 NVIDIA Blackwell 和 NVIDIA Hopper GPU 上的 AI 模型、算法和数据的机密性和完整性。
此外,DOCA 的安全功能能够应对 AI 驱动环境中 IT 和 OT 系统融合所带来的复杂威胁形势。通过提供硬件加速的安全功能,DOCA 可确保安全措施不会成为 AI 应用的性能瓶颈。
加速下一代 AI 的数据处理
数据处理是现代 AI 工作流中最重大的挑战之一。最新一代的 AI 模型需要前所未有的海量训练数据,这给存储和网络基础设施带来了巨大压力。
DOCA 通过其全面的数据加速功能来解决这一挑战。该框架的数据路径加速器利用 BlueField-3 DPA 编程子系统提供一种编程模型,可将以通信为中心的用户代码卸载到专用的 DPA 处理器上运行。这种卸载功能可显著降低 CPU 开销,同时通过 DPU 加速来提高性能。
此外,为了优化 AI 流水线中的数据压缩,DOCA 压缩库提供了硬件加速的压缩和解压缩功能。此功能可在不增加 CPU 或 GPU 计算负载的情况下减少数据传输时间和存储需求。同样,DOCA Erasure Coding 库提供了弹性数据存储功能,这对于保护宝贵的 AI 数据集至关重要。
为了应对现代 AI 工作流带来的挑战,DOCA Flow 库实现了 AI 数据流水线的高性能网络,它提供了先进的数据包处理功能,可优化整个网络中的数据移动。DOCA Rivermax 库通过提供高级功能来简化存储系统和计算节点之间的数据传输,从而进一步提高网络性能。
优化 AI 数据流水线的网络性能
DOCA 基于主机的网络(HBN)3.0 为无控制器 VPC 网络提供了显著的可扩展性改进,支持高达八千个 VTEP 和八万个 Type-5 路由,并计划增加对一万六千甚至更多个 VTEP 的支持。此外,DOCA 3.0 还为 HBN 引入了两项附加功能:双向转发检测(BFD)支持[GA],通过主动链路监测实现快速路由收敛,以及 ECMP 故障转移增强功能,通过更快的故障转移确保最大限度的减少停机时间。
总的来说,这些功能使 HBN 成为裸金属部署的理想选择,并使 AI 平台能够处理存储系统、计算节点和外部数据源之间的海量数据流。
对于 AI 开发者来说,DOCA 智能数据平台功能可转化为:
降低训练和推理流水线的数据处理延迟
提高数据密集型 AI 操作的吞吐量
提高计算和存储基础设施的资源利用效率
支持 IPMX 等新兴视听 AI 应用标准
增强的 DOCA FireFly 服务通过硬件加速带来了先进的时间同步功能,提供分布式 AI 训练工作负载所必需的高精度同步能力。此功能可实现跨 GPU 集群的更高效协调,这对于大规模训练和模型并行等技术尤为重要。
DPU 驱动的基础设施服务无缝管理
现代 AI 基础设施的复杂性要求具备先进的编排能力。DOCA 3.0 针对可信主机的 DOCA 平台框架(DPF)已正式发布,它将 Kubernetes 控制平面功能扩展到 DPU,使管理员能够部署和编排 NVIDIA DOCA 服务和第三方应用程序。
DOCA 服务是基于 DOCA 的容器化产品,采用容器封装,可在 BlueField DPU 上便捷部署。这些服务利用 DPU 功能来提供遥测、时间同步、网络解决方案等功能,所有这些功能都可以通过 NGC 目录获取。
图 2:DOCA 平台框架堆栈(GA)
通过引入专用的辅助 Kubernetes 控制平面,DPF 使管理员能够高效管理部署在 BlueField DPU 上的 DOCA 服务。该框架简化了 DPU 管理的复杂性,使管理员能够与熟悉的 Kubernetes 结构进行交互。这种方法显著简化了 AI 基础设施服务的部署和运维。
DPF 服务的功能链功能可在单个 DPU 上集成加速网络、高性能数据服务、安全功能等多种服务。这种编排功能创建了一个灵活的多供应商生态系统,从而为 AI 应用提供加速网络服务。
实际部署展示了这种方法的切实优势。NVIDIA DOCA 平台框架与 Red Hat OpenShift 的集成已显示出显著的性能提升,RDMA 测试的平均带宽达到 383.72Gb/s。这种网络性能水平对于 LLM 等数据密集型 AI 工作负载至关重要。
对于 AI 平台运营商,DOCA 基础设施服务编排功能提供:
简化复杂 AI 优化基础设施的部署和管理
强大的生命周期管理,实现无缝的服务更新、扩展和回滚
部署前验证,确保兼容性和需求得到满足
实时监测和可调试性,确保高可靠性
加速并保护 NVIDIA NIM 微服务和 AI 工作负载
利用 DOCA 平台框架的先进编排功能、DOCA HBN、OVS-DOCA、DOCA SNAP Virtio-fs 以及最新服务 NVIDIA DOCA Argus 相结合,加速和保护 NVIDIA NIM 微服务和 AI 工作负载。这凸显了 DOCA 不断发展的价值,并让我们一窥未来解决方案将如何从框架中不断涌现。
DOCA Argus 是一个网络安全框架,旨在通过在 BlueField DPU 上提供无代理实时威胁检测来保护 AI 工厂。Argus 独立于主机系统运行,其攻击检测和响应速度比传统解决方案快 1000 倍,且不会影响性能。
它与企业安全系统无缝集成,提供持续监测和自动威胁缓解。Augus 利用先进的内存取证和可操作情报,经过优化,可大规模保护容器化和多租户 AI 工作负载。
DOCA Argus 与 OVS-DOCA 和 DOCA SNAP Virtio-fs 相结合,为 NVIDIA BlueField DPU 上的 AI 工作负载形成了创新的安全解决方案,解决了不同的基础设施层问题,同时实现了跨组件威胁缓解。
图 3:使用 DOCA 3.0 加速并保护
NIM 微服务和 AI 工作负载
DOCA Argus(计算层)通过 DPU 级内存和进程分析监测 AI 工作负载,并依赖 OVS-DOCA 卸载和隔离网络流量(网络层)。同时,DOCA SNAP Virtio-fs(存储层)通过 DPU 模拟的 Virtio 设备虚拟化文件系统访问,将存储 IO 与主机内核隔离开来,并为 Argus 提供异常访问模式的审计日志。
该集成框架将安全性嵌入到计算层、网络层和存储层中,为 NIM 微服务实现亚毫秒级威胁响应,同时保持容器化 AI 流水线的可扩展性。
开始使用 DOCA 3.0
随着 AI 持续变革各行各业,支撑其发展的基础设施必须随之发展。NVIDIA DOCA 框架代表着开发者构建和部署 AI 平台方式的根本性转变,并通过其全面的库和服务提供前所未有的性能、安全性和效率。
DOCA SDK 围绕不同的 DOCA 库构建,旨在充分利用 BlueField DPU 的功能。借助 20 多个专用库,开发者可以通过强大的工具包来构建优化的 AI 基础设施。
DOCA 服务通过为特定用例提供容器化解决方案来补充这些库。您可以通过 NGC 目录(例如 DOCA 和 DPU)来找到它们。这种容器化方法可以快速部署并简化对 AI 运营至关重要的基础设施组件的管理。
扫描以下二维码,进入 NGC 目录:
DOCA 还在持续演进,定期更新框架并推出新功能,确保开发者能够始终处于 AI 基础设施创新的前沿。目前已有成千上万的开发者在使用 DOCA,其生态系统继续发展壮大,为 AI 应用开发带来了新的可能。
对于希望构建下一代 AI 平台的开发者,NVIDIA DOCA 提供了全面的工具包,帮助他们充分发挥 BlueField DPU 和 Connect-X SuperNIC 的潜力,以创建可以扩展的基础设施来满足未来 AI 工作负载需求。通过采用 DOCA,企业站在 AI 基础设施创新的前沿,为 AI 发展的新纪元做好准备。
NVIDIA DOCA 3.0 标志着 AI 计算网络架构和云计算基础设施的重大进步。
复制以下链接至浏览器,下载 NVIDIA DOCA:
https://developer.nvidia.cn/doca-downloads
开启您的开发之旅,享受 DOCA 提供的一切优势。
点击“阅读原文”或扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋 GTC 巴黎主题演讲回放!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-04-11
2025-04-12
2025-04-06
2025-04-29
2025-04-12
2025-04-29
2025-05-07
2025-04-17
2025-05-07