微信扫码
添加专属顾问
英伟达 NIM 通过提供灵活的微服务套件,为 AI 推理提供了一个强大、可扩展且安全的平台。
译自A Developers Guide to NIM, Nvidia’s AI Application Platform,作者 Janakiram MSV。
2024 年 3 月,NVIDIA宣布推出 NIM(NVIDIA 推理微服务),这是一套易于使用的微服务,旨在加速生成式 AI 模型在云、数据中心和工作站上的部署。
本系列深入探讨 NIM,探索其关键功能、优势和应用,并为希望利用此生成式 AI 平台的开发者提供全面指南。
NIM 可作为 API、NVIDIA AI Enterprise 软件套件的一部分以及独立容器镜像提供。
NIM 代表 NVIDIA 推理微服务,这意味着它是一种用于对生成式 AI 模型进行推理的服务。在宣布推出时,NIM 仅作为一套面向开发者的 API提供。NIM 也是 NVIDIA AI Enterprise 的一部分,该平台建立在VMware和Red Hat的基础设施软件之上。最近,NVIDIA 开始发布和维护容器镜像,这些镜像可以在配备 NVIDIA GPU 的开发者工作站和服务器上本地部署。
因此,NIM 可作为 API、NVIDIA AI Enterprise 软件套件的一部分以及独立容器镜像提供。
让我们分别看一下这些内容,以便更好地理解它们。
NVIDIA NIM API是一套行业标准 API,使开发者能够轻松地部署 AI 模型,只需几行代码即可。NIM API 作为无服务器推理端点提供,为迭代和构建生成式 AI 解决方案提供了一条安全、简化的路径。
NIM API 建立在强大的基础之上,包括Triton 推理服务器、TensorRT、TensorRT-LLM和PyTorch等推理引擎。这种架构促进了大规模的无缝 AI 推理,使开发者能够使用最先进的基础模型和微调模型,而无需担心基础设施。
NIM API 与 OpenAI 兼容,使开发者能够在其应用程序中利用 OpenAI 模型和工具的强大功能。开发者可以使用标准 HTTP REST 客户端或 OpenAI 客户端库来使用 NIM API。
NIM API 提供了多个 API 端点,使开发者能够与 AI 模型进行交互,包括:
完成端点: 这使开发者能够根据给定的提示生成文本完成。
嵌入端点: 这使开发者能够为给定的输入文本生成文本嵌入。
检索端点: 这使开发者能够根据给定的查询检索相关文档。
排名端点: 这使开发者能够根据给定的查询或提示对段落或文档列表进行排名。
NIM API 与流行的 LLM 编排工具(如 LangChain 和 LlamaIndex)紧密集成。开发者可以轻松地构建基本的聊天机器人、AI 助手、检索增强生成 (RAG) 应用程序和基于代理的更高级应用程序。
开发者可以通过访问 NVIDIA API 目录来开始使用 NIM API,在那里他们可以找到文档、API 参考信息和发行说明。要使用 NIM API,开发者需要获取 API 密钥,可以通过加入 NVIDIA 开发者计划获得。有一个游乐场可以探索模型、提示、参数和响应。当开发者注册 NIM 时,他们每个人都会收到 5,000 个积分,每个积分对应一次推理调用。
NVIDIA NIM 正在迅速成为开发者访问最新生成式 AI 模型的首选。最近,当Google推出Gemma 2 2B LLM 时,它与 Hugging Face 和 Kaggle 一起在 NIM 上提供了该模型。展望未来,您可以期待其他模型提供商在其 NVIDIA NIM 推理平台上提供其模型。
我将在本系列的后续教程中详细探讨 NIM API。
英伟达 AI 企业版是一个全面的、云原生软件平台,它可以加速数据科学管道,简化生产级副驾驶和其他生成式 AI 应用程序的开发和部署。作为该平台的一部分,英伟达 NIM 是一套易于使用的推理微服务,使开发人员能够在任何云或数据中心部署基础模型,同时保持其数据安全。
英伟达 AI 平台的软件层,英伟达 AI 企业版,加速了数据科学管道,简化了生产 AI 的开发和部署——包括生成式 AI、计算机视觉、语音 AI 等。凭借超过 100 个框架、预训练模型、开发工具和微服务,英伟达 AI 企业版旨在加速企业迈向 AI 的领先地位,同时简化 AI,使其对每家企业都触手可及。
英伟达 NIM 是英伟达 AI 企业版平台的关键组成部分,它提供优化的模型性能,并具有企业级安全、支持和稳定性。借助 NIM,开发人员可以使用几行代码轻松部署 AI 模型。这使他们能够专注于构建企业应用程序,而英伟达则处理 AI 模型部署的复杂性。
英伟达 AI 企业版平台可以部署在英伟达 DGX、英伟达合作伙伴认证的硬件以及公共云环境(如AWS、Azure和 GCP)等系统上。
对于无法访问英伟达 AI 企业版的开发人员,NIM 可作为自包含镜像提供,可以使用Docker或Kubernetes部署。
NIM 抽象了模型推理内部,包括运行时操作和执行引擎。它们也是最有效的选项,无论它们是与TRT-LLM、vLLM还是类似的推理引擎一起使用。
NIM 被打包为每个模型或模型系列的容器镜像。每个 NIM 都是一个独立的 Docker 容器,包含一个特定模型,例如meta/llama3-8b-instruct。这些容器附带一个运行时,可以在任何具有足够内存的英伟达 GPU 上运行,但某些模型/GPU 组合比其他组合效果更好。利用任何可用的本地文件系统缓存,NIM 会自动从英伟达的 NGC 目录下载模型。由于每个 NIM 都基于相同的基镜像构建,因此下载其他 NIM 非常快。
要开始使用英伟达 NIM,请从英伟达 Docker 仓库中拉取 NIM 容器,并在配置了 Docker 和英伟达容器工具包的 GPU 机器上使用docker run命令运行它。要访问 NIM API,请从英伟达 GPU 云生成 API 密钥,并使用docker login命令对英伟达容器仓库进行身份验证。最后,使用docker run命令启动 NIM 容器,指定容器名称、仓库和标签。
容器运行后,您可以使用curl命令执行推理请求来验证部署。此外,您可以使用 OpenAI Python API 库向 NIM API 发送请求。通过遵循这些步骤,您可以轻松地在系统上部署和使用英伟达 NIM。
首次部署 NIM 时,它会检查本地硬件配置和模型注册表中可用的优化模型,然后自动为可用硬件选择最佳模型版本。NIM 下载优化的 TensorRT (TRT) 引擎,并在支持的 GPU 子集上使用 TRT-LLM 库运行推理。对于其他 GPU,NIM 会下载未优化的模型,并使用 vLLM 库运行它。
通过通过 API 提供灵活的微服务套件、与英伟达 AI 企业版的集成以及自托管容器镜像,NIM 为开发人员提供了一个强大、可扩展且安全的 AI 推理平台。
我喜欢 NIM 容器的一点是,它们能够在消费级 GPU(如GeForce RTX 4090)上运行,使开发人员有机会在可访问且价格合理的硬件上快速原型化应用程序。在本系列的后续部分,我将探讨如何在本地部署 NIM 以及构建使用 API 的应用程序。
英伟达 NIM 代表了生成式 AI 模型部署和使用方面的重大进步。通过 API 提供灵活的微服务套件、与英伟达 AI Enterprise 集成以及自托管式容器映像,NIM 为开发者提供了一个用于 AI 推理的健壮且可扩展的安全平台。无论利用云基础设施还是本地 GPU 资源,NIM 都能简化 AI 模型部署的复杂性,从而实现 AI 应用程序的快速开发和迭代。随着我继续这个系列,我将深入探讨英伟达 NIM 的各个方面,提供详细的指导和教程,帮助开发者最大程度地发挥这个强大平台的潜力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-30
我把 Codex 装进了 Pi 5 Max:一块 Android 开发板,开始自己参与 AI 相框开发
2026-06-24
讯飞办公本用一键式龙虾部署,终结“只记不查”的资产浪费
2026-06-22
我把吃灰的 Kindle 用起来了:给 AI 桌宠加一块电子墨水屏
2026-05-31
英特尔AI PC专区:专治本地模型跑不动、智能体做不出、新模型不会用
2026-05-18
Android 迎来 Gemini-Intelligence,手机要开始替你干活了
2026-05-18
OpenAI秘密矩阵曝光!你的所有设备,被Codex连成一台超级电脑
2026-05-15
苹果不卷AI了:iOS 27要让第三方模型"竞标"进系统
2026-05-13
安卓彻底变了!Gemini接管所有屏幕,苹果连影子都没追上
2026-04-07
2026-04-02
2026-04-11
2026-04-27
2026-04-21
2026-04-20
2026-04-12
2026-05-09
2026-05-13
2026-05-07
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。