我要投稿

CES 2026 | 如何使用 RAG 和安全护栏构建语音智能体

发布日期：2026-01-12 19:10:43 浏览次数： 1916

作者：NVIDIA英伟达企业解决方案

微信搜一搜，关注“NVIDIA英伟达企业解决方案”

构建智能体不仅仅是“调用 API”，而是需要将检索、语音、安全和推理组件整合在一起，使其像一个统一并互相协同的系统一样运行。每一层都有自己的接口、延迟限制和集成挑战，一旦跨过简单的原型就会开始感受到这些挑战。

在本教程中，您将学习如何使用 2026 年 CES 发布的最新 NVIDIA Nemotron 语音、检索增强生成 (RAG)、安全和推理模型，去构建一个带有护栏的语音驱动 RAG 智能体。最终您将拥有具备如下功能的一个智能体：

图 1. 带有 RAG 和安全护栏的语音智能体的端到端工作流。

步骤 1：设置环境：要构建语音智能体，您需要同时运行多个 NVIDIA Nemotron 模型。语音、嵌入、重排序和安全模型通过 Transformer 和 NVIDIA NeMo 在本地运行，推理模型则使用 NVIDIA API。

步骤 2：使用多模态 RAG 构建智能体基座：检索是可靠智能体的支柱。借助全新的 Llama Nemotron 多模态嵌入和重排序模型，您可以嵌入文本、图像（包括扫描文档），并直接将其存储在向量索引中，无需额外的预处理。这可以检索推理模型所依赖的真实上下文，确保智能体参考的是真实企业数据而非产生幻觉。

步骤 3：使用 Nemotron Speech ASR 添加实时语音功能：锚定完成后，下一步是通过语音实现自然交互。Nemotron Speech ASR 是一个流式模型，基于 Granary 数据集中数万小时的英语音频及多种公开语音语料库进行训练，同时经过优化实现超低延迟的实时解码。开发者将音频流式传输到自动语音识别 (ASR) 服务，在收到文本结果后，将输出直接输入到 RAG 管道中。

步骤 4：使用 Nemotron 内容安全和 PII 模型强制执行安全措施：llama-3.1-nemotron-safety-guard-8b-v3 模型可提供 20 多种语言的多语言内容安全，并可对 23 个安全类别进行实时 PII (Personally Identifiable Information) 检测。该模型通过 NVIDIA API 提供，无需额外托管基础设施，即可轻松添加输入和输出过滤。它可以基于语言、方言和文化背景区分含义不同但表达相似的短语，这在处理可能受到干扰或非正式的实时 ASR 输出时尤为重要。

步骤 5：使用 Nemotron 3 Nano 添加长上下文推理功能：NVIDIA Nemotron 3 Nano 为智能体提供推理能力，结合了高效的混合专家 (MoE) 机制和混合 Mamba-Transformer 架构，支持一百万 token 上下文窗口。这使得模型能够在单个推理请求中合并检索到的文档、用户历史记录和中间步骤。