我要投稿

解密NVIDIA团队的代理式AI技术实践

发布日期：2025-05-09 18:41:55 浏览次数： 1670

作者：AIGC开放社区

微信搜一搜，关注“AIGC开放社区”

在数字化转型浪潮中，代理式AI (Agentic Al) 作为前沿技术的代表，正逐渐成为企业提升效率、优化决策的关键工具。NVIDIA团队以Agentic AI技术在多个场景中实现创新突破。本文将基于其官方技术博客，还原四大类实践的核心技术路径与成果，为广大开发者提供可参考的落地范本。

01

实践一：AI销售助手——企业级数据中枢

在NVIDIA，销售团队依赖于内外部文档，需要多个存储库来查找信息，耗时高且跨系统数据一致性难以保障。此外，NVIDIA的产品组合多种多样，要求销售团队在快节奏的AI市场中及时了解最新信息。

基于此，NVIDIA使用LLM和检索增强生成 (RAG) 技术开发了一个集成到工作流中的AI销售助理，可即时访问专有数据和外部数据，以简化销售工作流，解决上述挑战。

销售助理的优势

统一的信息访问：通过Perplexity API和网络搜索将内部NVIDIA数据与更广泛的见解相结合。

企业级聊天：使用Llama-3.1-405B-instruct等模型处理拼写检查、摘要、编码和分析等各种查询。

简化的CRM集成：使用Text2SQL方法直接在CRM系统中汇总销售数据，从而自动生成SQL查询并增强报告功能。

架构和工作流程

LLM辅助文档提取工作流：所有文本均使用LLM处理，并将其转换为标准化的Markdown格式以供提取。相关步骤包括使用NVIDIA Multimodal PDF Ingestion Blueprint解析PDF、使用NVIDIA Parakeet NIM转录音频文件、使用Llama 3.1 70B进行编辑和翻译，以及将结果存储到Milvus数据库中。

Wide RAG集成：在文本生成过程中使用prompts，将引用替换为简洁的字母数字键。在后续的postprocessing步骤中，这些密钥将替换为完整的引用详细信息，从而显著提高内联引用的可靠性和准确性。

事件驱动型聊天架构：通过LlamaIndex工作流管理生成过程，Chainlit上下文管理器展示进度。对于需要复杂推理的任务，使用带有思维链推理的结构化生成技术显著提高为CRM数据生成的查询的质量。

早期进展指标：引文卡可在第三方API调用期间提供实时反馈。

成果价值

AI销售助理优化了查询处理，确保高性能和准确性，满足动态数据密集型环境的需求。
提供即时的定制见解，同时显著提高工作流程效率和用户参与度。

02

实践二：代码审查优化——小模型的高效实践

微调小语言模型 (SLM) 通常利用知识蒸馏等技术，可以应对一些LLM带来的挑战，例如成本高、数据隐私问题、需要大量的提示工程才能在特定用例中实现高准确性等挑战。这些较小的模型可提供接近更大模型的性能，并且速度更快、成本效益更高。然而，微调较小的模型需要高质量的标记数据，而创建这些数据既耗时又昂贵。

NVIDIA构建了一种自动微调方法，该方法通过使用数据飞轮策略来应对这些挑战。通过使用大型“教师”模型生成和结构化合成训练数据，此方法可优化微调过程，使较小的模型能够更有效地处理复杂任务，同时尽可能减少人工干预。

NVIDIA开发的自动微调方法从教师如何调整课程以解决学生的特定改进领域中汲取灵感。它采用师生范式，融合了知识蒸馏的原则。详细微调方法可阅读官方博客。

SLM在代码审查自动化中的实际应用

代码审查对于确保软件质量和性能至关重要，传统上由人工审查人员执行。

经过微调的SLM增强了NVIDIA自动代码审查：

提高LLM在分配严重程度时的准确性。
提高LLM的推理清晰度和质量。

03

实践三：Slackbot智能助手——快速构建实战

Slackbot作为宝贵的虚拟助手，能够处理各种任务。这不仅可以节省时间和资源，还可以打造更具协作性和高效的工作环境。如何快速构建超越简单自动化的智能Slackbot？

使用NVIDIA NIM和LangChain针对特定用例可创建自定义Slackbot智能体。

Slackbot的初始实施支持通过Slack通道、线程和聊天机器人个人信息进行交互。支持这种交互的主要模型是llama-3_1-405b-instruct，可以访问外部工具来增强响应。这些工具涉及调用和预处理外部端点。

在开始构建Slackbot之前，请确保：

设置Slack。
熟悉一下LangChain和代理。

安装所需的库包括以下内容：

openai

boto3

slack_bolt

slack-sdk

langchain

python-dotenv

langchain-community

langchain-nvidia-ai-endpoints

python-dotenv

langchainhub

您还需要以下资源：

来自的API密钥NVIDIA API Catalog。
AWS帐户 (适用于Amazon EC2、Amazon Aurora、Amazon DynamoDB、Amazon ElastiCache等) 或类似云服务。
Jupyter Lab notebook用于初始测试。

以下是在AWS上部署Slackbot的步骤：

安装所需的库: 在设置代理之前，请确保安装了必要的库，例如LangChain、 LangChain NVIDIA AI端点、Slack SDK等
定义主智能体：定义用于用户交互的主要Slack功能，并将NIM模型集成为主代理
设置DynamoDB进行内存管理: 要跟踪代理交互，请初始化DynamoDB表并配置会话内存
配置对话式内存: 将聊天消息历史记录集成到agent的对话内存中
定义基于关键字的工具用法: 添加基于关键字的触发器，以提示机器人使用特定工具
完成智能体: ReACT是一个框架，其中大型语言模型 (LLM) 将推理与行动相结合。使用它根据所提供的示例解决任务。使用预定义的变量创建ReACT代理和代理执行程序
在Amazon Aurora PostgreSQL中保存交互: 将交互保存在Amazon Aurora PostgreSQL数据库的预定义函数中

AI智能体正在通过自动执行任务、优化流程和提高生产力来转变企业应用。NVIDIA NIM微服务提供了一种无缝集成多个代理和工具的方式，使企业能够创建定制的AI驱动解决方案。

该实践展示了如何使用NIM AI端点创建具有自定义工具的端到端Slackbot智能体。这一解决方案增强了简单的Slack界面，使其能够处理更复杂的任务并解决独特的挑战。

有关更多示例，请查看官方/NVIDIA/GenerativeAIExamples GitHub 库。

04

实践四：自动化测试生成——Hephaestus框架

在软件开发中，测试对于确保最终产品的质量和可靠性至关重要。然而，创建测试计划和规范可能耗时且需要大量人力，尤其是在复杂系统中管理多种需求和不同测试类型时。许多此类任务通常由测试工程师手动执行。

为了简化这一过程，NVIDIA的DriveOS团队开发了Hephaestus (HEPH)，这是一个用于自动测试生成的内部生成式AI框架。HEPH可自动执行各种测试的设计和实施，包括集成测试和单元测试。

HEPH在测试生成过程的每个步骤（从文档追踪到代码生成）中都使用LLM智能体。这实现了整个测试工作流程的自动化，并为工程团队节省了大量时间。

节省时间：HEPH显著加快了测试创建过程。在NVIDIA多个试点团队的试验中，团队报告节省了多达10周的开发时间。
上下文感知测试生成：HEPH使用项目文档和接口规范生成测试规范和实现。每个测试都经过编译、执行和验证，以确保正确性。测试覆盖率数据会反馈回模型，以进一步优化测试生成。
多格式支持和模块化：HEPH支持各种输入格式，包括PDF、RST、RSTI和HTML，并与内部工具如Confluence和JIRA集成。

结语

NVIDIA四大实践展现了代理式AI在企业级场景落地的关键技术路径：

1.RAG+LLM实现动态数据整合

2.小模型微调突破成本与隐私瓶颈

3.NVIDIA NIM+LangChain构建轻量级智能体

4.需求驱动测试生成提升质量工程效率