我要投稿

大型企业建设大模型应用共性能力平台的最新参考架构-Meta的Llama Stack

发布日期：2024-10-01 21:11:43 浏览次数： 2723

作者：ThinkMachine

微信搜一搜，关注“ThinkMachine”

在本月25日的Meta Connect开发者大会上，Meta发布了其最新Llama 3.2模型家族。同时，Llama Stack也作为一个重磅成果被推到前台。在Meta的官方陈述中，Llama Stack是一套全面的工具，目的在于简化在各种企业计算环境中部署 AI的复杂度，可以帮助开发者更简便、更快速地为不同规模的企业开发大模型应用。

1、为什么要提出这样的架构?

在今天的商业环境下，企业都在尝试将大模型（比如Qwen2.5）的能力融入自身的IT体系中，以提高业务流程的智能化水平。然而，企业在这一过程中会面临着一系列复杂的挑战和难点：

1. 多样化需求与业务复杂性

大型企业通常包含多个部门和业务条线，这些部门的业务需求往往千差万别。例如，营销部门可能希望通过大模型来优化客户细分和精准营销，而生产部门则可能更关注如何利用AI提升生产效率或优化供应链管理。这种需求的差异，造成企业在构建自己的AI技术栈时，面临取舍组合的困境，使得在同一个企业内，实现统一的大模型应用支撑架构成为一个困难的事情。

2. 模型生命周期管理复杂

大模型的训练、微调和部署需要复杂的生命周期管理。尤其是在企业级应用场景中，模型不仅需要持续更新和优化，还要随着业务场景变化进行调整。对于大型企业而言，管理多个模型的版本、确保模型在不同业务场景中的适配性，甚至应对数据和环境的变化，都增加了管理的复杂性。

3. 资源和基础设施的压力

大模型的推理和训练都需要强大的计算资源，特别是在企业级别的应用中，一旦投产，这些需求会成指数增加。对于大型企业来说，如何在现有的IT基础设施中有效地集成和部署算力资源，避免计算资源的浪费或瓶颈，是一个现实的技术挑战。

4. 模型安全性与合规风险

大模型应用中的安全和隐私问题是所有企业必须面对的重大挑战。大模型在处理敏感信息时，如何保证数据的安全性以及模型的输出合规，是企业需要关注的重点。这不仅影响企业的业务运营，还可能带来法律和监管的风险。

2、Llama Stack是什么样的？

Llama Stack被设计为一套标准化API技术栈，这种模块化架构简化了大模型的开发与应用流程，为大型企业提供了支持多样化应用场景的灵活架构，支持在企业现有IT技术架构内，搭建企业级别的共性AI能力平台，以提供统一的AI服务，实现企业级AI for All的目标。

Llama Stack的架构层次

Llama Stack的架构由多层构成，每层负责处理特定的功能需求，确保整个系统的灵活性、可扩展性和模块化特性。从上往下，依次是：

Agentic Apps（智能体应用层）

端应用程序：这是整个架构的最顶层，代表基于大模型构建的最终用户应用程序。这些应用包括各种AI驱动的工具和服务。

Agentic System API（智能体API层）智能体服务协调层，包含以下组件：

PromptStore（提示词库）：用于管理和存储用于与AI模型交互的各种提示词。
Assistant（助手）：通用的AI助手接口或服务。
Shields（防护盾）：用于实现安全措施和保护机制。
Memory（记忆）：用于管理AI系统的上下文和长期记忆。
Orchestrator（协调器）：负责协调各个组件的工作，确保系统平稳运行。

Model Toolchain API（模型工具链API层）模型开发和生产工具，包括：

Batch Inference（批量推理）：用于大规模数据的模型推理。
Realtime Inference（实时推理）：用于需要即时响应的场景。
Quantized Inference（量化推理）：通过模型量化提高推理效率。
Continual Pretraining（持续预训练）：允许模型在新数据上不断学习和更新。
Evals（评估）：包括Harness（测试框架）、EvalData（评估数据）和Safety（安全性评估）。
Finetuning（微调）：用于在特定任务上优化模型。
Pretraining（预训练）：用于从头开始训练大模型。
Reward Scoring（奖励评分）：用于强化学习或对模型输出进行评分。
Synthetic Data Generation（合成数据生成）：创建合成数据集以增强训练。

Data（数据层）

Pretraining（预训练数据）：用于初始模型训练的大规模数据集。
Preference（偏好数据）：用于个性化或调整模型行为的数据。
Post training（后训练数据）：用于模型训练后的优化或评估。

Models（模型层）

Core（核心模型）：基座AI模型。
Safety（安保模型）：专门用于确保AI输出的安保模型。
Customized（定制模型）：针对特定任务或领域优化的模型。

Hardware（硬件层）

GPUs（图形处理器）：用于加速AI计算。
Accelerators（加速器）：其他类型的AI专用硬件加速器。
Storage（存储）：用于存储大规模数据集和模型。

3、企业大模型应用架构的核心关注点

设计一个良好的企业大模型应用共性能力平台需要注意的关键点很多，这里重点讲两个：

1）简便性

Llama Stack设计了两层API架构，这种两层API架构展现了简洁性和清晰性，同时保持了强大的灵活性和扩展能力。它不仅让开发者能够轻松理解和使用各个组件，还为企业架构师提供了模块化的工具，支持复杂场景中的自由组合与定制。

从架构上看，第二层API主要负责核心功能的实现，比如模型训练、推理、微调和数据管理，确保了系统的性能、效率和可扩展性。第一层API则提供了更具业务场景化的功能，比如工具调用、提示管理和安全机制，使开发者可以快速部署和调整模型，适应多样化的业务需求。这种分层设计的好处在于：

开发者能以最小的学习曲线入门，通过底层API获取基础的ML工具支持，再通过高层API实现业务需求；
企业能根据具体业务需求定制化扩展，无论是增强数据安全性，还是提高模型的推理速度，架构都能灵活适应；
维护更简便，开发者只需在不同层次进行局部优化或调整，而无需修改整个系统架构。

这种架构非常适合大型企业开发和部署在复杂环境下的AI应用，特别是那些需要在不同业务线之间共享模型能力的企业。这种简化的架构模型为企业构建统一AI能力平台提供了明确的路径。

2）安全性

Llama Stack倡导在大模型的输入和输出都需要部署安保小模型，以实现从输入到输出全过程的安全控制，确保生成式AI模型的输出可靠且符合企业安全规范。

从上图我们可以看到，Llama Stack设计的安全体系贯穿了模型的整个生命周期，包括从用户输入到生成输出的每个步骤。和很多企业在安保要求高的办公区域设立保安岗位，所有进出该区域的人员和物品都必须经过安检一样，所有输入大模型的提示词以及大模型的输出都必须经过专业安全模型（一般是小参数规模的模型）的检查后才能放行。

输入安全防护模型：这一模型确保用户输入在进入基座模型之前已经过过滤，防止恶意输入导致不合适的生成结果。这可以包括检测提示词注入（Prompt Injection）攻击或识别不合法的输入请求。
输出安全防护模型：这个模型将对基座模型的输出内容进行安全检查，避免生成潜在有害或不适合展示的内容。例如，如果模型生成的内容与系统安全标准不符，输出层将过滤或修改该内容，以确保产品输出符合相关法律要求、企业管理规定和社会道德规范。

为了支持开发者在企业应用场景中安全部署大模型，Meta提供了一系列工具，包括：

Llama Guard 3 (8B) 输入/输出审核模型，支持8种语言，并针对特定的工具调用（例如搜索和代码解释器）进行了优化。它的主要功能是对输入和输出进行审查和过滤，确保生成的内容符合安全标准。
Llama Guard 3 (11B Vision) 支持图像推理安全，属于视觉安全模型，专用于检测和过滤多模态提示和响应中的有害内容。
Llama Guard 3 (1B) 这是一个轻量级的输入/输出文本审核模型，适合在边缘设备上部署，同时也有移动端优化的版本。可用于实时检测和过滤不合适的文本内容，适合需要快速审核的场景。
Prompt Guard 专为保护基于LLM（大语言模型）的应用程序免受恶意提示词攻击。
Code Shield：代码安全防护模型，对生成的有害或不安全代码进行过滤。
CyberSec Eval 2：用于量化LLM安全风险和能力的基准测试套件。

4、总结：

企业在大模型应用方面的探索，已经从最初的少数行业领军者逐渐扩展到更大范围和更多企业，经过一年多的实践，越来越多的企业已经开始进行大模型的开发和生产部署。在这一过程中，企业不仅在业务价值挖掘、本地部署、易用性等方面取得了显著进展，还在成本控制和安全合规上做出了关键贡献。

Llama Stack作为Meta推出的标准化解决方案，为企业提供了宝贵的指导和参考，帮助企业在复杂多变的AI生态中找到合适的路径。通过简洁且模块化的架构设计，可以有效地简化了大模型的开发、部署和管理流程，同时为企业应对安全风险提供了多层次的防护机制。无论对于初创公司还是大型企业，都可以借助这样的架构，加速大模型技术的落地应用，实现AI for ALL，业务智能化转型，推动整个行业向更高效、更安全的AI应用迈进。