我要投稿

纯CPU加速Embedding推理曝惊人成绩：提速90%，错误率低于1%

发布日期：2025-08-18 21:05:02 浏览次数： 1951

作者：英特尔商用

微信搜一搜，关注“英特尔商用”

执行摘要

AI 的迅猛发展，尤其是生成式 AI (GenAI) 的快速普及，为创新开启了新纪元，它可助力企业推动工作流程变革、优化客户体验，并从数据中获取更多洞察。

Embedding（嵌入或向量表征类）模型作为众多生成式 AI 应用的核心要素，在语义搜索、推荐系统、欺诈检测和知识管理等任务中发挥着关键作用。然而，在生产环境中大规模部署 Embedding 模型仍会面临严峻挑战，往往会受到高错误率、时延瓶颈以及不断攀升的基础设施成本等因素的阻碍。

生成式 AI 研究实验室 Bud Ecosystem 敏锐捕捉到这些企业痛点，并着手开发能够破解难题的先进推理引擎。其成果便是 Bud Latent —— 专为 Embedding 模型而设计和优化的生产就绪型推理引擎。该引擎旨在为基于 Embedding 模型的 AI 应用提供更出色的性能、准确性和成本效益。与英特尔^® 至强^® 处理器结合使用时，Bud Latent 可为企业提供拥有更高性能且更为经济高效的解决方案，助力实现新一代 AI 应用的大规模部署。

对高性能 Embedding 推理的需求

日益增长

在当今数据驱动的环境下，Embedding 模型已成为众多企业应用中不可或缺的组成部分。这类模型可将文本、图像、音频等复杂数据转化为能够捕捉语义和关系的稠密向量表示，进而实现多种强大的功能，其中包括：

增强搜索相关性：通过理解查询与文档的深层语义，Embedding 模型能显著提升海量信息库中搜索结果的准确度与相关性。
个性化内容推荐：嵌入用户偏好和内容特征有助于在电商及媒体平台实现高度定制化的内容推荐，从而更有效地提升用户参与度和转化率。
高级欺诈检测：通过嵌入分析识别交易数据中的细微异常及模式，可强化金融服务领域的欺诈预防与风险管理能力。
智能知识管理：嵌入文档和知识库有助于企业和机构实现更高效的信息检索、知识发现以及内部协作。
AI 代理与自动化：基于 Embedding 的 AI 代理可理解并响应复杂用户查询，实现工作流自动化，并为多种客户服务及运营职能提供智能辅助。

随着越来越多的企业将基于 Embedding 的应用整合到核心业务中，他们对于性能和功能更为出色的推理解决方案的需求日渐迫切。推理是从新数据生成嵌入的过程，需要满足快速、准确和经济高效三大要求，方能支持实时应用和大规模部署。

现有 Embedding 推理解决方案

面临重重挑战

尽管 Embedding 模型扮演着重要角色，但传统推理引擎往往难以满足企业级生成式 AI 部署的严苛要求。Bud Ecosystem 的实践经验揭示了现有解决方案的重大局限：

高错误率：测试表明，Hugging Face 的文本 Embedding 推理 (TEI) 等主流推理引擎在处理较长上下文（8000 个词元）时，错误率竟高达 94%。同样，Infinity 推理引擎在同等条件下也显示出高达 37% 的错误率。如此高的错误率使得这些工具无法应用于对准确性要求严苛的生产环境。
性能瓶颈：许多现有推理引擎难以将时延和吞吐量维持在可接受的水平，处理大模型和大量请求时这些问题尤其突出。这会影响实时应用的响应能力，限制部署的可扩展性。
稳定性问题：测试发现，TEI 在输入上下文长度达到 16,000 个词元时会发生崩溃，暴露出严重的稳定性问题。这可能导致服务中断，并对业务运营造成负面影响。
成本效益低：资源利用效率低下以及对专用硬件的需求，会增加大规模部署 Embedding 模型的运营成本，导致企业难以充分挖掘生成式 AI 的潜力。

这些挑战表明，当前迫切需要新一代推理引擎，以突破现有局限，在生产环境中实现无缝、能效和经济效益更优的 Embedding 模型部署。

Bud Latent：专为生产就绪型

Embedding 模型推理而设计

Bud Ecosystem 认识到现有解决方案存在的重要缺陷后，着手开发了 Bud Latent。这是一款生产就绪型推理引擎，专为优化 Embedding 模型的性能、准确性和成本效益而打造。Bud Latent 标志着重大技术飞跃，有助于解决长期困扰传统推理引擎的核心难题。

Bud Latent 的核心优势：

更强的稳定性：相较于处理较长上下文时发生崩溃的 TEI，Bud Latent 展现出更强的稳定性，即便在严苛条件下也能更有效地避免服务中断并提供更可靠的性能。
生产就绪型设计：Bud Latent 专为生产环境而打造，提供多云和多硬件支持，具备横向扩展和自动扩展能力，并配备完善的监控和追踪工具。
广泛的模型兼容性：Bud Latent 无缝集成 Hugging Face、ModelScope 等主流平台模型，同时兼容本地存储模型，提供更高的灵活性和易用性。
多平台支持：Bud Latent 提供广泛的硬件兼容性，让企业能够在现有基础设施及未来硬件选择之上持续优化性能。
多样化功能：除生成嵌入外，Bud Latent 还可用于重排序模型、文本管理、提示路由、多模态和跨模态应用及文本分类，为多种 AI 任务提供统一的推理解决方案。
零配置：通过 Bud Simulator 集成，Bud Latent 可自动识别生产部署的较理想配置，大大减少人工调优，从而显著提升性能和成本效益。
自动化硬件规格评估与查找：Bud Latent 能够跨不同云平台自动识别合适的硬件，并确定满足性能需求的较为理想的硬件规格，同时尽可能降低总体拥有成本。
动态批处理与分词：专用工作线程负责动态批处理和分词，可为高流量应用提高资源利用率和吞吐量。
灵活部署方案：Bud Latent 支持云端、本地、自带云 (BYOC) 及客户端部署，能够以出色的灵活性满足多样化企业需求。
解决硬件供应难题：Bud Latent 具备异构集群部署能力，可实现跨 16 个云平台自动化硬件查找与配置，能够在保障硬件可用性的同时提供可扩展性和成本优化。
利用工作线程实现横向扩展：架构支持通过工作线程进行横向扩展，能够更高效地应对不断增长的请求量，并实现更优负载均衡。
INT8 和 FP8 精度支持：Bud Latent 支持多种硬件（如 CPU、英特尔^® Gaudi^® AI 加速器）上的 INT8 精度，以及高性能 GPU 上的 FP8 精度，能够在不影响准确性的前提下加快计算速度并降低内存占用。
多模型同步运行：Bud Latent 能够同时运行多个模型，为单一部署场景中处理多样化用例提供了更出色的灵活性。
多模态支持：Bud Latent 支持文本、图像、音频等多种 Embedding 类型及重排序模型，有助于打造更全面的 AI 应用，使其能够处理更多种类的数据格式。

发挥英特尔的技术优势

Bud Latent 在多种硬件平台上均有显著优势，而其与英特尔^® 至强^® 处理器的集成，更是为企业带来了更具吸引力的解决方案，能够为生成式 AI 部署提供更具性价比、更高性能的基础。

英特尔^® 至强^® 处理器专为要求严苛的工作负载而设计，能够更好地兼顾性能、可扩展性和能效。Bud Latent 经过专门优化，可更好地利用英特尔^® 至强^® 处理器的内置加速能力，其中包括：

英特尔^® AVX 和 AMX 优化：Bud Latent 支持英特尔^®高级矢量扩展（英特尔^® AVX）和英特尔^® 高级矩阵扩展（Intel^® Advanced Matrix Extensions，英特尔^® AMX）技术，能够充分发挥英特尔^® 至强^® CPU 的并行处理能力，从而显著提升运行 Embedding 推理任务时的性能表现。
经优化的自定义内核：Bud Latent 集成了高度优化的自定义内核，针对英特尔^® 至强^® 处理器微架构经过专门调优，能够进一步提升性能和能效。
NUMA 节点感知：Bud Latent 运行时旨在更高效地利用英特尔^® 至强^® 系统中的非一致性内存访问 (NUMA) 节点，从而优化内存访问模式并提升整体性能。

显著提升 Embedding 推理性能

为应对行业的迫切需求，Bud Latent 将性能和准确性提升到了全新的水平。相较于其他现有解决方案，Bud Latent 能够提供更高的准确性和更出色的性能表现。

更出色的性能表现

基准测试表明，Bud Latent 的推理速度较 TEI 提升高达 90%、较 Infinity 提升高达 85%¹。

这意味着它能够显著降低时延、提升吞吐量，从而更好地支持实时应用并应对大规模部署。

图 1. Bud Latent 与 TEI、Infinity 的时延随请求量变化情况对比²

更高的准确性

Bud Latent 在处理长上下文（8000 个词元）时，实现了低于 1% 的错误率，相较于 TEI (94%) 和 Infinity (37%) 展现出显著提升¹。

这种高准确性有助于确保基于 Embedding 的应用的可靠性和可信度。

图 2. Bud Latent 与 TEI、Infinity 的失败请求随输入词元量变化情况对比²

Bud Latent 与英特尔^® 至强^®处理器的协同优势能够带来：

CPU 上的性能提升：
基准测试表明，与其他推理引擎相比，在英特尔^®至强^® 处理器上使用 Bud Latent 时能够带来显著性能提升。这让企业能够利用既有的 CPU 基础设施部署生成式 AI，在多数情况下无需购置昂贵的专用硬件。

高达1.4 倍性能提升（相较于 TEI，在英特尔^® 至强^® 处理器上的性能表现¹）

成本效益：英特尔^® 至强^® 处理器具备更高的成本效益，是大规模生成式 AI 部署的高性价比之选。而 Bud Latent 则可提供更高的资源利用率。二者的结合能够帮助企业大幅降低基础设施成本。
生产就绪、稳定可靠：英特尔^® 至强^® 处理器具备经验证的可靠性和稳定性，与 Bud Latent 强大可靠的设计及低错误率相结合，可为关键任务型的生成式 AI 应用奠定坚实基础。
可扩展性：英特尔^® 至强^® 处理器提供更出色的可扩展性，让企业能够随需求增长而轻松扩展生成式 AI 部署规模。Bud Latent 的横向扩展能力也进一步提升了可扩展性。

助力释放企业潜能：赋能多样化用例

AI 代理
构建错误率低于 1% 的高性能生产就绪型 AI 代理，实现客户服务、运营管理、技术支持等工作流程自动化

电商与个性化推荐
通过动态的用户特定内容分发增强推荐引擎

企业搜索与知识管理
加速海量文档库和数据库中的信息搜寻与检索

金融服务与欺诈检测
通过实时嵌入对比，强化异常检测和风险分析能力

医疗与生命科学
通过在生物医学数据集中加速相似性搜索，提升医学研究和诊断水平

结论

生成式 AI 的崛起为各行各业带来了重要的变革机遇。然而，充分释放生成式 AI 潜力的关键在于，需要能够高效精准地大规模部署 Embedding 模型。借助英特尔^® 至强^® 处理器带来的更优性能和更高性价比，Bud Latent 能够为企业提供生产就绪型解决方案，助力攻克在准确性、性能、可扩展性及成本等方面面临的核心挑战。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业