我要投稿

开启 AI 轻量化时代：Gitee AI 搭载的 Serverless 推理引擎

发布日期：2024-05-09 20:19:11 浏览次数： 2363

作者：Gitee AI

微信搜一搜，关注“Gitee AI”

人工智能技术飞速发展，基础算力“重、繁、缺”的问题日益凸显。为此，Gitee AI 联合 COREMESH 芯格科技推出的 Serverless 推理引擎，为开发者们提供更好用的 AI 原生应用开发基础设施，以降低 AI 应用开发门槛，促进 AI 应用开发生态发展。

Serverless 推理引擎可以为企业提供各种异构算力、国产算力的集中纳管，欢迎企业与我们联系进行私有化部署。

Gitee AI 社区

Gitee AI 社区，依托其强大的开源平台，汇聚了大量的开发者和技术爱好者，共同探讨和推动 AI 技术的发展。社区不仅提供丰富的 AI 资源，也鼓励开发者实践并分享创新的 AI 项目，从而加速人工智能技术的落地应用。

Serverless 推理引擎

什么是 Serverless？

Serverless，即“无服务器”，是一种允许开发者构建和运行应用程序，而无需管理服务器硬件等基础设施的技术架构。在该架构下，各类资源的管理和运用全部委托给平台，为用户免去了大部分的基础设施建设、运维和运营负担，用户可以聚焦高价值的业务领域，专注于提高软件应用和业务运营的生产力。

AI 时代算力的“重、繁、缺”

在 AI 飞速发展的今天，作为 AI 技术基础的算力却正面临着“重、繁、缺”的问题：

重

AI 算力设备和其算力系统体量大，起步投入沉重

繁

算力厂商产品各具特色，落地算力系统部署运维复杂

缺

当下 AI 算力较为缺乏，价格较高

这些问题不仅阻碍了已有的 AI 应用降低运营成本、扩展市场的进程，也阻碍了很多开发者学习 AI 、尝试使用 AI 能力的脚步。

Serveless 的“全托管”理念，可能成为解决上述问题的 Silver Bullet 。Serverless 可以将算力设备和算力系统抽象成服务，通过 API 接口的方式供给用户按需调用，做到按需伸缩、按使用计费。

按需伸缩：Serveless 根据用户的实际调用情况动态地为客户投入资源，同时保证服务质量，QoS（Quality of Service，服务质量）。
按使用计费：实际使用量计费，类似“电网”模式，按请求调用次数或是生成的内容量（如，token 数量），用多少付多少。

然而，在大模型场景下，单个模型的参数量可占据百 GB 级的显存内存空间，可消耗单台物理主机的所有算力。这意味着一台物理主机从一个模型切换至另一个模型可能需要花费分钟级别的时间；相比之下，此前“函数即服务”（FaaS）中函数（类比现在的“模型”）的切换只需要微秒甚至纳秒级的时间。而切换所需要的时间，将直接反应到用户端上：用户的某个请求需要等待数分钟，等算力资源完成切换后才能开始进行计算。

所以，在大模型场景下，实现按需伸缩和按使用计费的 Serverless 面临着极大挑战。

Gitee AI 上的 Serverless 推理引擎

基于 Serverless 理念，Gitee AI 与 COREMESH 芯格科技联合推出面向 AI 应用开发者的 Serverless 推理引擎服务，用户通过 API 接口的方式可以更加便捷地接入和使用大模型，支持多种异构算力的集群使用，特别是对国产算力提供了友好的支持。这种方式不仅降低了企业和开发者的技术门槛，也大幅度减少了算力使用成本。

通过 Serverless 推理引擎，大模型的部署和扩展变得更加灵活和高效，用户可以更专注于 AI 原生应用的开发。同时，基于芯格 Cober 构建的 Serverless 推理引擎也支持私有化部署，助力企业建设自主可控的 AI 算力资源高效管理运营平台。