AI知识库 AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


开启 AI 轻量化时代:Gitee AI 搭载的 Serverless 推理引擎
浏览次数: 1549

人工智能技术飞速发展,基础算力“重、繁、缺”的问题日益凸显。为此,Gitee AI 联合 COREMESH 芯格科技推出的 Serverless 推理引擎,为开发者们提供更好用的 AI 原生应用开发基础设施,以降低 AI 应用开发门槛,促进 AI 应用开发生态发展。


Serverless 推理引擎可以为企业提供各种异构算力、国产算力的集中纳管,欢迎企业与我们联系进行私有化部署。

Gitee AI 社区



Gitee AI 社区,依托其强大的开源平台,汇聚了大量的开发者和技术爱好者,共同探讨和推动 AI 技术的发展。社区不仅提供丰富的 AI 资源,也鼓励开发者实践并分享创新的 AI 项目,从而加速人工智能技术的落地应用。


Serverless 推理引擎

什么是 Serverless?

Serverless,即“无服务器”,是一种允许开发者构建和运行应用程序,而无需管理服务器硬件等基础设施的技术架构。在该架构下,各类资源的管理和运用全部委托给平台,为用户免去了大部分的基础设施建设、运维和运营负担,用户可以聚焦高价值的业务领域,专注于提高软件应用和业务运营的生产力。



AI 时代算力的“重、繁、缺”

在 AI 飞速发展的今天,作为 AI 技术基础的算力却正面临着“重、繁、缺”的问题:


AI 算力设备和其算力系统体量大,起步投入沉重

算力厂商产品各具特色,落地算力系统部署运维复杂

当下 AI 算力较为缺乏,价格较高


些问题不仅阻碍了已有的 AI 应用降低运营成本、扩展市场的进程,也阻碍了很多开发者学习 AI 、尝试使用 AI 能力的脚步。



Serveless 的“全托管”理念,可能成为解决上述问题的 Silver Bullet 。Serverless 可以将算力设备和算力系统抽象成服务,通过 API 接口的方式供给用户按需调用,做到按需伸缩按使用计费

  • 按需伸缩:Serveless 根据用户的实际调用情况动态地为客户投入资源,同时保证服务质量,QoS(Quality of Service,服务质量)
  • 按使用计费:实际使用量计费,类似“电网”模式,按请求调用次数或是生成的内容量(如,token 数量),用多少付多少。

然而,在大模型场景下,单个模型的参数量可占据百 GB 的显存内存空间,可消耗单台物理主机的所有算力。这意味着一台物理主机从一个模型切换至另一个模型可能需要花费分钟级别的时间;相比之下,此前“函数即服务”(FaaS)中函数(类比现在的“模型”)的切换只需要微秒甚至纳秒级的时间。 而切换所需要的时间,将直接反应到用户端上:用户的某个请求需要等待数分钟,等算力资源完成切换后才能开始进行计算。


所以,在大模型场景下,实现按需伸缩和按使用计费的 Serverless 面临着极大挑战。

Gitee AI 上的 Serverless 推理引擎





基于 Serverless 理念,Gitee AI 与 COREMESH 芯格科技联合推出面向 AI 应用开发者的 Serverless 推理引擎服务,用户通过 API 接口的方式可以更加便捷地接入和使用大模型,支持多种异构算力的集群使用,特别是对国产算力提供了友好的支持。这种方式不仅降低了企业和开发者的技术门槛,也大幅度减少了算力使用成本


通过 Serverless 推理引擎,大模型的部署和扩展变得更加灵活和高效,用户可以更专注于 AI 原生应用的开发。同时,基于芯格 Cober 构建的 Serverless 推理引擎也支持私有化部署,助力企业建设自主可控的 AI 算力资源高效管理运营平台。


应用场景


Serverless 引擎包含对话、文生图、语音识别、文生语音、特征提取等各类功能层 API,开发者可以基于功能层 API 构建各类 AI 原生应用。


大语言知识库

开源大语言知识库项目可接入 Serverless 引擎


使用 Serverless 引擎的对话和特征提取等 API 可以构建基于大语言模型的知识库系统,包含自然语言处理技术和知识管理功能,帮助用户高效组织、搜索和利用本地的知识资源。


大语言知识库通常包含以下功能:





文本检索

可以通过关键词、短语或问题搜索知识库中的文本、图像等内容,可支持全文搜索、模糊搜索和语义搜索;


智能问答

用户通过自然语言问答的方式向知识库提问,知识库利用大语言模型理解用户提出的问题,帮助用户获取所需信息;


文本写作

知识库利用大模型,根据用户的需求帮助用户快速生成高质量的专业领域文章。





智能客服

Serverless 引擎可驱动智能客服

使用 Serverless 引擎的对话、语音识别、文生语音等 API 可以构建智能客服应用,支持自动化处理客户服务请求的系统,能够理解和解析用户的查询,提供即时、准确的回复或将用户引导至正确的解决方案。


虚拟主播(VTuber)


Serverless 引擎可驱动虚拟主播

使用 Serverless 引擎的对话、语音识别、文生语音等 API 可以构建由大模型控制的虚拟主播,支持在理解语义和情绪的情况下与直播间的关注互动。



更多应用,敬请关注 Gitee AI 社区!





Gitee AI 社区通过推出 Serverless 推理引擎,为用户提供了高效、便捷的 AI 算力解决方案。随着更多的应用场景被探索,未来的 AI 生态将更加多元和智能。欢迎更多开发者和技术爱好者加入 Gitee AI 社区,共同推动人工智能技术的创新与发展。

推荐新闻
RAG系列04:使用ReRank进行重排序
本文介绍了重排序的原理和两种主流的重排序方法:基于重排模型和基于 LLM。文章指出,重排序是对检索到的上下文进行再次筛选的过程,类似于排序过程中的粗排和精排。在检索增强生成中,精排的术语就叫重排序。文章还介绍了使用 Cohere 提供的在线模型、bge-reranker-base 和 bge-reranker-large 等开源模型以及 LLM 实现重排序的方法。最后,文章得出结论:使用重排模型的方法轻量级、开销较小;而使用 LLM 的方法在多个基准测试上表现良好,但成本较高,且只有在使用 ChatGPT 和 GPT-4 时表现良好,如使用其他开源模型,如 FLAN-T5 和 Vicuna-13B 时,其性能就不那么理想。因此,在实际项目中,需要做出特定的权衡。
LangGPT论文:面向大语言模型的自然语言编程框架(中文版)
大语言模型 (Large Language Models, LLMs) 在不同领域都表现出了优异的性能。然而,对于非AI专家来说,制定高质量的提示来引导 LLMs 是目前AI应用领域的一项重要挑战。
第三篇:要真正入门AI,OpenAI的官方Prompt工程指南肯定还不够,您必须了解的强大方法论和框架!!!
自从ChatGPT(全名:Chat Generative Pre-trained Transformer)于2022年11月30日发布以来,一个新兴的行业突然兴起,那就是提示工程(Prompt engineering),可谓如日冲天。从简单的文章扩写,到RAG,ChatGPT展现了前所未有的惊人能力。
(三)12个RAG痛点及其解决方案
痛点9:结构化数据QA 痛点10:从复杂 PDF 中提取数据 痛点11:后备模型 痛点12:LLM安全
(二)12个RAG痛点及其解决方案
痛点5:格式错误 痛点6:不正确的特异性 痛点7:不完整 痛点8:数据摄取可扩展性

联系我们

售前咨询
186 6662 7370
产品演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询