我要投稿

最高节省75%的Token成本，Gemini 2.5模型上线隐式缓存

发布日期：2025-05-10 20:06:14 浏览次数： 1962

作者：字节笔记本

微信搜一搜，关注“字节笔记本”

2024年5月，Gemini API上线了上下文缓存功能。

能在重复场景下节省75%的token成本。

其实像国内的DeepSeek早就有类似的缓存模式。

不过之前需要手动设置缓存，流程略显繁琐。

昨天，Gemini 2.5模型带来了更聪明的“隐式缓存”功能，让省钱这件事更加简单。

什么是隐式缓存？

简单说，就是你不用再自己建缓存，Gemini API系统内部会自动帮你判断哪些内容可以省钱。

只要你的请求和之前的请求有相同的开头，这部分内容就能被“命中缓存”，享受75%的token折扣。

原文如下：

基于这点我们完全不需要再多写一行缓存代码。

现在，Gemini 2.5的隐式缓存等于直接把“省钱”内嵌进API里。

开发者只需要把不变的内容放在请求开头，变化的内容放在结尾，就能最大化享受缓存红利。

比如：

做AI问答机器人时，把通用的指令、背景放在前面，把用户问题放在最后，这样每次新提问都能触发缓存，大幅降低成本。

当然缓存也是有限制的。

2.5 Flash模型要1024个token才能触发缓存，2.5 Pro模型则是2048个token。

其实大部分场景都能享受到隐式缓存带来的实惠。

目前Gemini 2.5还保留了显式缓存API的配置项，依然可以手动管理缓存。

Gemini团队说得好，他们要持续推动“帕累托前沿”（关于这个概念，文后有详解），让AI不管是使用上还是开发上都变得更高效、更实惠。

如果你还没用过Gemini 2.5的隐式缓存，通过AI Studio或者是Vertex都可以享有隐式缓存带来的优惠，可以一试！

Vertex对于新用户赠送300美刀90天的免费试用机会，详细的内容以及在谷歌云平台上的使用可以参照以下的教程：Google Cloud中使用Vertex AI 调用Gemini 2.5 Pro

不得不说，谷歌正在为开发者不给自己多交钱操碎了心。

扩展：帕累托前沿

—

帕累托前沿就是在有限资源下，做到最优的平衡。

比如你有两个目标：一个是提升AI的性能，一个是降低成本。

你不可能两样都做到极致，总会有取舍。帕累托前沿，就是所有“再往前一步就得牺牲另一边”的那些最优点的集合。

AI产品也是这样。

每次技术进步，其实就是在“帕累托前沿”上向前推了一点，让你在原来不可能兼得的地方，能多拿到一点好处。

Google说要“推动帕累托前沿”，就是把“高性能”和“低成本”这两个看似矛盾的目标，往更好的方向一起推进一步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-11-05

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

2025-11-05

基于昇腾NPU的Qwen3量化因子代码生成微调实战

2025-10-21

从零教你微调一个专属领域大模型，看完小白也能学会炼丹!（完整版）

2025-10-14

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-12

微调已死？Google 和斯坦福论文指出AI 学习新范式

2025-09-25

如何将 AI 代码采纳率从30%提升到80%？

2025-09-24

一位淘宝工程同学的大模型LoRA微调尝试

2025-09-20

在Colab中微调Qwen3-4B模型实战指南

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

微调已死？Google 和斯坦福论文指出AI 学习新范式

2025-10-12

手把手教你用LLaMA‑Factory微调医疗问答模型：从小白到专家的实战之路

2025-08-25

微调实战之上手训一个7b小模型

2025-08-23

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

2025-10-14

阿里云Qwen3系列模型部署微调评测

2025-09-07

如何将公司内部数据制作成大模型训练用的数据集

2025-09-04

微调Qwen2.5模型的完整指南

2025-09-09

WeChat-YATT：微信强化学习大模型训练库

2025-08-18

在Colab中微调Qwen3-4B模型实战指南

2025-09-20

一位淘宝工程同学的大模型LoRA微调尝试

2025-09-24

大家都在问

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

软件公司如何为AI的下半场做准备？

2025-05-10

LoRA为何成为大模型微调不可或缺的核心技术？

2025-05-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB