支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


最高节省75%的Token成本,Gemini 2.5模型上线隐式缓存

发布日期:2025-05-10 20:06:14 浏览次数: 1516 作者:字节笔记本
推荐语

Gemini 2.5模型的隐式缓存功能,助您在重复场景下最高节省75%的Token成本,让AI开发更高效、更实惠。

核心内容:
1. Gemini 2.5模型新上线的隐式缓存功能,大幅降低重复场景下的Token成本
2. 开发者如何利用隐式缓存优化AI问答机器人等应用,享受缓存红利
3. Gemini团队持续推动帕累托前沿,实现AI性能与成本的最优平衡

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

8e0e0877-117a-4f08-a61a-e9d8652a9702.png

2024年5月,Gemini API上线了上下文缓存功能。

能在重复场景下节省75%的token成本。

其实像国内的DeepSeek早就有类似的缓存模式。

不过之前需要手动设置缓存,流程略显繁琐。

昨天,Gemini 2.5模型带来了更聪明的“隐式缓存”功能,让省钱这件事更加简单。

什么是隐式缓存?

简单说,就是你不用再自己建缓存,Gemini API系统内部会自动帮你判断哪些内容可以省钱。

只要你的请求和之前的请求有相同的开头,这部分内容就能被“命中缓存”,享受75%的token折扣。

原文如下:

a00252d6-6f30-443a-b69e-f7622a35023d.png

基于这点 我们完全不需要再多写一行缓存代码。

现在,Gemini 2.5的隐式缓存等于直接把“省钱”内嵌进API里。

开发者只需要把不变的内容放在请求开头,变化的内容放在结尾,就能最大化享受缓存红利。

比如:

做AI问答机器人时,把通用的指令、背景放在前面,把用户问题放在最后,这样每次新提问都能触发缓存,大幅降低成本。

当然缓存也是有限制的。

2.5 Flash模型要1024个token才能触发缓存,2.5 Pro模型则是2048个token。

其实大部分场景都能享受到隐式缓存带来的实惠。

目前Gemini 2.5还保留了显式缓存API的配置项,依然可以手动管理缓存。

Gemini团队说得好,他们要持续推动“帕累托前沿”(关于这个概念,文后有详解),让AI不管是使用上还是开发上都变得更高效、更实惠。

如果你还没用过Gemini 2.5的隐式缓存,通过AI Studio或者是Vertex都可以享有隐式缓存带来的优惠,可以一试!

Vertex对于新用户赠送300美刀90天的免费试用机会,详细的内容以及在谷歌云平台上的使用可以参照以下的教程:Google Cloud中使用Vertex AI 调用Gemini 2.5 Pro

不得不说,谷歌正在为开发者不给自己多交钱操碎了心。

扩展:帕累托前沿

帕累托前沿就是在有限资源下,做到最优的平衡。

比如你有两个目标:一个是提升AI的性能,一个是降低成本。

你不可能两样都做到极致,总会有取舍。帕累托前沿,就是所有“再往前一步就得牺牲另一边”的那些最优点的集合。

AI产品也是这样。

每次技术进步,其实就是在“帕累托前沿”上向前推了一点,让你在原来不可能兼得的地方,能多拿到一点好处。

Google说要“推动帕累托前沿”,就是把“高性能”和“低成本”这两个看似矛盾的目标,往更好的方向一起推进一步。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询