微信扫码
添加专属顾问
我要投稿
Gemini 2.5模型的隐式缓存功能,助您在重复场景下最高节省75%的Token成本,让AI开发更高效、更实惠。核心内容:1. Gemini 2.5模型新上线的隐式缓存功能,大幅降低重复场景下的Token成本2. 开发者如何利用隐式缓存优化AI问答机器人等应用,享受缓存红利3. Gemini团队持续推动帕累托前沿,实现AI性能与成本的最优平衡
2024年5月,Gemini API上线了上下文缓存功能。
能在重复场景下节省75%的token成本。
其实像国内的DeepSeek早就有类似的缓存模式。
不过之前需要手动设置缓存,流程略显繁琐。
昨天,Gemini 2.5模型带来了更聪明的“隐式缓存”功能,让省钱这件事更加简单。
什么是隐式缓存?
简单说,就是你不用再自己建缓存,Gemini API系统内部会自动帮你判断哪些内容可以省钱。
只要你的请求和之前的请求有相同的开头,这部分内容就能被“命中缓存”,享受75%的token折扣。
原文如下:
基于这点 我们完全不需要再多写一行缓存代码。
现在,Gemini 2.5的隐式缓存等于直接把“省钱”内嵌进API里。
开发者只需要把不变的内容放在请求开头,变化的内容放在结尾,就能最大化享受缓存红利。
比如:
做AI问答机器人时,把通用的指令、背景放在前面,把用户问题放在最后,这样每次新提问都能触发缓存,大幅降低成本。
当然缓存也是有限制的。
2.5 Flash模型要1024个token才能触发缓存,2.5 Pro模型则是2048个token。
其实大部分场景都能享受到隐式缓存带来的实惠。
目前Gemini 2.5还保留了显式缓存API的配置项,依然可以手动管理缓存。
Gemini团队说得好,他们要持续推动“帕累托前沿”(关于这个概念,文后有详解),让AI不管是使用上还是开发上都变得更高效、更实惠。
如果你还没用过Gemini 2.5的隐式缓存,通过AI Studio或者是Vertex都可以享有隐式缓存带来的优惠,可以一试!
Vertex对于新用户赠送300美刀90天的免费试用机会,详细的内容以及在谷歌云平台上的使用可以参照以下的教程:Google Cloud中使用Vertex AI 调用Gemini 2.5 Pro
不得不说,谷歌正在为开发者不给自己多交钱操碎了心。
帕累托前沿就是在有限资源下,做到最优的平衡。
比如你有两个目标:一个是提升AI的性能,一个是降低成本。
你不可能两样都做到极致,总会有取舍。帕累托前沿,就是所有“再往前一步就得牺牲另一边”的那些最优点的集合。
AI产品也是这样。
每次技术进步,其实就是在“帕累托前沿”上向前推了一点,让你在原来不可能兼得的地方,能多拿到一点好处。
Google说要“推动帕累托前沿”,就是把“高性能”和“低成本”这两个看似矛盾的目标,往更好的方向一起推进一步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-04
2025-02-04
2024-09-18
2024-07-11
2024-07-09
2024-07-11
2024-07-26
2025-02-05
2025-01-27
2025-02-01