我要投稿

OpenAI终于推出Prompt Caching：成本砍半、速度翻倍！细节介绍都在这里了

发布日期：2024-10-09 20:35:42 浏览次数： 4257

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

OpenAI 终于推出Prompt Caching 给开发者省钱了。

OpenAI最新推出的Prompt Caching功能，一下子就让API调用成本腰斩，速度翻倍。这下，AI应用开发者们该笑醒了。

让我们来看看这个新功能：

成本砍半，速度飙升

OpenAI这次真的是下了血本：

成本直接减半：长提示词的API调用成本降低了50%
速度提升惊人：延迟降低了80%

这意味着什么？

简单来说，开发者可以用更少的钱，做更多的事。

适用范围广，自动生效

这可不是什么小打小闹的实验性功能。OpenAI直接把它应用到了主力模型上：

GPT-4o
GPT-4o mini
o1-preview
o1-mini

最爽的是，这个功能是自动应用的。开发者们不需要修改一行代码，就能享受到这个福利。

缓存机制详解

那么，这个神奇的缓存是怎么工作的呢？

缓存触发条件：提示词超过1,024个token
缓存增量：以128个token为单位递增
缓存匹配：需要完全匹配前缀才能命中缓存
缓存保留时间：5-10分钟无活动后清除，最长保留1小时
监控方式：通过API响应中的'cached_tokens'字段查看

开发者优化建议

OpenAI还贴心地给出了优化建议：

将静态内容放在提示词开头，这样更容易命中缓存
缓存的输入token价格是未缓存token的一半
无需任何代码修改，系统会自动应用缓存

@bidhanxyz（ @bagel_network 的创始人）甚至预测：

有人会在API上实现模糊缓存，将成本再降低50%。

这话说的，OpenAI的工程师们怕是要加班了。

@ShenHuang_（Google Travel Ads的技术主管）也表示：

这可以节省我大量的API调用成本?

看来，不只是小开发者，连大公司都对这个功能垂涎三尺啊。

AI开发的春天来了？

这个功能早有呼声，@AI_GPT42说到：

我一直在等这个功能?

OpenAI这一次，终于回应了开发者的需求。可以说是跟上了其他厂商（如deepseed, claude等），为AI应用开发铺平了道路。

成本降低，速度提升，用同样的钱能干更多的事，这也意味着更多的创新可能性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-14

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-06

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-04-20

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-15

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-13

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-03-23

养死四只龙虾的小白有感

2026-03-22

Mistral Forge 的真正意义：企业AI从“租用”走向“拥有”

2026-03-21

马斯克再次站台Kimi，扒掉了Cursor 500亿估值的底裤

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-15

MiniMax M2.7 炸场！自己训自己，8 项基准硬刚 GPT-5 和 Opus 4.6

2026-03-19

马斯克再次站台Kimi，扒掉了Cursor 500亿估值的底裤

2026-03-21

Mistral Forge 的真正意义：企业AI从“租用”走向“拥有”

2026-03-22

养死四只龙虾的小白有感

2026-03-23

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-04-13

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-20

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-05-06

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-14

大家都在问

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw