微信扫码
添加专属顾问
我要投稿
Anthropic最新推出的提示词缓存功能,能大幅降低大模型API调用成本,特别适合处理长文档和多轮对话场景。核心内容: 1. 提示词缓存的原理与适用场景 2. 五大典型应用场景的成本优化方案 3. 具体API调用方法与价格策略解析
提示词缓存(Prompt Caching) 允许你将输入中的大段稳定内容(如长文档、背景信息、系统指令等)缓存起来。这样后续请求只要内容不变,就能直接复用缓存,避免重复处理,显著提升响应速度并节省费用。适用于多轮对话、长文档分析、批量问答等场景。
类似 Redis 等缓存策略,当有大量重复利用的上下文时,建议启用提示词缓存。
不同的是,提示词缓存更偏好长内容,因为缓存读取只要基础输入的10%的费用。
比如可以针对以下场景进行针对性的优化:
通过结合自身场景,合理利用缓存,可以显著优化API调用的成本和响应速度。
官方针对价格描述的很清楚,所以你要多输入少输出,因为输出是输入的 5 倍,没有变。
特别说明下: 每当你在5分钟内再次用到这份缓存(比如用相同的内容发起请求),缓存的有效期会重新变成5分钟,并且 这个“刷新”不会产生额外费用。
只需在API请求中用 cache_control
标记要缓存的内容,后续同样内容会自动复用缓存,无需手动管理缓存生命周期。这样可以大幅降低大输入场景下的API成本和延迟。
以下是如何使用 cache_control
块通过 Messages API
实现提示缓存的示例:
import Anthropicfrom'@anthropic-ai/sdk';
const client = newAnthropic();
const response = await client.messages.create({
model: "claude-opus-4-20250514",
max_tokens: 1024,
system: [
{
type: "text",
text: "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n",
},
{
type: "text",
text: "<the entire contents of 'Pride and Prejudice'>",
cache_control: { type: "ephemeral" }
}
],
messages: [
{
role: "user",
content: "Analyze the major themes in 'Pride and Prejudice'."
}
]
});
console.log(response.usage);
// Call the model again with the same inputs up to the cache checkpoint
const new_response = await client.messages.create(...)
console.log(new_response.usage);
response
{"cache_creation_input_tokens":188086,"cache_read_input_tokens":0,"input_tokens":21,"output_tokens":393}
{"cache_creation_input_tokens":0,"cache_read_input_tokens":188086,"input_tokens":21,"output_tokens":393}
1. 缓存的生命周期有多久?
默认缓存有效期为5分钟。如果5分钟内再次命中缓存,有效期会自动延长5分钟。也可以通过参数设置为1小时。
2. 我可以定义多少个缓存断点?
每个请求最多可设置4个缓存断点(即4个 cache_control
标记)。
3. 哪些模型支持提示词缓存?
目前支持 Claude Opus 4、Claude Sonnet 4、Claude Sonnet 3.7、Claude Sonnet 3.5、Claude Haiku 3.5、Claude Haiku 3、Claude Opus 3。
4. 缓存最小长度是多少?
5. 缓存对输出内容有影响吗?
没有影响。缓存只优化输入部分,输出内容和不使用缓存时完全一致。
6. 缓存会在不同组织之间共享吗?
不会。缓存严格隔离在各自组织内,不同组织即使内容完全相同也不会共享缓存。
7. 什么情况下缓存会失效?
8. 如何判断请求是否命中缓存?
查看API响应的 usage
字段,cache_read_input_tokens
大于0表示命中缓存。
9. 可以手动清除缓存吗?
不可以。缓存只能在生命周期结束后自动过期。
10. 缓存可以和哪些API功能一起用?
可以和工具调用、视觉能力等功能结合使用。但更改是否包含图片或工具设置会使缓存失效。
11. 缓存读取和写入如何计费?
12. 缓存安全性如何?
缓存采用加密哈希,且组织隔离,保证数据安全和隐私。
以上是关于所有内容,感觉还是贵,希望 Anthropic 能针对输出也能做缓存。不知道国内厂商是不是有类似功能,毕竟给 Agent 加缓存,就像给软件加缓存,又快有高效。
参考地址:https://docs.anthropic.com/zh-CN/docs/build-with-claude/prompt-caching
关于 Anthropic 发布新功能,其他功能解读
如果你觉得内容有价值,欢迎点赞?、在看?、转发↗️支持一下!
你的每一次互动,都是我持续输出干货的动力源泉!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-06-14
为什么大家很少提及Prompt(提示词)了?
2025-06-13
一文搞懂大模型的提示工程(Text2SQL、Text2API)
2025-06-13
AI提示词炼金术:三步构建你的“红蓝军”私人教练
2025-06-13
Claude Prompt:概念「转译术」|用隐喻让抽象变具体,征服你的听众
2025-06-12
字节新产品太强了,让你轻松成为提示词大师!
2025-06-12
思考力开挂!5 个 AI 提示词,让Deepseek把知识嚼碎喂进你脑子!
2025-06-12
【干货】基于信息对称的AI协同优化方法——用以优化AI提示词,智能体构建的底层思路
2025-06-11
14种主流Prompt技术,顶级团队2000次实验,只有这几种真能打
2025-04-01
2025-03-23
2025-03-24
2025-03-20
2025-04-08
2025-04-02
2025-04-08
2025-05-08
2025-05-08
2025-03-19
2025-06-14
2025-06-04
2025-06-02
2025-05-17
2025-05-16
2025-05-09
2025-04-29
2025-04-27