我要投稿

Anthropic 新功能解读：提示词缓存（Prompt Caching）

发布日期：2025-06-15 06:00:58 浏览次数： 2052

作者：二师兄说AI

微信搜一搜，关注“二师兄说AI”

简介

提示词缓存（Prompt Caching） 允许你将输入中的大段稳定内容（如长文档、背景信息、系统指令等）缓存起来。这样后续请求只要内容不变，就能直接复用缓存，避免重复处理，显著提升响应速度并节省费用。适用于多轮对话、长文档分析、批量问答等场景。

什么时候考虑使用

类似 Redis 等缓存策略，当有大量重复利用的上下文时，建议启用提示词缓存。

不同的是，提示词缓存更偏好长内容，因为缓存读取只要基础输入的10%的费用。

比如可以针对以下场景进行针对性的优化：

• 对话型机器人：对于包含长指令或需要上传文档的持续对话，缓存能有效降低每轮对话的成本和延迟。
• 代码助手：将代码库摘要或相关代码片段缓存后，可以更高效地实现代码自动补全和问答。
• 大文档处理：可以将整本书、长论文或包含图片的文档一次性缓存，后续多次提问时无需重复上传，提升响应速度且不增加延迟。
• 复杂指令和示例：如果需要让模型参考大量指令、流程或示例，缓存后可以在每次调用时直接复用，支持更丰富和多样化的高质量案例。
• 多工具和多步骤流程：在涉及多次工具调用或代码迭代的场景中，缓存可减少每一步的重复输入，提高整体处理效率。
• 知识库互动：如与书籍、论文、文档、播客转录等长文本内容交互时，将整个文档缓存后，用户可以多次提问，体验更流畅。

通过结合自身场景，合理利用缓存，可以显著优化API调用的成本和响应速度。

价格

官方针对价格描述的很清楚，所以你要多输入少输出，因为输出是输入的 5 倍，没有变。

• 5分钟缓存写入比基础输入贵25%，1小时缓存写入贵100%，缓存读取只要基础输入的10%。
• 输出token（模型生成内容）价格最高。

特别说明下： 每当你在5分钟内再次用到这份缓存（比如用相同的内容发起请求），缓存的有效期会重新变成5分钟，并且 这个“刷新”不会产生额外费用。

如何使用

只需在API请求中用 cache_control 标记要缓存的内容，后续同样内容会自动复用缓存，无需手动管理缓存生命周期。这样可以大幅降低大输入场景下的API成本和延迟。

以下是如何使用 cache_control 块通过 Messages API 实现提示缓存的示例：

import Anthropicfrom'@anthropic-ai/sdk';

const client = newAnthropic();

const response = await client.messages.create({
model: "claude-opus-4-20250514",
max_tokens: 1024,
system: [
    {
      type: "text",
      text: "You are an AI assistant tasked with analyzing literary works. Your goal is to provide insightful commentary on themes, characters, and writing style.\n",
    },
    {
      type: "text",
      text: "<the entire contents of 'Pride and Prejudice'>",
      cache_control: { type: "ephemeral" }
    }
  ],
messages: [
    {
      role: "user",
      content: "Analyze the major themes in 'Pride and Prejudice'."
    }
  ]
});
console.log(response.usage);

// Call the model again with the same inputs up to the cache checkpoint
const new_response = await client.messages.create(...)
console.log(new_response.usage);

response

{"cache_creation_input_tokens":188086,"cache_read_input_tokens":0,"input_tokens":21,"output_tokens":393}
{"cache_creation_input_tokens":0,"cache_read_input_tokens":188086,"input_tokens":21,"output_tokens":393}