我要投稿

DeepSeek API 创新采用硬盘缓存，价格再降一个数量级

发布日期：2024-08-02 21:09:55 浏览次数： 3299

作者：DeepSeek

微信搜一搜，关注“DeepSeek”

在大模型 API 的使用场景中，用户的输入有相当比例是重复的。举例说，用户的 prompt 往往有一些重复引用的部分；再举例说，多轮对话中，每一轮都要将前几轮的内容重复输入。

为此，DeepSeek 启用上下文硬盘缓存技术，把预计未来会重复使用的内容，缓存在分布式的硬盘阵列中。如果输入存在重复，则重复的部分只需要从缓存读取，无需计算。该技术不仅降低服务的延迟，还大幅削减最终的使用成本。

缓存命中的部分，DeepSeek 费用为 0.1元每百万 tokens。至此，大模型的价格再降低一个数量级。

如何使用 DeepSeek API 的缓存服务

硬盘缓存服务已经全面上线，用户无需修改代码，无需更换接口，硬盘缓存服务将自动运行，系统自动按照实际命中情况计费。

注意，只有当两个请求的前缀内容相同时（从第 0 个 token 开始相同），才算重复。中间开始的重复不能被缓存命中。

以下为两个经典场景的缓存举例：

多轮对话:下一轮对话会命中上一轮对话生成的上下文缓存

数据分析:后续具有相同前缀的请求会命中上下文缓存

多种应用能从上下文硬盘缓存中受益：

具有长预设提示词的问答助手类应用
具有长角色设定与多轮对话的角色扮演类应用
针对固定文本集合进行频繁询问的数据分析类应用
代码仓库级别的代码分析与排障工具
...

如何查询缓存命中情况

在 API 返回的 usage 中，增加了两个字段，帮助用户实时监测缓存的命中情况：

prompt_cache_hit_tokens：本次请求的输入中，缓存命中的 tokens 数（ 0.1 元 / 百万 tokens）
prompt_cache_miss_tokens：本次请求的输入中，缓存未命中的 tokens 数（1 元 / 百万 tokens）

降低服务延迟

输入长、重复内容多的请求，API 服务的首 token 延迟将大幅降低。

举个极端的例子，对 128K 输入且大部分重复的请求，实测首 token 延迟从 13 秒降低到 500 毫秒。

降低整体费用

最高可以节省 90% 的费用（需要针对缓存特性进行优化）。

即使不做任何优化，按历史使用情况，用户整体节省的费用也超过 50%。

缓存没有其它额外的费用，只有0.1 元每百万 tokens。缓存占用存储无需付费。

缓存的安全性问题

本缓存系统在设计的时候已充分考虑了各种潜在的安全问题。

每个用户的缓存是独立的，逻辑上相互不可见，从底层确保用户数据的安全和隐私。

长时间不用的缓存会自动清空，不会长期保留，且不会用于其他用途。

为何 DeepSeek API 能率先采用硬盘缓存

根据公开的信息，DeepSeek 可能是全球第一家在 API 服务中大范围采用硬盘缓存的大模型厂商。

这得益于 DeepSeek V2 提出的 MLA 结构，在提高模型效果的同时，大大压缩了上下文 KV Cache 的大小，使得存储所需要的传输带宽和存储容量均大幅减少，因此可以缓存到低成本的硬盘上。

DeepSeek API 的并发和限流

DeepSeek API 服务按照每天 1 万亿的容量进行设计。对所有用户均不限流、不限并发、同时保证服务质量。请放心加大并发使用.

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-10

如何利用 Harness “一句话交付产品功能”？

2026-06-10

面向 Agent Skill 的 CLI/SSO 鉴权体系：安全、无感、可追溯

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

更懂你的ChatGPT来了！通过做梦整理记忆，事实准确率83%

2026-06-10

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

2026-06-10

Claude Fable 5正式发布 - 王者归航。

2026-06-10

什么是循环工程 Loop Engineering？loop 比 prompt 难 10 倍

2026-06-10

cc创始人对谈，Claude Code一周年回顾：内部经历两次认知跃迁，第三次正在路上

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

2026年国内如何注册 Claude 账号教程

2026-03-13

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

大家都在问

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Anthropic万字长文：当AI开始构建自己，人类该何去何从？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw