我要投稿

向量检索快比LLM还贵？不支持S3的向量数据库，迟早要淘汰！

发布日期：2025-09-03 18:34:34 浏览次数： 2432

作者：Zilliz

微信搜一搜，关注“Zilliz”

不久前，AWS发布了S3Vector。这是S3从单独的存储向多模态升级中的重要一步。

你可以理解成：AWS 用自己的云存储，搭了个简易版向量数据库。

然后，很多朋友问我："这是要革向量数据库的命吗？"

说实话，作为Milvus的核心开发者，我结论是，S3Vector 确实有竞争力，但它的未来，是融入专业向量数据库，或者与专业向量数据库做能力搭配。

更重要的是，它的出现，让未来不支持类似功能、做不到极致性价比的向量数据库，集体淘汰出局。

接下来，我从 技术内幕 → 产品能力 → 市场影响，一次说清。

01 向量存储成本比大模型API还贵

VDB该变革了

向量检索很好，但是向量检索最大的问题在于，向量检索的算力需求太高，相比 NoSQL至少高出了一到两个数量级。

甚至，对于一些AI笔记类产品来说，他们在向量检索上的开销是OpenAI API费用的2倍。（某不具名头部AI笔记CTO）

无独有偶，2022年ChatGPT爆火后，向量数据成为公有云增速最快的数据类型。

而与Milvus早期服务的搜索、广告场景不同，大模型对应的RAG（检索增强生成）方案，对Milvus为代表的向量数据库带来了全新挑战，主要有三：

数据量暴增：规模从过去的千万级，直接跃升至数十亿级，需要向量数据库具备海量数据处理
用户延迟容忍度提升：毕竟大模型本身推理就需要时间，即便向量检索稍慢，用户也能接受；因此，过去向量数据库最在意的召回速率，反而不再重要
成本敏感度飙升：企业数据量翻倍后，若仍沿用过去的存储和计算方案，成本压力根本扛不住。

02 从内存到对象存储

是VDB的演进必然

基于前文所讲的三大挑战，不难发现，向量数据库的底层存储系统，从内存进化到对象存储，其实是行业必然。

作为亲历者，我把向量数据库的演进分为三个阶段：

第 1 代（2018-2022）：全靠内存撑早期 Milvus 用的索引技术，比如 HNSW、IVF，会把数据放内存里。优点是速度快、查得准，但成本高到离谱，
第 2 代（2022-2024）：磁盘救场Milvus 2.0正式推出，在此阶段，我们不仅做了分布式，还搞出了 “DiskANN + 自研 Cardinal 索引”。通过AIO、io_uring 等技术，可以把部分索引从内存卸载到了磁盘当中，成本一下降了 3~5 倍。这也导致我们的 Zilliz Cloud 容量型实例，当时直接卖爆了。
第 3 代（2024 年起）：分层存储时代这一时期，像 TurboPuffer 这些新玩家，直接把索引放到了 S3 里，存储成本降到 $0.33/GB/ 月，又比之前省了 10 倍！但缺点也明显：查冷数据（不常用的数据）要等 500 毫秒～1 秒，召回率也没那么高。

至于 Milvus ，其实 2022 年我们就已经着手开始研发分层存储，经过深度打磨，这个功能将在下个月发布的新一代存储拓展型实例中上线，冷数据查询能稳定在 500 毫秒以内，大家可以期待下。

在这一降本增效的趋势背景下，S3vector的出现其实也是分层存储向量数据库开始流行之后的必然选择，尤其是当S3Table出现之后，S3团队想要进军存储格式更是板上钉钉的事情。

现如今，S3自身的定位，从简单的对象存储升级成为了一个多模冷存储，不仅仅是向量，图，KV，时序等多种模态，未来常见的业务几乎都可以通过S3Table的模式加速。

而S3团队做向量检索也有三大杀手锏：

成本优势：几乎是业界最低的存储价格
规模效应：庞大机器池完美分散查询压力
微服务架构：天然适合向量索引的写入-构建-查询流程

也正是这些优势，帮助S3打造了一个极低成本超级扩展能力的向量冷存储方案。

03 S3Vector实测

真便宜，但有上限

我们团队第一时间对S3Vector进行了全面评测，结论很明确：省钱是真的，但能力有限，不是万能的。

先说好的：便宜到离谱

存储成本：$0.06/GB，比现在的 Serverless 方案还便宜 5 倍；
实际案例：存 4 亿个向量，每个月查 1000 万次，总共才花 $1217—— 比传统向量数据库省 10 倍以上；
适用场景：如果对查询速度要求不高、用得也不频繁（比如每天查几次），那它几乎没对手。

再讲缺点，S3Vector 的天花板”很明显，主要在 3 个方面：

速度慢，有上限

collection size ：s3 单个表最多 50m vectors，最多支持 10000 个表放一个 bullet point.

查冷数据：100 万条要等 500 毫秒，1000 万条要等 700 毫秒；

查热数据：每秒最多查 200 次（200 QPS），超过就会限流；

写数据慢：每秒写不到 2MB（Milvus 能到每秒1 GB），不适用大量数据频繁变更的场景。

召回率不够，还没法调

正常情况下Recall只有 85%~90%，没有可调的参数；

加过滤条件（比如 “只查 2024 年的数据”）后，召回率直接掉到 50% 以下；

如果删了一半数据，想查前 20 个结果（Top20），可能只能返回 15 个。

功能太基础

一次最多查 30 个结果（topk 不超 30）；

每条数据的附加信息（比如备注、标签）有大小限制；

没有混合查询、多租户这些企业常用的功能。

04 技术架构推测

结合实测和对 AWS 的了解，我们推测它用了 5 个关键技术，也解释了为啥有这些优缺点：

动态局部更新索引（SPFresh）：写数据后只更一部分索引，不用全重建。好处是写代价比较低，不需要重建索引，坏处是更新后recall会下降几个百分点；
深度量化（4-bit PQ）：把高维向量压小，减少 S3 读写量 —— 好处是便宜、查得快，坏处依然是召回率低，Recall 稳定在 85% 左右，而且用户几乎无调参余地。
后过滤（Post-Filter）机制：先粗略查一批，再按条件筛 —— 好处是好实现，能利用统一的底层索引结构，缺点是在过滤条件较多时，TopK 结果可能严重不足（我们测到删除 50% 数据后，TopK 20 只能返回 15 个结果）。说明S3团队用的基本就是开源索引，没有在索引侧做太多改造。
分层缓存（Multi-tier Cache）：可能用 SSD 或者NVMe 做缓存，存最近查过的索引。新查询不命中SSD缓存时延迟明显较高
大规模分布式调度：S3 本身有海量机器池，S3Vector 可能利用微服务将“读取-解压-检索”拆成流水线，让查询延迟分布非常稳。

05 S3Vector场景分析

能做什么，不能做什么

结合前面的测试数据还有技术架构解读，S3 Vector适合的场景其实很明确。

适合的场景

冷数据归档：比如存几年前的历史数据，偶尔查一次，能接受等 500 毫秒以上；
低QPS的RAG查询：比如内部小工具，每天查几十次，小于100 QPS，对速度要求不高；
低成本测试：做 POC 项目（验证想法），想少花钱试水。

不适合的场景

搜索 / 推荐：比如电商推荐、内容搜索，需要 50 毫秒以内的速度，它根本跟不上；
高频写数据：比如实时更新的用户行为数据，写得慢还会掉精度；
复杂查询：比如又要查向量、又要按时间 / 标签筛，还得做统计；
多租户应用：现在最多支持 10000 个存储桶，企业多团队用根本不够。

06 S3Vector意味着什么

分层成为大势所趋

我判断，以后向量数据库市场会分成三层，各自对应不同需求：

顺应这一趋势，Milvus/Zilliz cloud 近些年来，也对产品做了诸多的性能与成本优化，主要分为三方面

优化一：在线 + 离线一体化

在我们看来，在 AI 应用里，数据不应该被粗暴割裂成在线和离线，很多情况下，他们是随时动态转化的。因此，即将推出的Milvus 3.0 提出了向量数据湖方案，就是要让一份数据，既能在线检索，又能离线处理。既能支撑 RAG、搜索这些实时场景，又能直接用 Spark 做离线分析（比如洗训练数据）。

此外，向量数据湖方案采用了全新的StorageV2 存储格式，可以在冷数据上实现100 倍存储成本优化，同时在热数据场景下，性能比直接用 Spark 爆搜快 100 倍。这样一来，既不用维护多份数据，而且又省又方便。

优化二：面向 AI 场景的快速迭代

过去两年，Milvus 团队在 AI 应用的典型需求上快速迭代，已经交付了：BM25 + 向量混合检索，多租户隔离，冷热分层存储，MinHash 去重，等一系列面向AI开发者的功能。

我们相信，对业务场景的极致洞察力和对于新兴技术的跟进可以催生新的产品形态和新的基础设施。因此，在即将发布的 Milvus 3.0，你会看到以下面向AI 原生应用的功能：

搜索时给关键词加权（比如搜 “红色手机”，“红色” 权重更高）
面向地理位置的 geolocation 数据类型（比如 “查我附近的咖啡店”）
面向 RAG 的 多向量（multi-vector）支持（一段文字存多个向量，查得更准）
灵活的 UDF 数据处理能力
面向离线数据挖掘的全新可视化分析工具

优化三：持续降本增效

我们坚信任何科技产品，成本降 10 倍，应用场景能涨 100 倍。也是因此，从 2022 年起，我们陆续搞了磁盘索引、GPU 索引、RabitQ 量化，让查询快了好几倍。接下来，我们还会：

挖硬件潜力（硬件算力与 IOPS 性能）；
搞更智能的压缩、量化算法；
支持索引查询的 early termination（通过提前终止，少做无用功，省时间）；
继续优化分层索引，提升cache的使用率、让冷数据查得更快。

最终目标很简单——用户拿来就能用，又快又便宜还能动态扩缩容，少折腾，多创新。

07 S3Vector对行业的影响

很多人担心 S3Vector 会干掉传统向量数据库，但我觉得它对整个行业是好事，其意义有三：

验证需求：它证明了向量存储是真正的刚需，也让那些“套壳索引再套壳数据库”的伪需求无处遁形。

教育市场：凭借 AWS 的品牌影响力，更多企业开始认识并理解向量数据库，应用边界被进一步拓宽。

推动创新：S3Vector 把低成本的门槛再次拉低了，它会倒逼其他厂商持续优化技术、降低成本，找到自己的特色 —— 最终受益的是用户。

其实 S3Vector 更像向量存储的冷数据层，不是完整的向量数据库。它的低价能解锁很多之前因为贵而做不了的场景（比如小公司做 RAG、个人开发者试错、对海量数据做最基础的索引），让整个生态更热闹。

所以，我其实由衷感谢 AWS 技术团队始终保持着高频的产品创新。比如，最近让我印象深刻的，是 AWS Lambda 新增的调试功能以及冷启动速度的大幅提升。接下来，我更期待看到开发者如何用他们的创意和技术，在 S3Vector 之上构建出令人惊喜的应用甚至是infra产品。

说到底，向量数据库的黄金时代，才刚刚开始。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

向量检索快比LLM还贵？不支持S3的向量数据库，迟早要淘汰！

01

向量存储成本比大模型API还贵