微信扫码
添加专属顾问
我要投稿
沃尔沃实战经验:大分块策略如何解决企业级知识库的复杂检索难题?核心内容: 1. 沃尔沃面临的文档检索系统需求与挑战 2. 向量数据库选型过程与关键考量因素 3. Milvus落地实践中的技术决策与性能优化
小分块不如大分块,动态JSON更适合复杂场景业务落地。
沃尔沃汽车是全球知名汽车制造商,所有的战略决策都依赖于高效的数据洞察。
在此背景下,沃尔沃战略部门需要构建基于向量检索的 多模态AI 文档检索系统,支撑300-400MB 文档(约 70 万 - 100 万向量嵌入)稳定处理,适配部门级日均 10-20 次查询场景。
其对文档检索系统的要求如下:
体验侧,需足够精准、能够处理各种多模态数据、支持元数据动态管理、检索透明化监控能力,且支持自托管与托管服务迁移。
成本侧,需要初始投入可控(低于云厂商)、运营成本与使用量挂钩、规模化扩展时成本增长可预测。
开发维护侧,则需要提供完善文档与案例降低开发难度,支持定制化开发,且维护成本低、升级平滑。
针对以上需求,要怎么选型,技术落地有哪些坑?这是沃尔沃的选型与技术部署心得。
知识库检索系统的核心是向量数据库,沃尔沃选择先以单机模式部署在自托管虚拟机上。
但在分析 PDF、PowerPoint、Excel、Word 及嵌入图表 / 图像的再被的海量非结构化企业文档时,包括云厂商 AI 搜索服务在内的多数企业级工具,或准确性不足,或成本过高、定制化能力弱。
比如云服务厂商,采用 “固定托管费 + 按使用量计费” 的模式,仅 100MB 数据每月就要花费 250 美元,且大部分成本来自运行时间费用,而非实际查询费用。对于一个日均查询量仅 10-20 次的部门级系统而言,若将该方案推广至生产环境,从财务角度看是不可持续的。
紧随其后,沃尔沃花了一个月调研了市场上几乎所有主流向量数据库产品。但很快发现,这些产品要么是极客专属,要么文档过于简洁,但企业落地,在API 接口和性能之外,更需要清晰的实操指南:怎么做文档预处理、如何选择embedding模型、如何部署可用于生产环境的流程。
最终有三款向量数据库进入候选名单:Milvus、Pinecone 和 ChromaDB。
ChromaDB最早被排除,核心原因在于可扩展性有限。
紧随其后,排除的是Pinecone。Milvus 和 Pinecone在测试环节表现不相上下,但是落地实践之后,往往网络配置,embedding模型搭配会极大影响实际表现,Milvus的优势在于,提供了非常详细的落地指导,保证生产环境的高效稳定运行。
此外,对于Milvus的选型,沃尔沃也没选择比较新的 PyMilvus v2 SDK 及其内置的embedding集成功能,而是选择了 SDK v1 中基于collection的旧版本,从而保证团队能够设计详细的元数据结构,并明确定义每种文档的存储、索引和检索方式。
在企业文档本身杂乱且不统一的情况下,这种精细化的模式管理至关重要。
而性能上,该系统在峰值时足够处理约 300-400MB 的文档,对应约 70 万至 100 万个embedding,与消费级 AI 工作负载相比,这个规模可能较小,但对于部门级工作负载而言恰到好处。
此外,针对格式繁多的非结构化数据,Milvus 支持的字段类型多达 64 种,这让沃尔沃不仅能存储嵌入向量,还能存储丰富的元数据 —— 从文档类型、来源到部门级分类等关键信息,覆盖全面。面对元数据无法适配预定义模式(schema)的情况,还能通过动态 JSON 字段解决这一问题,让团队灵活应对新文档类型与不断变化的需求,无需重构现有数据库。
知识库的本质是RAG。
而对RAG来说,除了LLM提示词撰写技巧之外,影响其工作质量的核心有二:chunking和embedding。
其中,embedding环节,一些特殊行业往往会选择在开源embedding模型基础上进行微调改造。
而chunking环节,沃尔沃面临的第一个问题就是怎么定分块大小。
市面上大多数 RAG 流程依赖小尺寸分块,比如许多云厂商的向量搜索服务通常默认 256 或 512 个 token。理由是,他们觉得较短的片段能带来更高的精度。
但事实是,分块太小,反而导致语义上下文丢失,逻辑断裂。
因此沃尔沃选择1024 个 token 的大尺寸分块,保留一定的检索精度的同时,更注重检索结果的逻辑性、上下文完整性。从而为后续的rerank质量和大模型的判断环节,提供更高效的信息。
相比云厂商的 AI 搜索服务,基于自托管 Milvus 的部署方案不仅性能和表现更优,并且让沃尔沃的数据库支出减少了近 90%,省掉了不必要的固定的运行时间和存储费用。对于日均查询量适中的系统而言,可以带来10 倍的成本效率提升。
除成本和性能外,沃尔沃汽车尤为看重 Milvus 的透明性。借助 Milvus,团队可以直接查看集合(collection)、查询存储的向量,以及数据库内部存储的数据。
这种透明性使得结果验证、准确性跟踪和检索质量的持续优化变得简单。
相比许多向量数据库将数据查看功能隐藏在复杂的定制工具之后,而Milvus 通过其模型上下文协议(MCP)客户端和交互式 UI,提供了内置的可视化能力,使可观测性的成本极大降低。
未来,沃尔沃还将把业务从Milvus逐渐迁移到商业化的 Zilliz Cloud(Milvus 的商业化托管服务),并将这套系统推广至质量部门。数据类型上,也会从非结构化数据扩展到半结构化数据,将其与 PostgreSQL 和 Snowflake 中的数据集成,将文本文档与结构化指标(如财务记录、质量数据)相关联。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-29
4大阶段,10个步骤,助你高效构建企业级智能体(Agent)
2025-10-29
DocReward:让智能体“写得更专业”的文档奖励模型
2025-10-29
大模型的Funcation Calling是什么?
2025-10-29
Claude发布新功能Agent Skills,让你的Agent更专业
2025-10-29
星环科技AI Infra平台:重构企业AI基础设施
2025-10-29
SOFA AI 网关基于 Higress 的落地实践
2025-10-29
Claude Skills 可能比 MCP更重要!
2025-10-29
初创公司的增长之道:如何让AI主动推荐你的产品?(上)
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-09-08
2025-10-02
2025-09-17
2025-08-19
2025-09-29
2025-08-20
2025-10-29
2025-10-29
2025-10-28
2025-10-28
2025-10-27
2025-10-26
2025-10-25
2025-10-23