我要投稿

最佳实践|Zilliz 如何助力MiniMax的AI落地与预训练数据管理

发布日期：2025-08-06 18:58:13 浏览次数： 1667

作者：Zilliz

微信搜一搜，关注“Zilliz”

随着大模型玩家之间的技术路线逐渐趋同，数据管理能力，正逐渐成为大模型竞赛中各个玩家的关键胜负手。

2020年6月发布的GPT-3 ，训练数据还仅有 570GB 的文本数据，模型参数超过 1750 亿个。到了2023年发布的GPT-4 ，模型参数已经达到1.8 万亿，背后的训练数据更是高达13万亿token。

而随着模型尺寸变得越来越大，多模态也在同期成为主流。为此，我们不仅需要更大的计算资源，也对非结构化数据的管理提出了更高的要求，对应的数据存储、处理、传输和检索系统升级已经迫在眉睫。

在这个背景下，头部大模型玩家MiniMax 和向量数据库领军企业Zilliz 的合作成为了行业的一个重要标杆。

两者的合作不仅仅解决了MiniMax 旗下Talkie 等产品的高并发和精准推荐的问题，更为大模型训练提供了高效、灵活的数据管理架构。

那么这一合作是如何实现的？它又是如何推动数据管理和大模型训练的技术突破的？本文将对以上问题，进行逐一详细拆解。

01 提升 Talkie AI 的用户体验：精准推荐与高并发处理

在如今的AI产品市场，Talkie 的地位已经不必多说。依托MiniMax全球先进的多模态AIGC技术，Talkie 构建了一个支持用户自由创造和分享AI Agent的交互平台，并入选 a16z 评选的 Top 50 AI-first 网页端产品、Top 50 AI 移动应用双榜单。

面对如此庞大的用户群体，Talkie 的遇到的第一大难关是如何做好推荐物料（类似游戏中的道具）。更进一步，这个问题可以被拆解成三方面：

如何借助语义相似度，做更精准的物料推荐： 在Talkie 中，每一项推荐物料（如角色语音包、互动内容等）都被编码为一个32维的向量，并根据用户历史行为，从物料库中实时筛选出最匹配的内容。

如何快速的将用户需求推送给他：系统的响应速度往往会对用户的购买转化带来直接影响，Talkie 必须在 30 毫秒内返回推荐结果。

如何应对千万级别用户带来的高并发：随着Talkie 的月活不断增加至千万量级，其 QPS（每秒查询次数）有时会达到 5000 次以上。系统必须能够在短时间内响应大量用户的请求，并保证低延迟的服务体验。

起初，MiniMax 依赖 Redis 实现缓存式检索方案，Redis 作为一个内存数据库，快，但贵，也不稳。

尤其是随着物料增长至百万级，Redis 首先会遇到内存限制： 一般情况下，Redis 将数据存储在内存中，这虽然提高了访问速度，但随着数据量的增长，内存开销也大幅增加。

而且 Redis 缺乏原生的向量检索能力，必须通过外部工具或插件来勉强实现embedding 搜索，这在实际工程中往往会引入额外的延迟和复杂性。

因此，Talkie 需要一个能同时满足高性能 + 可扩展性 + AI原生的专业向量数据库产品，于是他们找到了 Zilliz Cloud。而根据这一需求，Zilliz给出了定制化解决方案：

用 8 个计算单元（CU）为一个基本配置，配上 7 副本，多副本容灾、负载均衡，从而确保即使某一个副本失效，系统依旧能够继续稳定运行。
多副本架构也使得Talkie 在面对大规模并发请求时，保证了其数据查询的高可用性和可靠性，确保查询延迟低至 30 毫秒。

这套新架构不仅支撑了 Talkie 的千万用户扩张，也为其后续产品扩展以及双方更多的合作奠定了基础。

低成本去重百亿文档，加速模型训练

Talkie 的推荐只是前菜，MiniMax 真正重头戏的是大模型训练。

而大模型的数据管理远比表面复杂。最新一代模型动辄十多万亿token的训练数据，意味着仅数据预处理和清洗就可能耗费数周甚至数月工程资源。

更关键的是，这些数据并不是静态的。随着模型不断微调、语料持续演进，系统必须支持对亿级数据的“低成本的增量更新”与“高频次的数据同步”。而这正是传统内存数据库和关系型数据库难以胜任的。

举个简单的例子，大模型训练中，百亿级文档是行业常态。但通常来说，这数百亿文档中会存在大量重复冗余内容，不仅浪费计算资源，更导致大模型反复“咀嚼”相同的知识，在重复内容上过拟合，降低了对新信息的泛化能力。

目前主流的去重方法可以分为三类：

1. 精确匹配：通过对整个文件或者数据块进行哈希计算，找出完全相同的文本；

2. 近似匹配：使用如Jaccard 相似度等算法找出“相似但不完全相同”的文本；

3. 语义匹配：用深度学习模型（如 Transformer）将文本转换为向量嵌入（Embeddings），然后在向量空间中通过聚类或计算余弦相似度等方法，找出那些在语义层面表达相同或相似思想的文本。

随着预训练语料体量达到 TB 甚至 PB 级别，传统的精确匹配（如两两比对）根本无法承载计算负载，并且无法高效查找出一些内容高度相似但表述不同的内容；而语义去重则涉及向量生成和大规模匹配，开销巨大。

基于这一背景，Milvus团队为MiniMax在Milvus2.6版本中构建了专门的MinHash + LSH功能。其中，MinHash 负责将文档压缩为签名（目前，MinHash 向量，需要用户自己生成），LSH 负责高效缩小搜索空间，从而快速定位潜在重复，帮助企业完成百亿级语料下的预处理优化。

此外，Milvus 2.6 还将这一能力原生写入数据库索引系统，API 层面也做了统一，兼容 embedding 插入、索引构建与近似查询。更关键的是，它支持分布式、横向扩展，确保了 TB 甚至 PB 级数据量下的处理能力。

该方案相比于MiniMax此前使用的MapReduce 的方案，在处理速度上提升超过 2 倍，并在成本上实现了 3–5 倍的优化。

当然，这个功能的设计不止可以用于MiniMax的大模型训练数据去重问题，如今已经在网页内容清洗、商品目录管理、抄袭检测等场景，于千行百业落地开花。

结语

放眼未来，随着大模型玩家之间的技术路线逐渐趋同，数据管理能力，将成为大模型竞赛中的关键胜负手。

从传统存储到向量数据湖，是从存数据到用数据的进化；

从MapReduce 去重到 MinHash LSH，是数据质量管理能力的升级；

而从 Redis到专业向量数据库，则是企业从传统数据治理结构向AI原生的转变。

而Zilliz 与 MiniMax 的协作，正是这一趋势的缩影与最佳实践。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-11-08

AI落地：上下文工程，那个决定性的关键！

2025-11-08

阿里云 OpenLake：AI 时代的全模态、多引擎、一体化解决方案深度解析

2025-11-08

TEN 框架：轻松实现与 AI 实时语音对话

2025-11-08

一文读懂上下文工程(Context Engineering)

2025-11-08

谷歌《Agents》白皮书：剖析智能体的核心框架与未来发展（附下载）

2025-11-08

技术还是场景？为大模型能力画一张“地图”：详解RAG、AIGC、Agent如何驱动千行百业

2025-11-08

打败GPT5的Kimi K2 Thinking，真就只会写代码吗？

2025-11-07

让AI打出丝滑连招：编码-部署-自测-改bug

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

2025-08-21

DeepSeekV3.1 提到的 UE8M0 FP8 Scale 是什么？下一代国产芯片设计？

2025-08-21

DeepSeek V3.1 测评

2025-08-19

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

DeepSeek突然更新V3.1：实测后才发现的亮点与槽点

2025-08-19

从需求场景出发的AI应用项目落地方法论

2025-09-19

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

大家都在问

打败GPT5的Kimi K2 Thinking，真就只会写代码吗？

2025-11-08

联手 OpenAI 发布 ACP，Stripe 是如何思考 Agent 支付的？

2025-11-06

🤯 终于搞懂了！LLM、RAG 和 AI Agents 到底是什么关系？

2025-11-06

如何为 AI 智能体定价？

2025-11-06

什么是CUDA？大模型推理过程中的计算为什么需要它？

2025-11-05

开发一套Agent平台难吗？

2025-11-04

Dify VS N8N 谁更牛？

2025-11-04

树莓派这种“玩具级”设备，真能跑大模型吗？

2025-10-31

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB