微信扫码
添加专属顾问
我要投稿
全球百亿交易量背后的智能推荐系统如何构建?一起探索Milvus在金融支付领域的应用实践。 核心内容: 1. 跨国金融科技巨头的智能推荐系统设计实践 2. 面对数据洪流和向量数据库挑战的技术选型 3. Milvus在支撑全球交易中的性能表现和应用价值
这篇文章来自 Milvus 社区的一位资深用户投稿——他是某跨国金融科技巨头中, AI、ML与平台架构的技术负责人。在文中,他分享了自己在支付后推荐系统的设计实践、数据库选型的技术取舍,以及在大型企业中的一些职场体会与感悟。
做支付的都知道一句老话:不管你背后跑了多少个系统、多少机器,点一下“支付”之后的那 1 秒钟,能再“顺便”给用户精准推荐点什么——才是成败的全部。
作为全球最大的数字支付平台之一,我们公司旗下产品的活跃用户量上亿,系统一年跑上百亿笔交易,钱在后台像电流一样走来走去。
业务上,我们支持 25 种货币跨境清算,覆盖 200 多个国家数千万商家,被上千万网站接入,为他们提供涵盖从个人点对点转账到企业级支付解决方案的全场景服务。
用户量够多、并发够大、业务覆盖的区域文化与习俗隔阂够深,但这一切都还不算最难的——最难的是,在这种地狱级复杂度的系统里上马一套生成式 AI 驱动的智能推荐系统。
这一块任务,主要是我所在的公司AI、ML、平台解决方案团队来负责。
但公司的要求不止是要做一个智能推荐系统,我们还需要考虑在此基础上,构建一个多业务场景可复用的 AI / ML 基础设施,能通过实时事件流处理、生成式 AI(GenAI)等前沿技术,持续优化客户体验、提升运营自动化水平,并开拓创新业务增长点。
一句话总结当时的处境:需求很急,难度不低。
以下是我们的完整项目经历复盘:
2023 年,我们启动了一项战略级项目,希望在用户结账那一刻,利用商户库存、消费上下文、用户行为、语言偏好……等一切可能的信号,用 AI 给出“买这个更划算”的实时推荐。
听起来很简单,就是个平时很常见的“猜你喜欢”。然而项目推进过程中,团队遭遇了两大技术壁垒:
首先是数据洪流快压垮现有平台:每年数百亿级交易、日更商品库存,别说调用模型跑推理,连数据 ingest 都已经爆堆。因为当时市面上的解决方案在性能和扩展性上均无法满足需求 ,为此,我们团队前几年还自己撸了个图数据库。
其次是,现有向量数据库不给力:要实现毫秒级响应的个性化推荐,必须依赖高效的向量检索能力,要但当时的项目启动阶段,市面上的向量数据库产品普遍处于早期发展,既难以支撑高吞吐量的实时数据更新,也无法满足企业级生产环境对稳定性和低延迟的严苛要求,压测时根本过不了我们的生产环境要求。
毕竟体量放在这里,性能、稳定、低延迟、低成本,我们全都要。
那时候,我们一度以为得和之前一样,自己去自研一个向量数据库。
那时候,我们测了不少市面上说得上名的产品,从 Weaviate 到 AlloyDB,结果都或多或少“踩线”了。你说它不行吧,好像也能凑合跑;你说它行吧,跑到后面问题又一个接一个。
但 Milvus是个例外,整体的实测性能表现和横向扩展能力超出预期,成功满足了我们处理积压 AI 项目的各项技术指标。
具体优势,可以从三方面展开讲讲:
性能极限突破:我们每小时更新的商品库存数据会对系统吞吐量提出严苛要求。实测数据显示,Milvus 完成全量数据集导入的速度较其他方案快 5-10 倍。友商需要 8 小时才能完成的任务,Milvus 仅用不到 1 小时的时间即告完成,这种性能优势直接决定了系统的实时性上限。
架构弹性优雅:中国有双十一,全球有黑五,支付系统出现流量洪峰波谷时常见情况。Milvus 的存算分离、动态扩容能力,可以极大提升资源调配效率,帮我们扛过了一个又一个购物狂欢节点。
开发体验出奇地顺:Milvus的社区建设在全球范围内都有目共睹。向量数据库是个新兴产品,但Milvus清晰的文档体系与友好的开发者工具链,以及活跃的社区氛围,大幅降低了我们的学习成本,这种易用性为后续 AI 应用的快速迭代奠定了基础。
解决了这些问题,我们仅剩的唯一顾虑是:一个开源项目,敢上我们的生产链路吗?
后来 Zilliz (Milvus的实际项目开发团队)的工程师一出场,专业程度和企业支持直接把这事定了。
整体推荐系统上线后,效果堪称惊艳。基于实时推荐、库存动态响应、商品池灵活调度,我们不仅提升了转化率,用户满意度指标也有了不小提升。在支付中,别小看任何 1%的指标改善,放在数亿笔交易的体量上,全是真金白银。
前面说了,公司的要求是把智能推荐系统的经验,可以无缝迁移使用在其他业务,构建一个多业务场景可复用的 AI / ML 基础设施。因此,推荐系统成功上线并稳定运行后,我们最近正在将 Milvus 的应用场景拓展至智能客服领域。
相比过去那种答非所问把用户总是惹毛的“智障”机器人,新一代多语言客服机器人可以通过向量语义理解技术自动处理80%以上的常规咨询,比我们原来那套基于关键词的 bot 高出一个维度不止。
与此同时,使用向量数据库的好处是,这个客服系统可以实时对接知识库更新。过去,怎么能把系统更新、业务变化,能同步全球的客服系统,保证所有人都掌握理解信息,是个费时费力且工程量非常庞大的事情。经常会出现,系统已经更新,但客服的回答还是基于上一个版本,导致出现用户理解出现偏差,然后就是层出不穷的投诉。
现在,使用向量数据库,信息对齐,只是一个数据库写入就能搞定的事情。在降低人工成本的同时,将客服响应速度提升至秒级。
再下一步,我们在评估从Milvus迁移到Zilliz Cloud上。当前自建集群没问题,但维护起来说实话也挺花精力,采用全托管服务可减少一定的运维人力投入,让工程师更专注于业务创新而非基础设施维护。
事后复盘,这个项目让我有几个深刻的体会:
感悟一,落地中,模型不是瓶颈,系统才是。很多人谈 AI,都爱谈模型多强、推理多准,但现实是:模型只是一小部分。实际上,AI 项目 80% 的问题,最后都会落到“系统跟不上模型”的坑里,算力、存储、检索、并发——优化要一样一样做。
感悟二,别低估基础设施的战略价值。Milvus 5-10 倍于友商的数据吞吐效率、弹性架构,对我们来说,不只是性能指标好看,而是它能决定整个 AI 项目的上线节奏和上线质量,乃至后续我们这个团队可以拿下的业务量。没有推荐系统又快又好的改造,就抢不到后续客服系统升级的机会。
感悟三,别让工程师绑死在运维上。自建带来自由,但托管能带来速度。如果你在一个有AB Test氛围,或者劲对环绕的企业中,相信我相比于你通过自研给公司省了几块钱,老板更在意,你是不是能最早最快的完成别人干不了的事情。
未来,企业级 AI 的落地速度,会越来越依赖平台基础设施的成熟度。用最好的产品,做可复用的架构,这个逻辑永远成立。
金融交易如此,千行百业同样如此。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-07-31
2024-09-23
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-07-20