微信扫码
添加专属顾问
我要投稿
货拉拉40PB大数据跨云迁移实战,揭秘货运行业首个大规模迁移案例的技术方案与实施经验。核心内容: 1. 货拉拉大数据架构演进与跨云迁移背景 2. 40PB数据迁移方案设计:可验证、可回滚的双链路机制 3. 多层级异构集群迁移的技术挑战与解决方案
2023 年底,公司正式决策启动货运离线大数据迁移项目。历经五个月协同推进,项目于 2024 年 5 月顺利完成离线链路全量(覆盖任务、数据、服务及基础设施)跨云迁移切换,期间共有十余个部门深度参与。如今距离迁移完成已逾一年,回望整个过程仍历历在目 —— 项目推进中曾面临诸多难点与挑战,最终均通过多方协作逐一攻克,为后续链路稳定运行奠定了坚实基础。
业界迁移上云或跨云迁移的案例虽多,但鲜有聚焦大数据场景的实施细节分享。为此,我们决定将本次离线大数据迁移的完整实施过程梳理成文,希望能为行业内同类大数据迁移实践提供可借鉴的经验与思路。本文先从整体视角介绍迁移方案设计与实施全流程,后续将通过系列公众号文章,对数据迁移技术细节、数据验证方法体系等核心内容展开深度拆解与分享,诚邀大家关注并提出宝贵指导意见。
货拉拉大数据 IT 架构是“多云 + 云上自建”形式。大数据核心服务能力从一开始,只依赖云商的基础设施(IaaS)层,开始研发时投入较大,但从长期看有可控性强、能做深度研发优化、容易迁移和复制等优势。
这次迁移包含公司货运 10 年积累的约 40PB 数据存储和 4 万多个数据计算任务,在货运行业属于前列体量。
货拉拉离线大数据集群规模近千节点,同时还有 Presto 混合引擎集群、业务专用计算集群、分布式调度服务节点以及 GPU/CPU 异构计算资源池,整体架构呈现多层级、组件异构的特征。在迁移过程中,需要控制与在线服务集群(低延迟交互)、实时计算集群(流式数据依赖)的跨网络域数据交换策略,跨集群的数据传输和网络权限设计面临严峻挑战。
设计云迁移方案时,对技术保障要求很高,要保证“迁移前后数据准确、准时,停机时间少且不影响业务“。因此,我们根据以前的数据迁移经验,结合这次迁移的复杂程度,重新设计了“可验证、可回滚”的数据迁移方案。
整体方案可以简化为下图:
大数据网络架构是“离线云(旧)-- 离线云(新)-- 在线云”三朵云跨云数据交互,不同云集群按“组件端口粒度”进行网络隔离,同时需确保隔离策略不会对现有业务网络产生影响。首次在大数据场景实施此隔离策略,技术挑战大:
1. 拓扑梳理与粒度细化:梳理四套集群、30 余个组件、IDP 大数据离线调度平台及线上服务的调用关系,形成完整调用拓扑图,并将链路信息细化至端口级别,为后续网络配置与迁移规划提供精准依据;
2. 主备链路网络隔离:采用网络白名单机制实现主备双跑链路的隔离管控,只允许主环境数据同步到备环境;
3. 备链路与在线云隔离策略:采用网络黑名单机制构建新云与在线云的隔离,防止链路双跑过程中新链路数据推送到在线业务;
4. 切换前网络验证:链路切换前临时开启新云和在线云的隔离策略,验证双跑期间无法双跑的任务(Hive to HBase、Hive to Mysql 等场景);
5. 切换后网路配置:链路切换后停用新云和在线云的网络隔离策略,保留新云和旧云的策略;同时新增旧云和在线云的网络隔离策略,防止备链路数据污染主链路和线上。
40PB 的海量数据,而且每天都在变,怎么快速搬到新云环境并保证数据准确?大数据迁移不是简单的“文件复制粘贴”,而是一场系统工程:迁移过程中的数据质量是重中之重,只有当两侧链路的元数据、Hive表数据、任务代码一致之后,才能开始双跑和验数工作。因此针对数据迁移和数据一致性保障我们做了如下工作:
存量数据迁移完成(每日仍在迁移增量数据)、抽数任务全量打开后,新环境开始“蓄水”了。此时开始进入链路双跑期,新链路的数据每天会调度产出,数据验证的考验接踵而至:怎么验证涉及公司近 20 个部门、数万张Hive表的数据和主环境是否一致?
万事俱备,只欠东风。在顺利完成链路双跑和数据验证之后,即将进入最关键的环节 —— 主备链路切换。尽管当前的双跑机制支持快速回滚,但我们依然希望力争一次切换成功。一旦切换失败,不仅可能导致项目延期,更会带来数据延迟、线上数据异常等难以承受的严重后果。
为了确保切换过程万无一失,我们详细制定了链路切换SOP,并成立了专门的 “链路切换重点保障小组”,为整个主备切换流程保驾护航。以下是切换SOP的简略大纲:
经过全体项目组成员的努力,我们最终顺利完成了切换动作,新环境链路数据正常准确产出,打赢了这场旷日持久的攻坚战。项目结束后,我们也在思考如果再做一次,哪些事能做得更好,哪些经验能用到后续类似项目中:
本次离线大数据云迁移项目由货拉拉技术中心多个部门和 10 多个业务部门重点参与,项目的圆满完成离不开全体项目组成员近半年夜以继日的付出,以及云商专家团队的支持配合,在此一并表示感谢!
笔者介绍:张伟伟|大数据专家,目前负责货拉拉大数据SRE方向,以及实时稳定性保障、大数据成本管控体系
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-19
周航:和AI这道正餐相比,前几十年的科技总和只是前菜
2025-09-19
PolarDB Supabase 助力 Qoder、Cursor、Bolt.diy 完成 VibeCoding 最后一公里
2025-09-19
ContextCite: 探究模型生成内容与上下文引用的关系
2025-09-19
从丁黎和米粿AI如何服务专业漫画师,看AI产品的价值内核
2025-09-19
上市就卖爆的360 AI Note,当我用它刷了半小时视频后...
2025-09-19
如何用好 Codex?OpenAI 内部实践指南:7 个最佳应用场景,6 个使用 Tips
2025-09-19
从需求场景出发的AI应用项目落地方法论
2025-09-19
OpenAI 内部 Codex 使用指南曝光:顶级工程师的秘密武器!
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-08-20
2025-09-14
2025-09-14
2025-09-19
2025-09-18
2025-09-18
2025-09-17
2025-09-17
2025-09-16
2025-09-14
2025-09-12