免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

微软打造首个全球规模的 AI 超级工厂

发布日期:2025-12-01 18:25:17 浏览次数: 1523
作者:Azure云科技

微信搜一搜,关注“Azure云科技”

推荐语

微软打造全球首个AI超级工厂,重新定义数据中心架构,满足激增的AI计算需求。

核心内容:
1. Fairwater数据中心采用单一扁平网络架构,连接数十万颗NVIDIA GPU
2. 创新液冷技术与双层设计突破物理极限,实现极致算力密度
3. 专用AI WAN广域网实现跨站点动态算力调度,最大化GPU利用率

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


微软正式发布位于美国乔治亚州亚特兰大的 Azure AI 数据中心 Fairwater 站点。全新的数据中心将与威斯康星州的首个 Fairwater 站点、前几代 AI 超级计算机以及全球 Azure 数据中心深度互联,共同构建首个全球规模的 AI 超级工厂#Fairwater#。 


重新定义 AI 数据中心架构


为了满足激增的 AI 计算需求,微软重新定义了 AI 数据中心的架构设计和系统运行方式。Fairwater 打破传统云数据中心模式,采用单一扁平网络架构,可以将数十万颗最新的 NVIDIA GB200、GB300 GPU 组建成一台真正意义上的超级计算机。这些创新源于微软在数据中心与网络设计上的数十年积累,以及支撑全球最大规模 AI 训练任务的深厚经验。


灵活应对多样化 AI 工作负载


Fairwater 不仅适用于下一代前沿模型训练,还在设计之初就考虑到了多场景弹性调度。模型训练包含预训练、微调、强化学习、合成数据生成等多种不同类型的工作负载。


微软还为此部署了专用的 AI WAN 广域网骨干,把每个 Fairwater 站点连成一个高度弹性的整体,实现跨站点的动态算力调度,让不同任务都能高效运行,最大化整个系统的 GPU 利用率。


接下来,我们将带您深入了解 Fairwater 背后的关键技术创新——从数据中心的建造方式,到站点内部及跨站点的网络设计,全面解读“AI 超级工厂”的技术秘密。


01

极致算力密度:

突破物理极限的 Azure AI 架构


现代 AI 基础设施的性能正面临物理定律的挑战,光速延迟正在成为限制加速器、计算与存储深度整合的关键因素。Fairwater 的设计核心,就是把算力密度做到极致,在机架内部、机架之间尽可能缩短延迟,从而将整体系统性能推到新的高度。


想要实现这种算力密度,冷却技术是关键。Fairwater 数据中心采用全场液冷系统,并通过闭环循环设计 —— 冷却液在初次注入后会被持续循环使用,不会蒸发流失,实现高效与可持续。初始注水量仅相当于 20 户家庭一年的用水量,且可持续使用 6 年以上,仅在水质监测异常时更换。


液冷不仅提升散热效率,还让机架功率达到约 140kW/机架,1,360kW/排。先进冷却技术确保在高负载下保持稳定性能,让超大规模训练任务高效运行。


图为:机架级直液冷


为了进一步提升算力密度,Fairwater 还采用了双层数据中心建筑设计。原因很简单:因为 AI 工作负载对延迟极度敏感,哪怕是线缆长度的微小差异,都可能影响集群性能。


在 Fairwater中,每一块 GPU 都需要与其他 GPU互联。通过三维空间布局,双层设计让机架分布更紧凑,显著缩短线缆长度,从而带来更低延迟、更高带宽、更强可靠性以及更优成本控制。


图为:双层网络架构


02

高可用,低成本供电


为了支撑前所未有的算力需求,Fairwater 不仅在网络架构上创新,还在供电模式上突破传统。亚特兰大站点选址基于电网韧性,能以 3×9 成本实现 4×9 可用性,无需传统冗余方案(如现场发电、UPS、双路配电),降低客户成本并加快交付。


同时,微软与行业伙伴联合开发电力管理解决方案,应对大规模 AI 任务带来的电网波动:


  • 软件层面:在低负载时段自动引入补充性任务,平滑电力波动

  • 硬件层面:让 GPU 自主控制功率阈值,抑制瞬时冲击

  • 现场储能系统:通过本地储能吸收波动,而无需额外消耗电力


这些方案让 Fairwater 能在 AI 需求持续攀升的情况下保持平稳运行。


03

尖端加速器与网络系统


Fairwater 的强大性能,来自于专为 AI 打造的服务器架构、先进加速器和全新的网络系统。


  • 单一扁平网络:突破传统 Clos 网络限制,支持数十万 GPU 互联

  • 机架级互联:每机架最多容纳 72 块 Blackwell GPU,通过 NVLink 实现超低延迟通信

  • 极致算力密度:支持 FP4 等低精度格式,提升 FLOPS 与内存效率

  • 带宽与内存:每机架提供 1.8TB GPU 间带宽,每块 GPU 可访问 14TB 共享内存


图为:采用应用驱动网络技术的密集型 GPU 机架


为了让数十万块 GPU 像一台超级计算机一样高效运作,Fairwater 采用横向扩展网络架构,将机架扩展为 Pod 和集群,实现最少跳数、最低延迟的互联。


核心技术亮点

  • 双层以太网后端架构:支持超大规模集群,GPU 间互联速率高达 800Gbps

  • SONiC 网络操作系统:微软自研,避免单一供应商锁定,降低成本,支持通用硬件

  • 网络优化技术:多层面重构性能,实现拥塞控制、快速重传和智能负载均衡,保障超低延迟与高可靠性


04

行星级规模


即便有这么多创新,面对动辄万亿参数的大模型训练,单个数据中心的电力和空间仍难以承载不断上升的算力需求。为此,微软打造了一个专用的 AI WAN 光网络,将 Fairwater 的纵向扩展与横向扩展网络进一步向外延伸。


依托微软多年的超大规模基础设施经验,我们仅在过去一年内就在全美铺设了 12 万英里的新光纤,全面增强 AI 网络的覆盖与稳定性。


凭借这条高性能、高可用的骨干网络,我们可以把不同世代的超级计算机跨地域联成一个整体——打造真正意义上的 AI 超级工厂(AI Superfactory)


开发者可以根据任务需求,在单站点内部的 scale-up / scale-out 网络之间灵活切换,也可以跨站点通过 AI WAN 调度算力资源。


这与过去所有流量都必须走同一个横向扩展网络的模式截然不同。如今,任务可以基于需求选择最适合的网络路径,不仅提升效率,也让整个基础设施更灵活、更高利用率。


05

下一代 Azure AI 基础设施的跃迁


全新的亚特兰大 Fairwater 站点,是 Azure AI 基础设施迈出的又一大步,也是微软多年支撑全球最大规模 AI 训练经验的成果总结。


它融合了突破性的算力密度设计、高效可持续的能源体系以及世界领先的网络架构,并与全球各地的 Azure AI 数据中心深度互联,共同构成首个全球规模的 AI 超级工厂。


对企业与开发者而言,这意味着更容易将 AI 融入现有工作流、更快把想法变成现实、更轻松构建出曾经难以实现的创新型 AI 应用。




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询