微信扫码
添加专属顾问
我要投稿
微软打造全球首个AI超级工厂,重新定义数据中心架构,满足激增的AI计算需求。核心内容: 1. Fairwater数据中心采用单一扁平网络架构,连接数十万颗NVIDIA GPU 2. 创新液冷技术与双层设计突破物理极限,实现极致算力密度 3. 专用AI WAN广域网实现跨站点动态算力调度,最大化GPU利用率
微软正式发布位于美国乔治亚州亚特兰大的 Azure AI 数据中心 Fairwater 站点。全新的数据中心将与威斯康星州的首个 Fairwater 站点、前几代 AI 超级计算机以及全球 Azure 数据中心深度互联,共同构建首个全球规模的 AI 超级工厂#Fairwater#。
重新定义 AI 数据中心架构
为了满足激增的 AI 计算需求,微软重新定义了 AI 数据中心的架构设计和系统运行方式。Fairwater 打破传统云数据中心模式,采用单一扁平网络架构,可以将数十万颗最新的 NVIDIA GB200、GB300 GPU 组建成一台真正意义上的超级计算机。这些创新源于微软在数据中心与网络设计上的数十年积累,以及支撑全球最大规模 AI 训练任务的深厚经验。
灵活应对多样化 AI 工作负载
Fairwater 不仅适用于下一代前沿模型训练,还在设计之初就考虑到了多场景弹性调度。模型训练包含预训练、微调、强化学习、合成数据生成等多种不同类型的工作负载。
微软还为此部署了专用的 AI WAN 广域网骨干,把每个 Fairwater 站点连成一个高度弹性的整体,实现跨站点的动态算力调度,让不同任务都能高效运行,最大化整个系统的 GPU 利用率。
接下来,我们将带您深入了解 Fairwater 背后的关键技术创新——从数据中心的建造方式,到站点内部及跨站点的网络设计,全面解读“AI 超级工厂”的技术秘密。
01
现代 AI 基础设施的性能正面临物理定律的挑战,光速延迟正在成为限制加速器、计算与存储深度整合的关键因素。Fairwater 的设计核心,就是把算力密度做到极致,在机架内部、机架之间尽可能缩短延迟,从而将整体系统性能推到新的高度。
想要实现这种算力密度,冷却技术是关键。Fairwater 数据中心采用全场液冷系统,并通过闭环循环设计 —— 冷却液在初次注入后会被持续循环使用,不会蒸发流失,实现高效与可持续。初始注水量仅相当于 20 户家庭一年的用水量,且可持续使用 6 年以上,仅在水质监测异常时更换。
液冷不仅提升散热效率,还让机架功率达到约 140kW/机架,1,360kW/排。先进冷却技术确保在高负载下保持稳定性能,让超大规模训练任务高效运行。
图为:机架级直液冷
为了进一步提升算力密度,Fairwater 还采用了双层数据中心建筑设计。原因很简单:因为 AI 工作负载对延迟极度敏感,哪怕是线缆长度的微小差异,都可能影响集群性能。
在 Fairwater中,每一块 GPU 都需要与其他 GPU互联。通过三维空间布局,双层设计让机架分布更紧凑,显著缩短线缆长度,从而带来更低延迟、更高带宽、更强可靠性以及更优成本控制。
图为:双层网络架构
02
为了支撑前所未有的算力需求,Fairwater 不仅在网络架构上创新,还在供电模式上突破传统。亚特兰大站点选址基于电网韧性,能以 3×9 成本实现 4×9 可用性,无需传统冗余方案(如现场发电、UPS、双路配电),降低客户成本并加快交付。
同时,微软与行业伙伴联合开发电力管理解决方案,应对大规模 AI 任务带来的电网波动:
软件层面:在低负载时段自动引入补充性任务,平滑电力波动
硬件层面:让 GPU 自主控制功率阈值,抑制瞬时冲击
现场储能系统:通过本地储能吸收波动,而无需额外消耗电力
这些方案让 Fairwater 能在 AI 需求持续攀升的情况下保持平稳运行。
03
Fairwater 的强大性能,来自于专为 AI 打造的服务器架构、先进加速器和全新的网络系统。
单一扁平网络:突破传统 Clos 网络限制,支持数十万 GPU 互联
机架级互联:每机架最多容纳 72 块 Blackwell GPU,通过 NVLink 实现超低延迟通信
极致算力密度:支持 FP4 等低精度格式,提升 FLOPS 与内存效率
带宽与内存:每机架提供 1.8TB GPU 间带宽,每块 GPU 可访问 14TB 共享内存
图为:采用应用驱动网络技术的密集型 GPU 机架
为了让数十万块 GPU 像一台超级计算机一样高效运作,Fairwater 采用横向扩展网络架构,将机架扩展为 Pod 和集群,实现最少跳数、最低延迟的互联。
核心技术亮点
双层以太网后端架构:支持超大规模集群,GPU 间互联速率高达 800Gbps
SONiC 网络操作系统:微软自研,避免单一供应商锁定,降低成本,支持通用硬件
网络优化技术:多层面重构性能,实现拥塞控制、快速重传和智能负载均衡,保障超低延迟与高可靠性
04
即便有这么多创新,面对动辄万亿参数的大模型训练,单个数据中心的电力和空间仍难以承载不断上升的算力需求。为此,微软打造了一个专用的 AI WAN 光网络,将 Fairwater 的纵向扩展与横向扩展网络进一步向外延伸。
依托微软多年的超大规模基础设施经验,我们仅在过去一年内就在全美铺设了 12 万英里的新光纤,全面增强 AI 网络的覆盖与稳定性。
凭借这条高性能、高可用的骨干网络,我们可以把不同世代的超级计算机跨地域联成一个整体——打造真正意义上的 AI 超级工厂(AI Superfactory)。
开发者可以根据任务需求,在单站点内部的 scale-up / scale-out 网络之间灵活切换,也可以跨站点通过 AI WAN 调度算力资源。
这与过去所有流量都必须走同一个横向扩展网络的模式截然不同。如今,任务可以基于需求选择最适合的网络路径,不仅提升效率,也让整个基础设施更灵活、更高利用率。
05
全新的亚特兰大 Fairwater 站点,是 Azure AI 基础设施迈出的又一大步,也是微软多年支撑全球最大规模 AI 训练经验的成果总结。
它融合了突破性的算力密度设计、高效可持续的能源体系以及世界领先的网络架构,并与全球各地的 Azure AI 数据中心深度互联,共同构成首个全球规模的 AI 超级工厂。
对企业与开发者而言,这意味着更容易将 AI 融入现有工作流、更快把想法变成现实、更轻松构建出曾经难以实现的创新型 AI 应用。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-01
DeepSeek V3.2 正式版:强化 Agent 能力,融入思考推理
2025-12-01
从CoT到AGI:深扒大模型LLM“深度思考”的技术演进
2025-12-01
MCP是不是真凉了?
2025-12-01
为什么律所花大钱上的本地大模型,最后悄悄弃用?—— AI 本地部署之殇:算力只是柴火,你还得有锅
2025-12-01
MCP 网关实战:基于 Higress + Nacos 的零代码工具扩展方案
2025-12-01
详解Palantir AIP的两个利器:LLM和Tool
2025-11-30
大模型在网址安全中的一些落地与思考
2025-11-30
麦肯锡重磅报告:关于未来的生存指南,当57%的工作被自动化,我们如何与AI结成利益共同体
2025-09-19
2025-10-26
2025-10-02
2025-09-16
2025-09-08
2025-09-17
2025-09-29
2025-09-14
2025-10-07
2025-09-30