微信扫码
添加专属顾问
我要投稿
Ray开启AI原生时代的"Hadoop时刻",揭秘下一代计算引擎如何重塑AI基础设施。核心内容:1. AI原生时代对计算堆栈的全新需求2. 传统架构在AI负载下的三大局限性3. Ray作为新一代计算引擎的核心优势与起源
❝译数据,一个专注AI、大语言模型、数据前沿技术的公众号。
❞
当我们回顾计算机发展的历史,会发现一个清晰的规律:每一个计算时代,都建立在一个全新的计算堆栈之上,并由一个为该时代量身定制的“计算引擎”所驱动。
在客户机/服务器时代,是以Windows Server或Unix为核心;在互联网时代,是LAMP架构(Linux, Apache, MySQL, PHP);在移动云时代,是容器化(Docker/Kubernetes)和大数据(Hadoop/Spark)。
而现在,我们正站在一个新的起点:AI原生时代(AI-Native Era)。
在这个时代,所有的应用、所有的基础设施,都在围绕AI模型重构。而Ray,正是这个AI原生时代的“计算引擎”。
在Ray Summit 2025上,Anyscale的联合创始人兼执行主席Ion Stoica深刻地指出了当下的痛点。很多企业面临“创新者的窘境”,试图通过“搬运(Lift and Shift)”的方式,将现有的Web架构强行套用在AI应用上。
然而,AI工作负载与传统的微服务有着本质的区别。面对构建AI堆栈,你只有三个选择:
为什么必须是Option 3?因为AI的底层逻辑变了。
首先,硬件变得极度异构化。不再是单纯的CPU集群,而是CPU、GPU、TPU以及各种AI加速器的混合体,配合着RDMA和高速网络互连。
(图:多模态数据,经历预训练、推理、强化学习等处理流程,涉及到多种类型的算力资源)
(图:跨节点的算力资源调度复杂度)
其次,处理流程变得极度复杂。过去我们认为的数据处理(CPU)、训练(GPU)、推理(单节点)的界限正在模糊。现在的AI管道是多模态的:数据处理需要GPU加速,后训练(Post-training)和强化学习(RL)需要异构计算,而推理(Inference)正在变成复杂的分布式系统。
正是为了解决这种复杂性,Ray应运而生。
故事要回到2016年的UC Berkeley,当时Robert Nishihara, Philipp Moritz和Ion Stoica正在研究强化学习(Reinforcement Learning)。他们发现现有的工具根本无法满足RL所需的动态、分布式和低延迟要求。于是,他们构建了Ray。
(图:Ray的创始团队在2016年的UC Berkeley,Ray最初是为了解决最复杂的强化学习问题而生)
Ray的核心优势在于它填补了底层硬件(Kubernetes, GPUs)与上层应用框架(PyTorch, vLLM, Hugging Face)之间的巨大鸿沟。
(图:Ray位于AI堆栈的核心位置,向下管理异构硬件,向上支撑AI应用)
Ray不仅是一个简单的调度器,它是AI原生堆栈的计算引擎。它提供了四大核心能力来满足AI时代的需求:
(图:AI原生计算的四大核心需求)
在过去的一年里,Ray的下载量增长了5倍。为什么是现在?
Ion Stoica将AI的发展分为三个阶段,这也解释了Ray的增长曲线:
在这个阶段,重心从单纯的“预训练”转向了后训练(Post-training)、多模态处理和复杂推理(Reasoning/Agents)。
|
|
|
|
|
|---|---|---|---|
|
数据处理 |
(Log processing) |
(Large text processing) |
多模态处理 |
|
训练 |
(Dense models) (数据并行) |
(Dense models) (数据并行,模型并行) |
MoE 模型 (数据并行,张量并行,流水线并行,序列并行,Token 并行,上下文并行) |
|
推理服务 |
(Single-GPU models) |
(Single-node models) |
多节点模型 (专家路由 Expert-routing,预填充解耦 Prefill disaggregation 等) |
说明:
Ray下载趋势也正好映射到这三个阶段,可以看出从Gen-1阶段开始爬坡,直到进入Gen-2阶段,出现了爆发式增长。
现在的AI不再只是训练完就结束。我们需要做RLHF(人类反馈强化学习),需要处理视频/图像等多模态数据,需要运行复杂的Agent推理(思考链)。这些工作负载是动态的、异构的、且高度依赖分布式协同的。
正如Ion所说:“工作负载越复杂,Ray的光芒就越耀眼。”
如今,Ray不仅仅是一个项目,它已经成为AI生态系统的通用货币。
(图:大多数OpenSource的RL Framework都是基于Ray构建的)
如果你觉得在2010年错过了Hadoop和Spark的大数据浪潮,那么今天,千万不要错过Ray。
我们正处在一个巨大的技术转折点。AI应用正在从简单的Chatbot进化为能够自主行动、处理复杂逻辑的Agent;计算模式正在从静态的微服务转向动态的分布式计算。
Ray之于AI,正如Hadoop之于大数据。
当我们无法在这个项目启动之初就开始介入的话,那么当下就是介入最好的时机。因为AI的复杂性才刚刚开始爆发,而Ray正是驾驭这种复杂性、构建未来AI应用的最佳武器。
Let's Go, Ray!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-07
奥特曼仓促亮剑GPT-5.2!一张图爆火全网,全面碾压Gemini 3
2025-12-07
在 AWS re:Invent,我看见了智能体时代的落地方案
2025-12-06
比Gemini 3记得更多,谷歌新框架将上下文记忆干到了200万!
2025-12-05
觉醒与跃迁:一文详解AI自主行动的技术演进与产业未来式
2025-12-05
Palantir发布新产品Chain Reaction:面向美国人工智能基础设施的操作系统
2025-12-05
OpenAI内部代码泄露!最强模型「皇帝」登基,0思考延时吓人
2025-12-04
一文看懂AI智能体系统背后的重要技术——上下文工程(Context Engineering)
2025-12-04
大模型“落地三件套”:Ollama本地部署、API 调用和LLM封装
2025-09-19
2025-10-26
2025-10-02
2025-09-16
2025-09-17
2025-09-29
2025-09-14
2025-10-07
2025-09-30
2025-09-14