免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


一个 OpenAI 内部人的亲历速记

发布日期:2025-08-12 08:08:15 浏览次数: 1558
作者:WhaleThinking

微信搜一搜,关注“WhaleThinking”

推荐语

OpenAI内部人亲历速记:从Codex发布到3000人规模扩张,揭秘AI巨头真实工作流与文化。

核心内容:
1. OpenAI火箭式扩张:12个月人数翻三倍,不同团队文化差异显著
2. 第一视角工作实录:Slack驱动协作、模型训练全流程、安全团队真实挑战
3. 创业者启示录:如何在大实验室"读未来"突破项目瓶颈

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

如果你关心 AI,却只在新闻标题里见过 OpenAI,那么这篇内部人的“第一视角速记”是一份稀缺资料。作者用 7 周时间把 Codex 从 0 推到 63 万条 PR,亲历了模型、工程、产品、公关、GPU 账单与凌晨四点的部署现场。他写下的不是 PR 通稿,而是:
• 一家 12 个月人数翻三倍的“火箭公司”如何保持 YC 式冲刺  
• 3000 人共用 Slack、不发邮件、Twitter 氛围驱动的真实工作流  
• 大模型训练从“做实验”到“跑大集群”的完整光谱  
• 安全团队到底在防什么——从仇恨言论到生化武器  
• 以及一条给所有创业者的建议:如果觉得自己的项目停滞不前,现在就去大实验室“读未来”

文章没有机密,却足够坦诚;没有宏大叙事,却处处是肌肉记忆的细节。





《对 OpenAI 的反思 》



作者:Calvin French-Owen  


发布时间:2025 年 7 月 15 日


三周前,我离开了 OpenAI。我是在 2024 年 5 月加入这家公司的。

之所以想分享这些想法,是因为外界关于 OpenAI 在做什么的讨论充斥着迷雾与喧嚣,却鲜有人能真正从内部视角描述那里的文化究竟是何感受。

Nabeel Qureshi 写过一篇很棒的文章,题为《对 Palantir 的反思》,他在其中深入思考了是什么让 Palantir 如此特别。趁着记忆尚新,我也想为 OpenAI 写一篇类似的文章。本文不会涉及任何商业机密,更多的是我对这家历史上最引人入胜的组织,在当下这个极不平凡时期的一些个人观察。

开门见山地说:我离开的决定背后没有任何个人恩怨——事实上,我对此非常纠结。从一个自己创业公司的创始人,转变为一家 3000 人规模大公司里的员工,这种身份转换并不容易。此刻,我渴望一个全新的开始。

工作的质量完全有可能把我再吸引回去。很难想象还有什么比构建通用人工智能(AGI)更具影响力,而大语言模型(LLM)无疑是这十年来最重要的技术创新。我很幸运能够亲眼见证其中一些进展,并参与了 Codex 的发布。

当然,这些只是我个人的观察和观点,并不代表公司立场。OpenAI 是一个庞大的地方,这只是我透过小窗窥见的一角。


文化

首先要了解的是 OpenAI 的扩张速度。我刚加入时,公司才 1000 来人;一年后,人数已超过 3000,而我已经属于资历前 30% 的员工。几乎所有高层如今做的都是与两三年前截然不同的工作。

当规模扩张如此迅猛时,一切流程都会被撕扯得七零八落:公司级沟通、汇报架构、产品交付、人员管理、招聘机制……不同团队的文化差异也极大:有的团队永远在全速冲刺,有的团队在“照看”大规模实验,有的团队则节奏稳健。并不存在一种统一的“OpenAI 体验”,研究、应用、GTM(走向市场)三大板块的工作节奏也完全不同。

OpenAI 的一个特别之处在于:所有事情——我是说“所有”——都跑在 Slack 上。没有电子邮件。我在那里的全部时间里,大概只收到过十来封邮件。如果你不擅长整理频道和通知,会被吵得找不到北;但如果你把频道和通知打理好,其实也能运转得相当顺畅。

OpenAI 极度“自下而上”,尤其体现在研究部门。我刚到时,曾询问下一个季度的路线图,得到的回答是:“路线图不存在”(不过现在有了)。好点子可以来自任何地方,事先很难判断哪些想法会结出最大果实。这里没有宏大的“总计划”,进步更像是一次次迭代:随着新研究结果出炉,方向才被逐渐揭开。

正因为这种自下而上的文化,OpenAI 也极具精英色彩。历史上,公司提拔领导主要看两点:能否持续提出好想法,以及能否把想法落地。很多能力极强的领导者其实并不擅长在全员大会演讲,也不爱搞政治手腕,但在 OpenAI,这些并不重要。最好的想法往往真的能赢。

公司还有强烈的“动手先做”倾向(你可以直接开干)。不同但相似的团队撞车并不稀奇。我最初参与了一个与 ChatGPT Connectors 类似、但仅供内部使用的项目;在最终决定要推进公开发布前,差不多同时有 3~4 个 Codex 原型在并行。这些原型往往由两三个人“先斩后奏”地启动,一旦显出潜力,团队便迅速聚拢。


Andrey(Codex 项目负责人)常跟我说,要把每个研究员都看作“迷你 CEO”。大家都强烈倾向于先干自己的项目,看它能走到哪一步。由此衍生出一个现象——大多数研究其实是通过“用难题勾住极客”来推进的。如果某个问题被认为枯燥或“已经解决”,大概率就没人碰。

因此,优秀的研究经理影响力巨大,却又极度稀缺。最顶尖的那些人能把多条研究线串成一条更大的模型训练蓝图。出色的产品经理同样如此(ae,特别向你致敬)。

我合作过的 ChatGPT 工程经理(Akshay、Rizzo、Sulman)是我见过最冷静的一群人,真的像什么都见过似的。他们大多放手让团队自转,但会确保招到对的人,并为其铺好成功之路。

OpenAI 可以在瞬间掉头。我们在 Segment 时就很看重这一点——与其死守既定计划,不如依据最新信息做正确的事。令人惊讶的是,规模已如此庞大的 OpenAI 仍保持这种气质——Google 显然做不到。公司决策极快,一旦决定押注某个方向,就会全力投入。

外界对 OpenAI 的审视也异常严苛。从 B2B 企业背景跳进来,这一点让我震惊:我经常看到媒体抢先爆料,内部员工却还没收到官方通知。只要我说自己在 OpenAI 工作,对方往往已经带着既定看法。一些 Twitter 用户甚至跑起自动机器人,专门监控新功能上线。

因此,OpenAI 内部极度保密。我几乎不能向任何人透露自己在做什么。Slack 被拆成多个权限不同的工作区;营收和烧钱数字更是被严加看管。

OpenAI 也比想象中更“严肃”,因为赌注实在太高。一方面,目标是打造 AGI,容不得半点马虎;另一方面,产品被数亿人用来求医、做心理咨询;再一方面,公司正身处全球竞争最激烈的战场。我们密切关注 Meta、Google、Anthropic 的动态——我敢肯定他们也在做同样的事。全球主要政府都紧盯这个领域。


尽管媒体常把 OpenAI 描绘得不堪,我遇到的每一个人其实都在努力做正确的事。由于面向消费者,它是几家大实验室里最显眼的一个,也因此招来了最多的诋毁。

不过,你最好不要把 OpenAI 当成一个单一的整体。我更愿意把它想象成当年洛斯阿拉莫斯那样的组织:一群科学家和极客在科学最前沿摸索,却意外孕育出史上传播最快的消费级应用,随后又迅速膨胀,开始瞄准政府和企业的生意。不同资历、不同部门的员工,因此拥有截然不同的目标与视角。待得越久,越可能用“研究实验室”或“非营利造福人类”的滤镜来看世界。

我最欣赏的是,这家公司确实“说到做到”,把 AI 的好处真正开放给大众。最前沿的模型不会锁在某个年框合同的企业高阶套餐里,世界上任何人都能直接打开 ChatGPT 提问,甚至无需登录;注册一个 API 就能调用模型,而且大多数模型(哪怕是当前最尖端或专有的)很快就会放进 API,供创业公司使用。你完全可以想象另一种截然不同的世界格局。在这一点上,OpenAI 绝对值得大书特书,而且至今仍是公司的核心基因。

安全工作的分量,比你在 Zvi 或 LessWrong 上读到的要重得多。有一大群人在专门做安全系统。由于 OpenAI 的性质,我看到的更多是对“实战级”风险的关注——仇恨言论、滥用、操控政治偏见、制造生化武器、自残、提示注入——而不是“理论级”风险——智能爆炸、权力寻求。这并不是说没人研究后者,确实有人在专注理论风险,但从我的角度看,那不是主流。大量成果并未公开发表,OpenAI 真的应该更积极地把它分享出来。

和那些在招聘会随手发周边的公司不同,OpenAI 几乎不发纪念品(连新员工也别想)。取而代之的是“限量掉落”——你可以在指定时段下单库存商品。第一次掉落直接把 Shopify 挤垮,需求之大可见一斑。后来有一篇内部热帖教大家如何手动 POST JSON 载荷,绕过崩溃的页面抢购。

几乎所有开销,跟 GPU 成本一比都成了四舍五入的零头。举个例子:Codex 产品里一个很小众的功能,其 GPU 账单就抵得上我们整条 Segment 基础设施(虽然规模远小于 ChatGPT,但也承载了可观的互联网流量)。

OpenAI 大概是我见过最“吓人”的野心集合体。你以为手握全球顶流消费应用就够了?他们还想在几十个战场同时开火:API 产品、深度研究、硬件、编程智能体、图像生成,以及若干尚未公布的领域。在这里,任何一个点子都可能被迅速放大并全力冲刺。


公司对 Twitter 的动向极其敏感。如果你发了一条与 OpenAI 有关、且被疯转的推文,大概率会有人看到,并把它纳入考量。我有个朋友打趣说:“这家公司其实运行在 Twitter 的氛围里。”作为一家直面消费者的企业,这话也不算夸张。当然,使用量、用户增长、留存率等数据依旧被严密追踪,但“氛围”同样举足轻重。

在 OpenAI,团队的边界远比别处模糊。Codex 上线前,我们需要几位经验丰富的 ChatGPT 工程师帮忙才能赶上发布节点。我们和 ChatGPT 的几位工程经理一说,第二天就来了两位高手直接开干。没有“等季度规划”“重新调配人头”这些流程,说干就干。

领导层的存在感极强,参与度极高。这在 OpenAI 这样的公司或许理所当然,但确实每位高管都时刻在线:gdb、sama、kw、mark、dane 等人经常在 Slack 里直接插话。这里没有“甩手掌柜式”的领导。


代码

OpenAI 使用一个巨型单体仓库(monorepo),代码以 Python 为主(但 Rust 服务在增多,Golang 服务也零星出现,主要做网络代理)。这导致代码风格五花八门:既有 Google 十年老兵写的可扩展库,也有刚拿到博士学位的同事随手丢进来的 Jupyter 笔记本。几乎所有接口都用 FastAPI 暴露,数据校验全靠 Pydantic,但公司层面并没有强制统一的代码风格指南。


公司全部跑在 Azure 上。有趣的是,真正被信任的 Azure 服务只有三个:AKS(托管 Kubernetes)、CosmosDB(文档存储)和 BlobStore。像 Dynamo、Spanner、Bigtable、BigQuery、Kinesis、Aurora 这类“云原生”神器在 Azure 里找不到对应物。自动扩缩容的概念用得不多,IAM 也比 AWS 简陋得多,于是大家更倾向于自己造轮子。

在人员侧(至少工程团队),Meta → OpenAI 的人才管道非常粗。OpenAI 在很多方面像早期的 Meta:手握爆款消费级 App、基础设施刚起步、追求极致速度。从 Meta 和 Instagram 挖过来的 infra 工程师普遍水准极高。

把上述几点拼起来,你会发现不少核心基础设施都带着“Meta 味”:有人重写了 TAO,有人在做边缘统一身份认证,肯定还有更多我没听过的轮子。

“对话(chat)”概念深植代码。自从 ChatGPT 爆火后,大量代码结构都围绕聊天消息与会话这两个原语展开,它们已被“烘”得极硬,忽视它们多半会踩坑。Codex 项目稍微偏离了这一范式(更多借鉴了 responses API 的经验),但仍复用了不少前人成果。

代码说了算。没有中央架构委员会,谁来干活谁来拍板。结果就是“先动手再讨论”的氛围浓厚,代码库里常见重复轮子:光我见到的队列管理或 Agent loop 实现就有半打。

快速扩张的工程师队伍 + 欠缺工具 = 一些痛点。sa-server(后端单体)成了垃圾场;主干 CI 的挂掉频率比想象高;即便并行跑、只选部分依赖,GPU 上的测试仍需约 30 分钟。这些问题并非无解,只是提醒你:哪里都会遇到,且规模越大越痛。值得表扬的是,内部团队正投入大量精力把这套流程打磨得更好。


我学到的其他事

1. 什么叫真正的“大消费品牌”  
  在着手做 Codex 之前,我其实没完全体会过。所有指标都围绕“pro subs”(付费订阅用户)来衡量。哪怕是 Codex 这种看起来偏团队/开发者的产品,我们仍把 onboarding 先当成个人场景来设计。这跟我在 B2B / 企业级产品的思维完全相反:上线第一天,只要开关一拨,流量就铺天盖地。

2. 大模型训练的全景视角  
  从“实验”到“工程”是一条连续光谱。  
  • 实验阶段:先用小规模跑想法,调算法、调数据配比,再反复看指标。  
  • 工程阶段:当实验结果不错,就把它塞进更大的训练 run。此时工作更像巨型分布式系统工程,会冒出各种边缘 case,你得自己 debug。

3. GPU 算力“粗算”法  
  Codex 上线前,我第一次真正做 GPU 负载预估。关键不是自下而上算 GPU 峰值,而是先定延迟目标(总延迟、token 数、首 token 时间),再反推需要多少卡。每迭代一次模型,负载模型都可能天翻地覆。

4. 在超大 Python 代码库里生存  
  Segment 是微服务架构,主力语言是 Golang + TypeScript,代码广度远不及 OpenAI。在这里,我学会按“开发者人头”来扩展代码库:  
  • 默认能跑(works by default)  
  • 主干干净(keep master clean)  
  • 难以误用(hard to misuse)  
  为此得加大量护栏:静态检查、强制测试、文档模板、一键脚手架……全是血与泪的教训。


发布 Codex

我在 OpenAI 的最后三个月,几乎都在忙 Codex 的上线。那无疑是我职业生涯的高光时刻之一。

先交代背景:2024 年 11 月,OpenAI 把“在 2025 年推出一款编程智能体”设为年度目标。到了 2025 年 2 月,我们内部已经有一些小工具把模型用得风生水起,再加上市面上的“氛围编程(vibe-coding)”工具井喷,公司明显感到必须尽快推出面向编程场景的专用智能体。

我提前结束陪产假,回来参加 Codex 的发布。复工第一周,两支团队进行了一场略带混乱的合并,随后便是“疯狂冲刺”。从第一行代码到最终上线,整个产品只用了 7 周。

Codex 冲刺是我近十年里最拼命的一段经历:几乎天天晚上干到 11、12 点;清晨 5:30 被新生儿叫醒;7 点又出现在办公室;大多数周末也在加班。团队里每个人都拼尽全力,因为每个星期都至关重要——那种节奏让我仿佛回到 YC 时期。

如此体量的一家公司,能在 7 周内把一个新想法变成全面开放的产品,这种速度怎么说都不夸张。而且 Codex 的范围一点也不小:我们搭了一套容器运行时、优化了仓库下载、为代码编辑专门微调了模型、处理了各种 Git 操作、上线了一块全新的交互界面、开放了联网能力,最终交付的体验也广受好评。  

不管外界如何评价,OpenAI 依然保留着那股“说干就干”的发射精神。

幸运的是,对的人凑在一起就能创造奇迹。核心团队约 8 名资深工程师、4 名研究员、2 名设计师、2 名 GTM(Go-To-Market)以及 1 名产品经理。没有这批人,我们大概率会失败——大家几乎不需要被指挥,却需要恰到好处的协同。如果你有机会和 Codex 团队的任何人共事,放心,他们个个都出色到令人惊叹。


上线前夜,我们五个人熬到凌晨四点才把主单体服务部署完(整个过程要几个小时)。随后回家打个盹,八点又回到办公室参加发布直播。我们打开灰度开关,眼看着流量瞬间灌进来——只是出现在 ChatGPT 左侧边栏,就能立刻带来如此激增,这就是 ChatGPT 的威力。

在产品形态上,我们最终选择了完全异步的方案。与当时的 Cursor(现已支持类似模式)或 Claude Code 不同,Codex 允许用户把任务丢给智能体,让它在独立环境里慢慢跑。我们的长期赌注是:最终用户会像对待同事一样用编程智能体——发消息给它,它花几分钟甚至几十分钟干活,然后带着 PR 回来交差。

这是一场赌博:模型现在“够好,但不够好”——能连续工作几分钟,却撑不了几小时;用户对模型的信任度天差地别;我们甚至不清楚模型的真正天花板在哪。

把时间线拉长,我相信大多数编程工作都会像 Codex 那样异步协作。眼下,就看各家产品如何演进。

Codex(或许不出意料)在大型代码库里表现极佳,尤其擅长导航。相比其他工具,它的最大差异化是能一次性并发启动多个任务,再让用户比较结果。

最近有公开数据对比各家 LLM 智能体生成的 PR 数量:Codex 已产出 63 万条 PR,平均到每位工程师是 5.3 天内 7.8 万条公开 PR(私下 PR 的倍数你自行脑补)。这辈子我还没做过如此立竿见影的项目。


临别感言

说实话,最初决定加入 OpenAI 时,我内心是忐忑的:担心失去自由,担心要听老板指挥,担心自己变成庞大机器里的一颗小螺丝。所以入职后我刻意保持低调,万一不合适还能悄悄退场。

我当时给自己定了三个目标:
1. 建立对模型训练和能力走向的直觉;  
2. 与一群优秀的人共事并向他们学习;  
3. 亲手把一款出色的产品推向市场。

回顾这一年,我发现这是我做过最正确的决定之一——很难想象还有哪里能让我学到这么多。

如果你也是创业者,却觉得自己的初创公司迟迟看不到起色,要么 1) 狠狠地重新审视如何增加“射门次数”,要么 2) 直接加入某家顶级实验室。当下既是“动手建造”的黄金时代,也是“窥见未来”的黄金时代。

在我看来,通往 AGI 的赛道现在是三足鼎立:OpenAI、Anthropic、Google。三家公司的 DNA 各不相同(消费级、B2B、基础设施+数据),因此也会走出三条迥异的路。无论加入哪一家,都会是一段大开眼界的经历。


© THE END 


每当有高层离职,人们总喜欢脑补宫斗大戏,但我认为其中约 70% 的原因其实很简单:高速扩张带来的岗位与个人期望错位而已。

我确实感觉到公司正处在一个小拐点:近期从外部引进了一批资深高管。我总体赞成这种做法——新鲜血液能让组织更健康。

我的体会是,把史上增速最快的消费级产品做大规模,确实能把团队练出“肌肉记忆”。

当然,我们之所以能 7 周上线,也是因为站在巨人的肩膀上:CaaS 团队、核心 RL 团队、人工数据团队,以及整个应用基础设施团队,才让这一切成为可能。

而且我们还在继续迭代。

几周前 Meta 也挖去了几位重量级人物;xAI 刚发布的 Grok 4 在基准测试上表现亮眼;Mira 和 Ilya 也各自聚拢了顶尖人才——也许格局会变(毕竟人确实厉害),但他们还需要时间追赶。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询