我要投稿

一个 OpenAI 内部人的亲历速记

发布日期：2025-08-12 08:08:15 浏览次数： 2027

作者：WhaleThinking

微信搜一搜，关注“WhaleThinking”

如果你关心 AI，却只在新闻标题里见过 OpenAI，那么这篇内部人的“第一视角速记”是一份稀缺资料。作者用 7 周时间把 Codex 从 0 推到 63 万条 PR，亲历了模型、工程、产品、公关、GPU 账单与凌晨四点的部署现场。他写下的不是 PR 通稿，而是：
• 一家 12 个月人数翻三倍的“火箭公司”如何保持 YC 式冲刺
• 3000 人共用 Slack、不发邮件、Twitter 氛围驱动的真实工作流
• 大模型训练从“做实验”到“跑大集群”的完整光谱
• 安全团队到底在防什么——从仇恨言论到生化武器
• 以及一条给所有创业者的建议：如果觉得自己的项目停滞不前，现在就去大实验室“读未来”

文章没有机密，却足够坦诚；没有宏大叙事，却处处是肌肉记忆的细节。

《对 OpenAI 的反思》

作者：Calvin French-Owen

发布时间：2025 年 7 月 15 日

三周前，我离开了 OpenAI。我是在 2024 年 5 月加入这家公司的。

之所以想分享这些想法，是因为外界关于 OpenAI 在做什么的讨论充斥着迷雾与喧嚣，却鲜有人能真正从内部视角描述那里的文化究竟是何感受。

Nabeel Qureshi 写过一篇很棒的文章，题为《对 Palantir 的反思》，他在其中深入思考了是什么让 Palantir 如此特别。趁着记忆尚新，我也想为 OpenAI 写一篇类似的文章。本文不会涉及任何商业机密，更多的是我对这家历史上最引人入胜的组织，在当下这个极不平凡时期的一些个人观察。

开门见山地说：我离开的决定背后没有任何个人恩怨——事实上，我对此非常纠结。从一个自己创业公司的创始人，转变为一家 3000 人规模大公司里的员工，这种身份转换并不容易。此刻，我渴望一个全新的开始。

工作的质量完全有可能把我再吸引回去。很难想象还有什么比构建通用人工智能（AGI）更具影响力，而大语言模型（LLM）无疑是这十年来最重要的技术创新。我很幸运能够亲眼见证其中一些进展，并参与了 Codex 的发布。

当然，这些只是我个人的观察和观点，并不代表公司立场。OpenAI 是一个庞大的地方，这只是我透过小窗窥见的一角。

文化

首先要了解的是 OpenAI 的扩张速度。我刚加入时，公司才 1000 来人；一年后，人数已超过 3000，而我已经属于资历前 30% 的员工。几乎所有高层如今做的都是与两三年前截然不同的工作。

当规模扩张如此迅猛时，一切流程都会被撕扯得七零八落：公司级沟通、汇报架构、产品交付、人员管理、招聘机制……不同团队的文化差异也极大：有的团队永远在全速冲刺，有的团队在“照看”大规模实验，有的团队则节奏稳健。并不存在一种统一的“OpenAI 体验”，研究、应用、GTM（走向市场）三大板块的工作节奏也完全不同。

OpenAI 的一个特别之处在于：所有事情——我是说“所有”——都跑在 Slack 上。没有电子邮件。我在那里的全部时间里，大概只收到过十来封邮件。如果你不擅长整理频道和通知，会被吵得找不到北；但如果你把频道和通知打理好，其实也能运转得相当顺畅。

OpenAI 极度“自下而上”，尤其体现在研究部门。我刚到时，曾询问下一个季度的路线图，得到的回答是：“路线图不存在”（不过现在有了）。好点子可以来自任何地方，事先很难判断哪些想法会结出最大果实。这里没有宏大的“总计划”，进步更像是一次次迭代：随着新研究结果出炉，方向才被逐渐揭开。

正因为这种自下而上的文化，OpenAI 也极具精英色彩。历史上，公司提拔领导主要看两点：能否持续提出好想法，以及能否把想法落地。很多能力极强的领导者其实并不擅长在全员大会演讲，也不爱搞政治手腕，但在 OpenAI，这些并不重要。最好的想法往往真的能赢。

公司还有强烈的“动手先做”倾向（你可以直接开干）。不同但相似的团队撞车并不稀奇。我最初参与了一个与 ChatGPT Connectors 类似、但仅供内部使用的项目；在最终决定要推进公开发布前，差不多同时有 3～4 个 Codex 原型在并行。这些原型往往由两三个人“先斩后奏”地启动，一旦显出潜力，团队便迅速聚拢。

Andrey（Codex 项目负责人）常跟我说，要把每个研究员都看作“迷你 CEO”。大家都强烈倾向于先干自己的项目，看它能走到哪一步。由此衍生出一个现象——大多数研究其实是通过“用难题勾住极客”来推进的。如果某个问题被认为枯燥或“已经解决”，大概率就没人碰。

因此，优秀的研究经理影响力巨大，却又极度稀缺。最顶尖的那些人能把多条研究线串成一条更大的模型训练蓝图。出色的产品经理同样如此（ae，特别向你致敬）。

我合作过的 ChatGPT 工程经理（Akshay、Rizzo、Sulman）是我见过最冷静的一群人，真的像什么都见过似的。他们大多放手让团队自转，但会确保招到对的人，并为其铺好成功之路。

OpenAI 可以在瞬间掉头。我们在 Segment 时就很看重这一点——与其死守既定计划，不如依据最新信息做正确的事。令人惊讶的是，规模已如此庞大的 OpenAI 仍保持这种气质——Google 显然做不到。公司决策极快，一旦决定押注某个方向，就会全力投入。

外界对 OpenAI 的审视也异常严苛。从 B2B 企业背景跳进来，这一点让我震惊：我经常看到媒体抢先爆料，内部员工却还没收到官方通知。只要我说自己在 OpenAI 工作，对方往往已经带着既定看法。一些 Twitter 用户甚至跑起自动机器人，专门监控新功能上线。

因此，OpenAI 内部极度保密。我几乎不能向任何人透露自己在做什么。Slack 被拆成多个权限不同的工作区；营收和烧钱数字更是被严加看管。

OpenAI 也比想象中更“严肃”，因为赌注实在太高。一方面，目标是打造 AGI，容不得半点马虎；另一方面，产品被数亿人用来求医、做心理咨询；再一方面，公司正身处全球竞争最激烈的战场。我们密切关注 Meta、Google、Anthropic 的动态——我敢肯定他们也在做同样的事。全球主要政府都紧盯这个领域。

尽管媒体常把 OpenAI 描绘得不堪，我遇到的每一个人其实都在努力做正确的事。由于面向消费者，它是几家大实验室里最显眼的一个，也因此招来了最多的诋毁。

不过，你最好不要把 OpenAI 当成一个单一的整体。我更愿意把它想象成当年洛斯阿拉莫斯那样的组织：一群科学家和极客在科学最前沿摸索，却意外孕育出史上传播最快的消费级应用，随后又迅速膨胀，开始瞄准政府和企业的生意。不同资历、不同部门的员工，因此拥有截然不同的目标与视角。待得越久，越可能用“研究实验室”或“非营利造福人类”的滤镜来看世界。

我最欣赏的是，这家公司确实“说到做到”，把 AI 的好处真正开放给大众。最前沿的模型不会锁在某个年框合同的企业高阶套餐里，世界上任何人都能直接打开 ChatGPT 提问，甚至无需登录；注册一个 API 就能调用模型，而且大多数模型（哪怕是当前最尖端或专有的）很快就会放进 API，供创业公司使用。你完全可以想象另一种截然不同的世界格局。在这一点上，OpenAI 绝对值得大书特书，而且至今仍是公司的核心基因。

安全工作的分量，比你在 Zvi 或 LessWrong 上读到的要重得多。有一大群人在专门做安全系统。由于 OpenAI 的性质，我看到的更多是对“实战级”风险的关注——仇恨言论、滥用、操控政治偏见、制造生化武器、自残、提示注入——而不是“理论级”风险——智能爆炸、权力寻求。这并不是说没人研究后者，确实有人在专注理论风险，但从我的角度看，那不是主流。大量成果并未公开发表，OpenAI 真的应该更积极地把它分享出来。

和那些在招聘会随手发周边的公司不同，OpenAI 几乎不发纪念品（连新员工也别想）。取而代之的是“限量掉落”——你可以在指定时段下单库存商品。第一次掉落直接把 Shopify 挤垮，需求之大可见一斑。后来有一篇内部热帖教大家如何手动 POST JSON 载荷，绕过崩溃的页面抢购。

几乎所有开销，跟 GPU 成本一比都成了四舍五入的零头。举个例子：Codex 产品里一个很小众的功能，其 GPU 账单就抵得上我们整条 Segment 基础设施（虽然规模远小于 ChatGPT，但也承载了可观的互联网流量）。

OpenAI 大概是我见过最“吓人”的野心集合体。你以为手握全球顶流消费应用就够了？他们还想在几十个战场同时开火：API 产品、深度研究、硬件、编程智能体、图像生成，以及若干尚未公布的领域。在这里，任何一个点子都可能被迅速放大并全力冲刺。

公司对 Twitter 的动向极其敏感。如果你发了一条与 OpenAI 有关、且被疯转的推文，大概率会有人看到，并把它纳入考量。我有个朋友打趣说：“这家公司其实运行在 Twitter 的氛围里。”作为一家直面消费者的企业，这话也不算夸张。当然，使用量、用户增长、留存率等数据依旧被严密追踪，但“氛围”同样举足轻重。

在 OpenAI，团队的边界远比别处模糊。Codex 上线前，我们需要几位经验丰富的 ChatGPT 工程师帮忙才能赶上发布节点。我们和 ChatGPT 的几位工程经理一说，第二天就来了两位高手直接开干。没有“等季度规划”“重新调配人头”这些流程，说干就干。

领导层的存在感极强，参与度极高。这在 OpenAI 这样的公司或许理所当然，但确实每位高管都时刻在线：gdb、sama、kw、mark、dane 等人经常在 Slack 里直接插话。这里没有“甩手掌柜式”的领导。

代码

OpenAI 使用一个巨型单体仓库（monorepo），代码以 Python 为主（但 Rust 服务在增多，Golang 服务也零星出现，主要做网络代理）。这导致代码风格五花八门：既有 Google 十年老兵写的可扩展库，也有刚拿到博士学位的同事随手丢进来的 Jupyter 笔记本。几乎所有接口都用 FastAPI 暴露，数据校验全靠 Pydantic，但公司层面并没有强制统一的代码风格指南。

公司全部跑在 Azure 上。有趣的是，真正被信任的 Azure 服务只有三个：AKS（托管 Kubernetes）、CosmosDB（文档存储）和 BlobStore。像 Dynamo、Spanner、Bigtable、BigQuery、Kinesis、Aurora 这类“云原生”神器在 Azure 里找不到对应物。自动扩缩容的概念用得不多，IAM 也比 AWS 简陋得多，于是大家更倾向于自己造轮子。

在人员侧（至少工程团队），Meta → OpenAI 的人才管道非常粗。OpenAI 在很多方面像早期的 Meta：手握爆款消费级 App、基础设施刚起步、追求极致速度。从 Meta 和 Instagram 挖过来的 infra 工程师普遍水准极高。

把上述几点拼起来，你会发现不少核心基础设施都带着“Meta 味”：有人重写了 TAO，有人在做边缘统一身份认证，肯定还有更多我没听过的轮子。

“对话（chat）”概念深植代码。自从 ChatGPT 爆火后，大量代码结构都围绕聊天消息与会话这两个原语展开，它们已被“烘”得极硬，忽视它们多半会踩坑。Codex 项目稍微偏离了这一范式（更多借鉴了 responses API 的经验），但仍复用了不少前人成果。

代码说了算。没有中央架构委员会，谁来干活谁来拍板。结果就是“先动手再讨论”的氛围浓厚，代码库里常见重复轮子：光我见到的队列管理或 Agent loop 实现就有半打。

快速扩张的工程师队伍 + 欠缺工具 = 一些痛点。sa-server（后端单体）成了垃圾场；主干 CI 的挂掉频率比想象高；即便并行跑、只选部分依赖，GPU 上的测试仍需约 30 分钟。这些问题并非无解，只是提醒你：哪里都会遇到，且规模越大越痛。值得表扬的是，内部团队正投入大量精力把这套流程打磨得更好。

我学到的其他事

1. 什么叫真正的“大消费品牌”
在着手做 Codex 之前，我其实没完全体会过。所有指标都围绕“pro subs”（付费订阅用户）来衡量。哪怕是 Codex 这种看起来偏团队/开发者的产品，我们仍把 onboarding 先当成个人场景来设计。这跟我在 B2B / 企业级产品的思维完全相反：上线第一天，只要开关一拨，流量就铺天盖地。

2. 大模型训练的全景视角
从“实验”到“工程”是一条连续光谱。
• 实验阶段：先用小规模跑想法，调算法、调数据配比，再反复看指标。
• 工程阶段：当实验结果不错，就把它塞进更大的训练 run。此时工作更像巨型分布式系统工程，会冒出各种边缘 case，你得自己 debug。

3. GPU 算力“粗算”法
Codex 上线前，我第一次真正做 GPU 负载预估。关键不是自下而上算 GPU 峰值，而是先定延迟目标（总延迟、token 数、首 token 时间），再反推需要多少卡。每迭代一次模型，负载模型都可能天翻地覆。

4. 在超大 Python 代码库里生存
Segment 是微服务架构，主力语言是 Golang + TypeScript，代码广度远不及 OpenAI。在这里，我学会按“开发者人头”来扩展代码库：
• 默认能跑（works by default）
• 主干干净（keep master clean）
• 难以误用（hard to misuse）
为此得加大量护栏：静态检查、强制测试、文档模板、一键脚手架……全是血与泪的教训。

发布 Codex

我在 OpenAI 的最后三个月，几乎都在忙 Codex 的上线。那无疑是我职业生涯的高光时刻之一。

先交代背景：2024 年 11 月，OpenAI 把“在 2025 年推出一款编程智能体”设为年度目标。到了 2025 年 2 月，我们内部已经有一些小工具把模型用得风生水起，再加上市面上的“氛围编程（vibe-coding）”工具井喷，公司明显感到必须尽快推出面向编程场景的专用智能体。

我提前结束陪产假，回来参加 Codex 的发布。复工第一周，两支团队进行了一场略带混乱的合并，随后便是“疯狂冲刺”。从第一行代码到最终上线，整个产品只用了 7 周。

Codex 冲刺是我近十年里最拼命的一段经历：几乎天天晚上干到 11、12 点；清晨 5:30 被新生儿叫醒；7 点又出现在办公室；大多数周末也在加班。团队里每个人都拼尽全力，因为每个星期都至关重要——那种节奏让我仿佛回到 YC 时期。

如此体量的一家公司，能在 7 周内把一个新想法变成全面开放的产品，这种速度怎么说都不夸张。而且 Codex 的范围一点也不小：我们搭了一套容器运行时、优化了仓库下载、为代码编辑专门微调了模型、处理了各种 Git 操作、上线了一块全新的交互界面、开放了联网能力，最终交付的体验也广受好评。

不管外界如何评价，OpenAI 依然保留着那股“说干就干”的发射精神。

幸运的是，对的人凑在一起就能创造奇迹。核心团队约 8 名资深工程师、4 名研究员、2 名设计师、2 名 GTM（Go-To-Market）以及 1 名产品经理。没有这批人，我们大概率会失败——大家几乎不需要被指挥，却需要恰到好处的协同。如果你有机会和 Codex 团队的任何人共事，放心，他们个个都出色到令人惊叹。

上线前夜，我们五个人熬到凌晨四点才把主单体服务部署完（整个过程要几个小时）。随后回家打个盹，八点又回到办公室参加发布直播。我们打开灰度开关，眼看着流量瞬间灌进来——只是出现在 ChatGPT 左侧边栏，就能立刻带来如此激增，这就是 ChatGPT 的威力。

在产品形态上，我们最终选择了完全异步的方案。与当时的 Cursor（现已支持类似模式）或 Claude Code 不同，Codex 允许用户把任务丢给智能体，让它在独立环境里慢慢跑。我们的长期赌注是：最终用户会像对待同事一样用编程智能体——发消息给它，它花几分钟甚至几十分钟干活，然后带着 PR 回来交差。

这是一场赌博：模型现在“够好，但不够好”——能连续工作几分钟，却撑不了几小时；用户对模型的信任度天差地别；我们甚至不清楚模型的真正天花板在哪。

把时间线拉长，我相信大多数编程工作都会像 Codex 那样异步协作。眼下，就看各家产品如何演进。

Codex（或许不出意料）在大型代码库里表现极佳，尤其擅长导航。相比其他工具，它的最大差异化是能一次性并发启动多个任务，再让用户比较结果。

最近有公开数据对比各家 LLM 智能体生成的 PR 数量：Codex 已产出 63 万条 PR，平均到每位工程师是 5.3 天内 7.8 万条公开 PR（私下 PR 的倍数你自行脑补）。这辈子我还没做过如此立竿见影的项目。

临别感言

说实话，最初决定加入 OpenAI 时，我内心是忐忑的：担心失去自由，担心要听老板指挥，担心自己变成庞大机器里的一颗小螺丝。所以入职后我刻意保持低调，万一不合适还能悄悄退场。

我当时给自己定了三个目标：
1. 建立对模型训练和能力走向的直觉；
2. 与一群优秀的人共事并向他们学习；
3. 亲手把一款出色的产品推向市场。

回顾这一年，我发现这是我做过最正确的决定之一——很难想象还有哪里能让我学到这么多。

如果你也是创业者，却觉得自己的初创公司迟迟看不到起色，要么 1) 狠狠地重新审视如何增加“射门次数”，要么 2) 直接加入某家顶级实验室。当下既是“动手建造”的黄金时代，也是“窥见未来”的黄金时代。

在我看来，通往 AGI 的赛道现在是三足鼎立：OpenAI、Anthropic、Google。三家公司的 DNA 各不相同（消费级、B2B、基础设施+数据），因此也会走出三条迥异的路。无论加入哪一家，都会是一段大开眼界的经历。

每当有高层离职，人们总喜欢脑补宫斗大戏，但我认为其中约 70% 的原因其实很简单：高速扩张带来的岗位与个人期望错位而已。

我确实感觉到公司正处在一个小拐点：近期从外部引进了一批资深高管。我总体赞成这种做法——新鲜血液能让组织更健康。

我的体会是，把史上增速最快的消费级产品做大规模，确实能把团队练出“肌肉记忆”。

当然，我们之所以能 7 周上线，也是因为站在巨人的肩膀上：CaaS 团队、核心 RL 团队、人工数据团队，以及整个应用基础设施团队，才让这一切成为可能。

而且我们还在继续迭代。

几周前 Meta 也挖去了几位重量级人物；xAI 刚发布的 Grok 4 在基准测试上表现亮眼；Mira 和 Ilya 也各自聚拢了顶尖人才——也许格局会变（毕竟人确实厉害），但他们还需要时间追赶。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业