我要投稿

OpenAI终于Open了，虽然迟到，但是抓住了“开源模型”最大痛点

发布日期：2025-08-06 08:46:13 浏览次数： 2163

作者：数字游牧日常

微信搜一搜，关注“数字游牧日常”

从七月底开始，市场对OpenAI期待最大的GPT-5一直是“只听楼梯响，不见人下来”的状态。然后是各种“剧透”到处飞，有说很强大的，有说提升有限的，反正很快就会来了，效果如何，到时候就知道了。

一直知道的是OpenAI这段时间的模型发布，会有两个，其中一个是GPT-5，另一个就是开放权重模型（大家喜欢叫“开源模型”），昨晚，没等到GPT-5，但是开放权重模型gpt-oss来了。

两个模型，都是MoE，分别是gpt-oss-120B和gpt-oss-20B（激活参数分别为5.13B和3.61B，这个差距不很大，最大的区别在专家数量，128比上32）。

相对于一堆OpenAI自己的模型能力评分（号称超越o3-mini，接近o4-mini），听听就可以了。

真正的亮点是：使用了MXFP4精度，这不仅是为了节省训练成本，更是为了方便本地部署。

120B模型只需要一张H100，20B可以在消费显卡跑的很流畅，对了，都是原生模型，而不需要蒸馏或者再量化。

今天有别的事情要做，所以没办法快速抽出时间来进行测试。但是在X上，Groq（推理硬件和服务的）刚公布了120B模型的推理速度是500tokens/s，而一些人已经发了使用Ollama在4090卡上跑20B模型的视频，目测一下在30-40tokens/s。

对OpenAI至少可以有一点信心，拥有最好前沿模型之一（其实o3，o4系列能力确实很全面，经常用会有这个体会）的OpenAI，用几乎同样的数据（gpt-4o筛选过的预训练数据，o3，o4强化学习过程中差不多的后数据），训练出的开放权重模型，几乎是最可以被信任的同类模型。

有思考能力，OpenAI体系下的工具调用，多语言能力，欠缺的只是多模态能力。不过真的需要在本地跑一个不上不下的多模态吗？

当然，除去模型能力不谈，其实，虽然DeepSeek的R1掀起了“开源模型”的一轮高潮，但是现实也非常残酷：过高的硬件需求，过多的性能优化“know-how”，让“本地”只能停留在demo阶段。对于如今大量的代码生成和搜索需求而言，即使20个tokens/s的速度，大概也就是刚刚勉强可以使用的水平。

GPT-OSS系列模型打在了最大的“痛点”上：部署门槛和性能。

我们已经可以看到hugging-face，ollama上快速蹿升的热度了。未来一段时间，不出意外，这几乎会成为大家唯一的选择（心疼前段时间纷纷发布了“开源模型”的公司们几秒钟）。

最后总结一下：MoE模型；MXFP4精度；120B和20B两个模型（刚去huggingface上看了一下，120B的权重文件大小是64GB不到，意味着一张80GB显存的H100可以跑的非常轻松，H800和H20当然也很ok）；介于o3-mini和o4-mini间的能力；Agentic和工具调用能力；纯文本，多语言。

更多的更新，需要这周晚一点部署完了以后再说了，时间不是耗费在部署上，而是为了调用原生工具改现成代码上。

对了，Anthropic也来凑了个热闹，突然发了“Claude-4.1 Opus”。我试了一下，比如上面的gpt-oss的slides就是它做的，完整版本12页，我截了其中一页：

审美比Claude-4.0有提高，而且还加入了苹果最新的“液态玻璃”效果。这不是我说的，是Claude-4.1自己说的，有图有真相。