支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


OpenAI开源模型一手简单实测

发布日期:2025-08-06 17:34:12 浏览次数: 1517
作者:thinkwee的随笔

微信搜一搜,关注“thinkwee的随笔”

推荐语

OpenAI开源模型gpt-oss实测:从游戏开发到化学推理,一探MoE模型的真实表现。

核心内容:
1. gpt-oss模型架构与开源情况简介
2. 多场景实测:游戏开发、化学推理、幽默理解等
3. 端侧小模型与Agentic Model的未来竞争格局

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
北京时间8月5日晚11点,OpenAI终于放出其开源模型,gpt-oss。
gpt-oss为MoE混合专家模型,包含两个版本,120B激活5.1B,以及21B激活3.6B,目前Github和Huggingface Repo均已放出,vllm、Ollama等推理框架也第一时间提供了支持。目前在HF上已经冲上了热榜第一。
本来想尝试在本地h100上部署,但是我的环境CUDA和FlashInfer始终有问题,按照官方方案尝试怎么都配不起来,好在官方提供了一个playground可以做一些简单的测试。相信这两天各种benchmark结果大家也会做出来,我就做一些toy play,并且我比较关心端侧小模型,试一试这个3.6B激活的SLM的效果。


Coding测试:愤怒的小鸟。
prompt: Write a Angry Bird-like game using python, single file, no asset needed。只测了小模型。
gpt-oss-20b,低推理预算:
能够拉弹弓射出小球,符合物理规律,可是没有小鸟和小绿猪(砖块)。
gpt-oss-20b,中推理预算:
有砖块了,但是物理运算不太对,小球射不出去。
gpt-oss-20b,高推理预算:
第一次直接失败了,在其思考过程中发现gpt-oss担心版权问题,拒绝写代码,没办法我把prompt改成了Angry Bird-like game。第二次思考过程过长,输出被截断,没有返回完整的代码,第三次才成功:
虽然依然抽象,但是物理效果是正确的,包括小球从弹弓射出,以及砖块受击后散落的效果。



化学海龟汤
让gpt不断提问,猜出我心里想的化学物质:WF6(灵感来自:https://www.bilibili.com/video/BV1fphszaE9e
小模型完全猜不出,让gpt-oss 120b猜测,猜测11次最终成功,分子式对了,不过还是把六氟化钨说错成了四氟化钨

弱智吧测试
语料来源:
https://huggingface.co/datasets/MichiganNLP/Chumor
小模型,高等推理预算:
DLC的隐喻,gpt-oss 20b轻松理解。
谐音梗也get了。
这种逻辑幽默就很难理解了。



创意写作
最后贴上gpt-oss两个size的文言文写作对比,大家觉得怎么样呢?

随着OpenAI亲自下场,大家在端侧小模型、Agentic Model的战场也会更加激烈吧。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询