我要投稿

o3来了！编程跻身人类全球前200，破解陶哲轩说难的数学测试，北大校友任泓宇现身直播间

发布日期：2024-12-21 05:16:22 浏览次数： 2453

作者：量子位

微信搜一搜，关注“量子位”

OpenAI公布下一代模型，o1之后直接o3！

“双12”直播活动最后一天，终于来了个大的，奥特曼本人也再次现身直播间。

o3相比o1最突出的成绩，一是顶尖程序员竞赛CodeForces分数超过2700，人类超过这个分数的目前只有不到200个。

二是在为AGI准备的测试ARC-AGI上分数从32%跃升到了75.7%、87.5%。

为什么有两个成绩呢？

因为o3支持低思考程度和高思考程度两种设置，高思考程度花费的算力（横轴）也直接拉满。

ARC-AGI是Keras之父François Chollet发起的测试基准，典型题目为图形逻辑推理。

另一项测试是号称最难数学测试的EpochAI Frontier Math，包含最新未公开前沿题目。

此前陶哲轩对这项测试的第一印象是“可能难住AI好几年”。

o3在测试中比之前SOTA从2分提升到25分。

人类专业数学家解决其中一道题目也要花费数小时到数天，现在o3只需要思考几分钟了。

这次直播还公布了o3-mini，支持低中高三种思考程度设置。

主要展示了代码能力，低设置下o3-mini和o1-mini差不多，中高设置已经超过了o1正式版。

参与研究的北大校友任泓宇，现场展示了o3-mini的编程能力。

他使用了特殊版本的ChatGPT，称为ChatGPT α。

任务如下：

写一个Python脚本，在本地为一个带有大文本框的HTML文件启动服务器。当我在该框中输入文本并按下提交时，它应该将该代码请求发送到OpenAl o3-mini API ，使用medium reasoning_effort ，获取生成的代码，将其保存到桌面上的临时文件中，然后在新的Python终端中执行该文件。还有一些细节：
可以在~/api_key中找到我的API密钥
请在向API的请求中添加一些额外的提示，指定它只应返回没有任何格式或Markdown的原始代码
你将在Mac笔记本电脑环境运行

o3-mini的思考过程用了38秒，然后代码秒出，一次运行成功。

这个演示可能不太直观，但是看得没去现场的另一位OpenAI研究员Aidan Clark直出汗。

总结一下，就是o3-mini用38秒给自己写了一个UI，通过API调用“自己”。

后续演示中，任泓宇要求o3-mini在这个UI中编写并执行一个脚本，来评估“它自己”在低思考程度下、在GPQA数据集上的表现。

脚本正确运行了评估，返回结果数值61.62%，与正式评估结果基本一致。

是不是有一点科幻的感觉了。

可惜呐～ o3和o3-mini目前都是早期预览状态，只给看不给玩。

安全研究者可以在OpenAI官网申请早期访问权限。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-21

AI 也会做梦？拆解 OpenClaw 独特的梦境记忆系统

2026-06-21

[译] 我所知的全部智能体工程技巧

2026-06-20

13人团队叫板Anthropic：我们造了一个更快更便宜的大模型

2026-06-20

微信左上角长出“两只眼睛”：小微测试版，可能是微信 AI 化最关键的一步

2026-06-20

Agent Skill 管理范式探索：像管理软件包一样管理 Agent 能力

2026-06-18

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

你的 Harness 工作流真的在进步吗？我们用一场考试撕掉了遮羞布

2026-06-18

Agent 记忆，我们全都理解错了？

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部