微信扫码
添加专属顾问
我要投稿
OpenAI 12 天活动的最后一期,主要介绍了新一代推理模型 o3 和 o3-mini。主讲人包括 Sam Altman、Mark Chen、Hongyu Ren 以及特邀嘉宾 ARC Prize Foundation 主席 Greg Kamradt。
主要亮点
1. 新模型发布
发布两个新模型:o3 和 o3-mini
o3 是高性能推理模型,o3-mini 则在保持智能的同时优化了性能和成本
目前仅开放用于公共安全测试,预计一月底推出 o3-mini,随后推出 o3
2. o3 模型性能突破
在软件测试基准 SWE-bench Verified 上准确率达 71.7%,比 o1 提升 20%
在 CodeForce 竞赛编程上达到 2727 ELO 分数
AIME 数学竞赛准确率达 96.7%(o1 为 83.3%)
在博士级科学问题基准 GPQA Diamond 上达到 87.7%
3. o3-mini 特点与优势
4. 安全策略创新
推出"审慎对齐"(Prudent Alignment)新技术
利用模型推理能力提升安全边界判断
显著改善了拒绝基准和过度拒绝指标
开放外部安全测试申请(截止至 1 月 10 日)
重要时间节点
安全测试申请截止:2025 年 1 月 10 日
o3-mini 预计发布:2025 年 1 月底
o3 完整版:将在 o3-mini 之后推出
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-07
为什么同一个模型,在 Claude Code/Codex CLI 里感觉像换了个脑子?
2026-05-07
尝试在Warp里使用claude code
2026-05-07
我用 Claude Code CLI 搭了一套「不丢上下文」的工作流
2026-05-07
Anthropic 上线「做梦」功能,让 Agent 越睡越聪明
2026-05-06
Android CLI 实战指南:借助任意智能体,实现 3 倍速高效开发
2026-05-06
刚刚,GPT-5.5 Instant全员免费!数亿人的ChatGPT变了
2026-05-06
M365 Copilot :App Builder 它不仅是单次代码生成
2026-05-06
GPT-5.5 Instant 来了,但这次重点不是“更强”,而是“更像人”
2026-04-15
2026-03-31
2026-03-13
2026-02-14
2026-03-17
2026-02-09
2026-04-07
2026-03-17
2026-03-21
2026-02-20
2026-05-07
2026-04-26
2026-04-22
2026-04-18
2026-04-13
2026-04-12
2026-04-07
2026-04-01