微信扫码
添加专属顾问
我要投稿
经过上次Sam预告后
2024年9月12 OpenAI推出 OpenAI o1系列模型
★OpenAI o1 trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
为了突出对 GPT-4o 的推理提升,我们在各种人类测试和 ML 基准测试中测试了我们的模型。我们表明,在绝大多数这些推理密集型任务中,o1 的性能明显优于 GPT-4o。
目前在 ChatGPT 和 API 中发布了OpenAI o1系列的第一个preview版本,后续会继续更新和改进。
大型语言模型(如 o1)是在大型文本数据集上进行预训练的。虽然这些高容量模型具有广泛的世界知识,但对于实际应用程序来说,它们可能成本高昂且速度缓慢。
o1-mini 是一个较小的模型,针对预训练期间的 STEM 推理进行了优化。在使用与 o1 相同的高计算强化学习 (RL) 管道进行训练后,o1-mini 在许多有用的推理任务上实现了相当的性能,同时显著提高了成本效益。
在需要智能和推理的基准测试中进行评估时,与 o1-preview 和 o1 相比,o1-mini 表现良好。但是,o1-mini 在需要非 STEM 事实知识的任务上表现较差
从目前的观察来看,OpenAI有点苹果化,不同于刚开始在AI领域大刀阔斧的前进,近期发布的产品仍然低于预期,但是不可否认,目前GPT4系列的效果仍然超越同类其他产品。
但是OpenAI o1的发布,说明在探索推理方面可能开创一种新的范式,引导模型“System II thinking”
目前能看到的推测讨论都不太站得住,期待能看到更多的效果测评。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-31
Ollama 发布桌面客户端,能让用户轻松管理 Ollama 模型,无需依赖复杂的命令行操作
2025-07-31
别再乱选了!Dify、Coze 与 n8n 的真实差距,多数人没看透
2025-07-31
Coze开源,能否挑战LangChain主导地位?
2025-07-31
扣子开源,三天揽获1.5W GitHub Star
2025-07-31
官方AMA:扣子为什么要开源?
2025-07-31
Coze开源文档资料清单
2025-07-31
手把手教你本地部署!京东JoyAgent全攻略:从零拥有一个企业级的AI Agent
2025-07-31
扣子罗盘(Coze Loop)开源版本地部署,构建一站式AI Agent调试、评估、监控平台
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-07-14
2025-07-12
2025-07-27
2025-05-29
2025-05-12
2025-05-14
2025-07-31
2025-07-31
2025-07-31
2025-07-30
2025-07-30
2025-07-30
2025-07-29
2025-07-29