微信扫码
添加专属顾问
我要投稿
在这篇公众号发出的时候
GPT-4o mini 发布了
性能上,比 GPT4-0125 更好
(基于 LMSYS 竞技场信息)
GPT-4o mini 优于 GPT4-0125
价格上,比 3.5 还便宜 60%
4o mini 输入:$0.15
4o mini 输出:$0.6
堪称不讲武德
目前,GPT-4o mini 以 API 的方式发布
支持图片和文字,最长 128k
后续也会支持支持视频和音频
训练截数据截止到 2023 年 10 月
并对非英文更加友好
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,超过了市场上先前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 得分为 56.1%,Claude Haiku 得分为 50.2%。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-18
企业智能体的下半场,如何让智能体越用越聪明?
2026-06-18
你的 Harness 工作流真的在进步吗?我们用一场考试撕掉了遮羞布
2026-06-18
Agent 记忆,我们全都理解错了?
2026-06-18
多 Agent 并行与 Headless 模式:让 Claude Code 效率翻 10 倍
2026-06-17
拆解大模型几项核心操作背后的数学与 Infra 优化逻辑
2026-06-17
更可靠的主播助理:淘宝主播Agent的Harness工程实战
2026-06-16
Business Insider:揭秘 Cursor 的疯狂崛起
2026-06-15
如何搭建一个端到端业务需求专家 Agent
2026-04-15
2026-04-07
2026-04-07
2026-03-31
2026-03-21
2026-04-24
2026-04-17
2026-03-31
2026-03-20
2026-04-05
2026-06-18
2026-06-18
2026-06-10
2026-06-10
2026-06-10
2026-06-07
2026-06-06
2026-06-03