微信扫码
添加专属顾问
我要投稿
在这篇公众号发出的时候
GPT-4o mini 发布了
性能上,比 GPT4-0125 更好
(基于 LMSYS 竞技场信息)
GPT-4o mini 优于 GPT4-0125
价格上,比 3.5 还便宜 60%
4o mini 输入:$0.15
4o mini 输出:$0.6
堪称不讲武德
目前,GPT-4o mini 以 API 的方式发布
支持图片和文字,最长 128k
后续也会支持支持视频和音频
训练截数据截止到 2023 年 10 月
并对非英文更加友好
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,超过了市场上先前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 得分为 56.1%,Claude Haiku 得分为 50.2%。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-19
百度这件事我跟别人解释了好多次
2026-03-19
马化腾说的养虾,不只是养虾
2026-03-19
Google 再放大招 对着画布说话就能做设计 Figma 股价爆跌8.8%
2026-03-19
深度分析:Agent Harness/框架到底有没有竞争壁垒?
2026-03-19
咨询 | OpenAI、Anthropic纷纷和咨询公司合作的背后,折射除了行业落地AI什么样的趋势?
2026-03-19
大伙都在养虾,MiniMax 带着新模型来偷偷上分了?
2026-03-19
刚刚,被全网猜是DeepSeek V4的神秘大模型,被小米认领了!还能免费“养龙虾”
2026-03-18
试用 Claude 版本的小龙虾方案:Dispatch
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-21
2026-01-09
2026-01-09
2025-12-30
2026-01-23
2026-01-21
2026-03-19
2026-03-19
2026-03-19
2026-03-18
2026-03-17
2026-03-17
2026-03-09
2026-03-08