微信扫码
添加专属顾问
我要投稿
在这篇公众号发出的时候
GPT-4o mini 发布了
性能上,比 GPT4-0125 更好
(基于 LMSYS 竞技场信息)
GPT-4o mini 优于 GPT4-0125
价格上,比 3.5 还便宜 60%
4o mini 输入:$0.15
4o mini 输出:$0.6
堪称不讲武德
目前,GPT-4o mini 以 API 的方式发布
支持图片和文字,最长 128k
后续也会支持支持视频和音频
训练截数据截止到 2023 年 10 月
并对非英文更加友好
推理任务:GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型,在 MMLU 上得分为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT-4o mini 在数学推理和编码任务方面表现出色,超过了市场上先前的小型模型。在衡量数学推理的 MGSM 上,GPT-4o mini 得分为 87.0%,而 Gemini Flash 为 75.5%,Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 上,GPT-4o mini 得分为 87.2%,而 Gemini Flash 为 71.5%,Claude Haiku 为 75.9%。
多模态推理:GPT-4o mini 在多模态推理评估 MMMU 上也表现出色,得分为 59.4%,而 Gemini Flash 得分为 56.1%,Claude Haiku 得分为 50.2%。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-25
谷歌宣布全面AI化,真的太强了!
2025-05-24
DeepChat 0.2.0 重磅发布:多窗口AI工作台,让智能对话如虎添翼!
2025-05-24
AI Agent:大模型带来的“颠覆”与“后发先至”
2025-05-24
由红杉 AI 峰会闭门会引发的部分思考
2025-05-24
Claude 4 正式发布:Anthropic 新一代模型能力详解+附赠最佳实践指南
2025-05-24
Anthropic新AI旗舰模型Claude 4能力详解:全力拓展AI智能体的能力边界
2025-05-23
大模型 Agent 就是文字艺术吗?
2025-05-23
每位AI工程师都应了解的A2A、MCP与ACP协议
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-05-23
2025-05-23
2025-05-23
2025-05-18
2025-05-18
2025-05-17
2025-05-13
2025-05-13