支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


刚刚,OpenAI开放GPT-4.1,100万上下文、代码能力超强

发布日期:2025-05-15 05:36:17 浏览次数: 1529 作者:AIGC开放社区
推荐语

OpenAI最新GPT-4.1模型开放,性能飞跃,价格更优。

核心内容:
1. GPT-4.1支持100万tokens上下文,大幅提升编码和指令执行能力
2. 长文本理解和推理测试中显著优于前代模型,多语言编码能力翻倍
3. 价格更具竞争力,性能提升同时成本降低26%,Nano版每百万token仅12美分

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

今天凌晨130OpenAI宣布开放GPT-4.1,从今天开始可以在ChatGPT中使用。

GPT-4.1是一款专门针对编码任务和指令执行的模型,推理效率非常高,对于日常编码需求来说,是替代o3o4-mini非常好的选择。

GPT-4.1OpenAI发布的最新模型,其最大亮点之一就是支持100tokens上下文,这也是OpenAI首次发布长窗口模型。

与前代模型相比,GPT-4.1GPT-4.1MiniGPT-4.1Nano能够处理多达100tokens的上下文,是GPT-4o8

OpenAILongContextEvals上对长文本进行了测试,测试结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达100tokens的上下文中,模型依然能够准确地定位目标文本。

OpenAI还在Multi-RoundCoreference进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。

在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。

测试结果显示,GPT-4.1在处理长达128Ktokens的数据时显著优于GPT-4o,并且在长达100tokens的上下文中依然能够保持较高的性能。

在编码能力测试中,SWEBench评估将模型置于Python代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1的准确率达到55%,而GPT-4o仅为33%

在多语言编码能力测试方面,Aderpolyglot基准测试涵盖多种编程语言和不同格式要求。GPT-4.1在差异性能上较GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。

在指令遵循能力测试中,OpenAI构建内部评估体系,模拟API开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1远超GPT-4o

在多模态处理测试的视频MME基准测试中,GPT4.130-60分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。

价格方面,GPT-4.1系列在性能提升的同时,价格更具竞争力。GPT-4.1相比GPT-4o价格降低26%,而GPT-4.1Nano作为最小、最快且最便宜的模型,每百万token的成本仅为12美分。

目前,PlusProTeam用户可以通过模型选择器中的更多模型使用GPT-4.1。企业和教育用户将在接下来的几周内获得访问权限。

OpenAI还在ChatGPT中为所有用户推出GPT-4.1-mini,取代GPT-4o-mini

本文素材来源OpenAI,如有侵权请联系删除

END

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询