免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Gemini 3.1 Pro 深夜发布!Google 太吓人了

发布日期:2026-02-20 08:20:29 浏览次数: 1539
作者:叫我姜同学

微信搜一搜,关注“叫我姜同学”

推荐语

Google深夜放大招!Gemini 3.1 Pro推理能力翻倍升级,性能暴涨却维持原价,AI竞赛再掀波澜。

核心内容:
1. 推理能力突破:ARC-AGI-2基准测试得分暴增146%,远超竞品
2. 专业领域强化:科学知识准确率达94.3%,编程能力跻身第一梯队
3. 应用场景升级:实现从文本描述到可执行代码的跨越式突破

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

 

Gemini 3.1 Pro 深夜发布!Google 太吓人了

Google 于昨日(2月19日)正式发布了其最新一代大语言模型 Gemini 3.1 Pro。作为 Gemini 3 系列的升级版本,此次更新主要聚焦于核心推理能力的增强,特别是在处理复杂逻辑、编程任务以及多模态理解方面表现出显著进步。

值得注意的是,尽管性能指标有较大幅度提升,Google 宣布 Gemini 3.1 Pro 的定价将维持与前代 Gemini 3 Pro 一致,这使得该模型在当前的 AI 市场中具备了较高的性价比。

Gemini 3.1 Pro Banner
Gemini 3.1 Pro Banner

核心升级:推理能力的突破

在此次更新中,最引人注目的数据来自 ARC-AGI-2 基准测试。该测试旨在评估人工智能系统处理全新、未知逻辑模式的能力,被认为是衡量通用人工智能(AGI)进展的重要指标之一。

根据 Google 官方及第三方验证的数据显示:

  • • Gemini 3.1 Pro 得分为 77.1%
  • • 相比之下,前代 Gemini 3 Pro 的得分为 31.1%
  • • 目前市场上的主流竞品,如 Claude Opus 4.6 得分为 68.8%,GPT-5.2 为 52.9%。

这一数据的变化表明,Gemini 3.1 Pro 在面对未经过训练的逻辑难题时,其泛化推理能力有了质的飞跃,而不仅仅是依赖记忆训练数据。


专业领域表现:科学与代码

除了通用推理,Gemini 3.1 Pro 在专业领域的知识储备和应用能力上也进行了强化。

1. 科学知识

在 GPQA Diamond 测试中,Gemini 3.1 Pro 取得了 94.3% 的成绩。该测试涵盖了物理、化学、生物等领域的专家级问题,高分意味着模型在处理严谨科学问题时具有更高的准确性和可靠性。

2. 编程与工程

针对软件开发场景,Gemini 3.1 Pro 在 SWE-Bench Verified(真实软件工程问题解决)测试中达到了 80.6% 的解决率。这一成绩与目前编程能力极强的 Claude Opus 4.6 (80.8%) 基本持平,处于行业第一梯队。

此外,在 LiveCodeBench Pro(实时编程竞赛)中,其 Elo 分数从前代的 2439 提升至 2887,显示出在算法竞赛类题目上的解题速度和准确率都有明显提升。

实际应用场景:从文本到执行

Google 在技术报告中展示了 Gemini 3.1 Pro 在实际应用中的几项新能力,强调了模型从“对话”向“执行”的转变。

SVG 动画代码生成
模型能够根据自然语言描述,直接生成可运行的 SVG 动画代码。与传统的视频生成模型不同,代码生成的动画具有矢量特性,文件体积小且可无限缩放,更适合网页开发和 UI 设计场景。

复杂系统可视化
在演示中,模型成功解析了国际空间站(ISS)的公开遥测数据 API,并编写了一个可视化的仪表盘前端,实现了数据的实时展示。这展示了模型在理解技术文档、编写代码以及处理数据流方面的综合能力。

多模态理解
在 MMMU-Pro 基准测试中,Gemini 3.1 Pro 获得了 80.5% 的分数,表明其在理解图表、工程图纸以及视频内容方面具有较强的能力。

定价与开发者生态

对于企业用户和开发者而言,Gemini 3.1 Pro 的定价策略是一个重要的考量因素。Google 此次选择了“加量不加价”的策略:

  • • 输入价格:$2.00 / 100万 tokens(上下文长度 < 200k)
  • • 输出价格:$12.00 / 100万 tokens(上下文长度 < 200k)

这一价格与 Gemini 3 Pro 保持一致。相比之下,性能接近的竞品如 Claude Opus 4.6 的价格通常更高(输入约 25)。

此外,API 功能也进行了多项优化:

  1. 1. 文件上传限制提升:支持最大 100MB 的文件直接上传分析。
  2. 2. 视频理解:支持直接输入 YouTube 视频链接进行内容分析。
  3. 3. Thinking Level 参数:开发者可以通过新增的参数控制模型的推理深度,从而在响应速度、成本和推理质量之间找到平衡。

如何使用

总体而言,Gemini 3.1 Pro 是一次务实且强力的版本更新。它没有追求花哨的新概念,而是扎实地提升了模型最核心的推理和执行能力。

对于需要处理复杂逻辑、科学计算或大规模代码任务的用户来说,Gemini 3.1 Pro 提供了一个性能强大且成本可控的新选择。

目前,该模型已通过 Google AI Studio 和 Vertex AI 向开发者开放预览,普通用户也可通过 Gemini Advanced 订阅服务进行体验

开发者也可通过 Gemini API、Gemini CLI、Antigravity 等体验使用。


推荐阅读:

1.Claude Sonnet 4.6 发布!

2.Claude Opus 4.6 深夜来袭!这里可以免费体验

3.马斯克一键三连的产品Loopit—“一个可以玩的抖音”


 


作者:叫我姜同学

如果您觉得文章还不错,麻烦在点赞、推荐、转发、评论中的任何一个都可。谢谢您的时间,下次见~



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询