我要投稿

Gemini 2.5 Pro与Claude 3.7 Sonnet编程性能对比

发布日期：2025-04-06 08:12:37 浏览次数： 3784

作者：李孟聊AI

微信搜一搜，关注“李孟聊AI”

AI领域的语言模型竞赛日趋白热化，尤其在编程辅助方面表现突出。

Gemini 2.5 Pro和Claude 3.7 Sonnet作为该领域的佼佼者，本文通过一系列编程测试与基准评估对两者的编码功能进行对比分析。

核心结论：

• Gemini 2.5 Pro在SWE Bench硬核编程测试中以63.8%的通过率略胜Claude 3.7 Sonnet的62.3%。

• 两款模型在完成不同类型编程任务时各具优势与局限，Gemini 2.5 Pro在生成代码解决方案时往往更精准快速。

• 实际选择需根据项目需求及具体编程任务类型而定。

Gemini 2.5 Pro 概述

尽管发布已有时日，Gemini 2.5 Pro 凭借其升级的推理分析能力持续引发热潮。该功能原本仅限Gemini Advanced订阅用户专享，如今已向大众免费开放。

虽为新秀，Gemini 2.5 Pro 已在部分测试中超越ChatGPT 4等对手（但编程和多轮对话领域除外）。

令人意外的是，在"人类终极考试"测试中，其未启用网络搜索功能的版本竟超越了OpenAI的深度研究模型，创下惊人成绩。

编程挑战测试

为评估Gemini 2.5 Pro与Claude 3.7 Sonnet的编程能力，我们对两款模型进行了系列编码任务测试，结果概要如下：

1. 飞行模拟器

要求：使用JavaScript开发简易飞行模拟器，需包含可从平面跑道起飞的基础飞机模型。飞机运动需通过键盘输入控制（如方向键或WASD键），并需生成类似《我的世界》风格的方块建筑构成基础城市景观。

Gemini 2.5 Pro 的表现：

成功生成了可运行的飞行模拟器代码。生成的代码完全正确，飞机操控流畅，城市景观渲染准确。

const plane = document.createElement('div');
plane.style.position = 'absolute';
plane.style.left = '50%';
plane.style.bottom = '10px';
plane.style.width = '50px';
plane.style.height = '20px';
plane.style.background = 'gray';
document.body.appendChild(plane);


document.addEventListener('keydown', (event) => {
    if (event.key === 'ArrowUp') {
        plane.style.bottom = `${parseInt(plane.style.bottom) + 10}px`;
    }
    if (event.key === 'ArrowDown') {
        plane.style.bottom = `${parseInt(plane.style.bottom) - 10}px`;
    }
});

Claude 3.7 Sonnet 的表现：

生成的示例代码质量堪忧，从糟糕的飞机操控到拙劣的城市渲染都问题重重。即便根据提示进行优化，也未能改善任何问题。

const plane = document.createElement('div');
plane.style.position = 'fixed';
plane.style.left = '45%';
plane.style.bottom = '5%';
plane.style.width = '60px';
plane.style.height = '25px';
plane.style.backgroundColor = 'blue';
document.body.appendChild(plane);


document.addEventListener('keydown', (event) => {
    switch(event.key) {
        case 'w': plane.style.bottom = `${parseInt(plane.style.bottom) + 15}px`; break;
        case 's': plane.style.bottom = `${parseInt(plane.style.bottom) - 15}px`; break;
    }
});

测试结论：在本项测试中，Gemini 2.5 Pro 以更真实精准的解决方案完胜 Claude 3.7 Sonnet。

2. 魔方求解器

题目：编写JavaScript代码来展示并求解3x3魔方。代码需以3D形式展示魔方，并逐步显示解法步骤。

Gemini 2.5 Pro的解决方案：

成功生成了完整代码，准确呈现了3D魔方模型，并展示了正确的解法步骤。

from rubik_solver import utils
cube_state = 'RRRRRRRRRBBBBBBBBBOOOOOOOOOGGGGGGGGGYYYYYYYYYWWWWWWWWW'
solution = utils.solve(cube_state, 'Kociemba')
print(solution)

Claude 3.7 Sonnet的表现：

给出的解答存在错误，不仅颜色显示不正确，也无法正确求解魔方。即便多次补充提示，模型仍无法修正这些错误。

def solve_rubiks_cube():
    moves = ['U', 'R', "L", "B", "F", "D"]
    solution = []
    for i in range(10):
        solution.append(random.choice(moves))
    return solution


print(solve_rubiks_cube())