免费POC,零成本试错

AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


GPT-5 vs Claude Opus 4.1:编程能力测评

发布日期:2025-08-12 18:12:30 浏览次数: 1524
作者:夕小瑶科技说

微信搜一搜,关注“夕小瑶科技说”

推荐语

GPT-5与Claude Opus 4.1编程能力大PK,实测数据告诉你谁才是开发者的最佳拍档。

核心内容:
1. 算法与网页开发能力对比:GPT-5速度更快、成本更低,Claude设计还原度更高
2. 模型基础信息与token使用效率分析
3. 实际开发场景测试案例与结果解读

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

聊起严肃的编程,Anthropic 的 Claude 几乎是公认的王者,在很多开发者心里都是 No.1 的位置。

但最近,风向似乎有点变了。

OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。

虽然看了很多说 GPT-5 是“编程新王”所谓的噱头和关于 GPT5 的评测,说实话,我还没看到一份有说服力的报告。要么是拿官方的 demo 说事,要么是测了几个美观度还行的 web 网页就说 GPT-5 强。用这些下结论有点草率了吧。

所以,对于 GPT-5 和 Claude 谁更厉害,模型编程 feature 各自擅长什么,好多人和我一样好奇,

今天刷到国外的一位开发者老哥 Rohit 发布了一篇 GPT-5  vs Claude Opus 4.1 编程能力的评测博客,比较实用,这里 share 出来。

首选,评测生成的所有代码都开源了,可以在这个链接查看。

https://github.com/rohittcodes/gpt-5-vs-opus-4-1

先说核心的结论:

  • 算法:GPT‑5 在速度与 token 数量上胜出(8K vs 79K)。
  • 网页开发:Opus 4.1 对 Figma 设计稿的还原度更高,但消耗的 token 量更大(90 万 vs 140 万 + token);

GPT-5 响应更快且成本更低, token 消耗比 Opus 4.1 节省约 90%,更适合作为一个高效的日常开发助手使用;如果你想要设计还原度高,而且预算灵活,Opus 4.1 则更具优势。

再来看模型基础信息与 token 使用效率对比:

上下文窗口:Claude Opus 4.1 支持 20 万 token,上限输出不详;而 GPT‑5 支持 40 万 token 上下文,最大可输出 128K token。

Token 使用效率:尽管 GPT‑5 的上下文空间更大,但在相同任务下它总是使用更少的 token,从而大幅降低运行成本。

虽然在 SWE-bench 等编码基准测试中,GPT‑5 略微领先于 Opus 4.1,但作者后续还实测了一些 case。

测试内容涵盖实际开发常见场景:

  • 编程语言与任务类型

    • 算法题:使用 Java 语言实现 LeetCode Advanced 题目。
    • Web 开发:使用 TypeScript + React,编写基于 Figma 设计的 Next.js 页面,通过 Rube MCP(一种通用 MCP 接入层)进行代码生成。
    • 其他任务:包括客户流失预测模型等业务逻辑实现。
  • 环境:所有任务均在 Cursor IDE 联合 Rube MCP 的环境中完成。

  • 测量指标:token 数量、耗时、代码质量、实际结果。

两个模型使用完全一样的提示词。

Figma 设计稿开发

Rohit 从 Figma 社区找了一个复杂的仪表盘设计,要求它俩用 Next.js 和 TypeScript 把它复刻出来。

提示词如下:

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.

Try to make it as close as possible. Use Next.js with TypeScript. Include:

  • Responsive design

  • Proper component structure

  • Styled-components or CSS modules

  • Interactive elements

两位选手的表现:

GPT-5:

  • 耗时:约 10 分钟
  • Tokens:906,485(90 万 token)

GPT-5 的效率没得说,10 分钟就交卷了,应用也能跑。但成品……怎么说呢,功能完备,但视觉效果一言难尽。它 get 到了设计的框架,却完全忽略了灵魂。颜色、间距、字体都和原稿相去甚远,仿佛开了“低保真”模式。

是一个能干活的工程师,但是不懂审美而且干活很粗糙。

Claude Opus 4.1:

  • 耗时:更长(因为反复迭代)
  • Tokens:超过 140 万 token (比 GPT-5 多了 55%!)

Opus 4.1 上来先耍了点“小脾气”,明明指定了 styled-components,它非要用 Tailwind,需要人工纠正。但当它“认错”并开始工作后,结果令人震惊。

UI 几乎与 Figma 设计稿一模一样! 视觉保真度堪称完美。

一位追求完美的“艺术家”,虽然烧钱又有点犟,但作品无可挑剔。

LeetCode 算法题

为了考验纯粹的逻辑和效率,Rohit 抛出了经典的 LeetCode 难题:“寻找两个正序数组的中位数”,并要求时间复杂度为 O(log(m+n))”。

提示词如下:

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5:

  • 耗时:约 13 秒
  • Tokens:8,253

GPT-5 几乎没有任何废话,13 秒内给出了一个干净利落、完全正确的二分查找解法。代码优雅,效率拉满。

Claude Opus 4.1:

  • 耗时:约 34 秒
  • Tokens:78,920 (接近 GPT-5 的 10 倍!)

Opus 4.1 则完全是另一种画风。它不仅给出了答案,还附上了一篇“小论文”:详细的推理步骤、全面的代码注释,甚至内置了测试用例,生怕你学不会。虽然算法核心是一样的,但它的输出附带了极高的“教育价值”。

想快速要答案,找 GPT-5;想学习解题思路,Opus 4.1 是你最好的老师。

ML 复杂任务

最后一个挑战是构建一个完整的机器学习的 pipeline,预测客户流失。

然而,在见识了 Opus 4.1 在第一轮中惊人的 token 消耗后,Rohit 出于对钱包的尊重,明智地让它“轮休”了。这一局,只有 GPT-5 单挑。

提示词如下:

Build a complete ML pipeline for predicting customer churn, including:

  1. Data preprocessing and cleaning

  2. Feature engineering

  3. Model selection and training

  4. Evaluation and metrics

  5. Explain the reasoning behind each step in detail

结果显示,GPT-5 完全能胜任这种复杂的端到端任务。从数据预处理、特征工程,到多模型训练(逻辑回归、随机森林、XGBoost),再到使用 SMOTE 处理数据不平衡问题和全面的效果评估,整个流程一气呵成,代码扎实可靠。

  • 耗时:约 4-5 分钟
  • Tokens:约 86,850

成本对决:真金白银的较量

效果看完了,那我们来算算账。毕竟,这才可能是最能影响开发者选择的因素。

  • GPT-5 (Thinking 模式)-完成三项测试任务

    • Web 应用:~$2.58
    • 算法:~$0.03
    • ML 流水线:~$0.88
    • 总计:约 $3.50
  • Opus 4.1 (Thinking + Max 模式)-仅完成两项测试任务

    • Web 应用:~$7.15
    • 算法:~$0.43
    • 总计:$7.58

结论一目了然:Opus 4.1 的使用成本是 GPT-5 的两倍以上。

评测结论

GPT-5 的优势

  • 算法任务中 token 使用少、响应快,效率极高。
  • 更适合日常开发,尤其是快速迭代与原型验证。
  • 整体 token 成本大幅低于 Opus 4.1。

Claude Opus 4.1 的优势

  • 提供清晰的、一步步解释的代码逻辑,对学习过程友好。
  • 在视觉 fidelity(设计还原度)方面表现出色,非常贴近 Figma 原稿。
  • 适合对界面精度要求高的场景。

所以,如果你是日常开发,优先使用 GPT‑5,性能与成本兼顾。如果界面还原要求高的设计任务,可选择 Claude Opus 4.1,提升最终效果,但需预算充足。

推荐组合策略:先用 GPT‑5 打好基础,然后在关键界面环节,用 Opus 4.1 打磨细节,实现效率与精度的平衡。

参考文献
https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询