微信扫码
添加专属顾问
我要投稿
GPT-5与Claude Opus 4.1编程能力大PK,实测数据告诉你谁才是开发者的最佳拍档。核心内容: 1. 算法与网页开发能力对比:GPT-5速度更快、成本更低,Claude设计还原度更高 2. 模型基础信息与token使用效率分析 3. 实际开发场景测试案例与结果解读
聊起严肃的编程,Anthropic 的 Claude 几乎是公认的王者,在很多开发者心里都是 No.1 的位置。
但最近,风向似乎有点变了。
OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。
虽然看了很多说 GPT-5 是“编程新王”所谓的噱头和关于 GPT5 的评测,说实话,我还没看到一份有说服力的报告。要么是拿官方的 demo 说事,要么是测了几个美观度还行的 web 网页就说 GPT-5 强。用这些下结论有点草率了吧。
所以,对于 GPT-5 和 Claude 谁更厉害,模型编程 feature 各自擅长什么,好多人和我一样好奇,
今天刷到国外的一位开发者老哥 Rohit 发布了一篇 GPT-5 vs Claude Opus 4.1 编程能力的评测博客,比较实用,这里 share 出来。
首选,评测生成的所有代码都开源了,可以在这个链接查看。
https://github.com/rohittcodes/gpt-5-vs-opus-4-1
先说核心的结论:
GPT-5 响应更快且成本更低, token 消耗比 Opus 4.1 节省约 90%,更适合作为一个高效的日常开发助手使用;如果你想要设计还原度高,而且预算灵活,Opus 4.1 则更具优势。
再来看模型基础信息与 token 使用效率对比:
上下文窗口:Claude Opus 4.1 支持 20 万 token,上限输出不详;而 GPT‑5 支持 40 万 token 上下文,最大可输出 128K token。
Token 使用效率:尽管 GPT‑5 的上下文空间更大,但在相同任务下它总是使用更少的 token,从而大幅降低运行成本。
虽然在 SWE-bench 等编码基准测试中,GPT‑5 略微领先于 Opus 4.1,但作者后续还实测了一些 case。
测试内容涵盖实际开发常见场景:
编程语言与任务类型:
环境:所有任务均在 Cursor IDE 联合 Rube MCP 的环境中完成。
测量指标:token 数量、耗时、代码质量、实际结果。
两个模型使用完全一样的提示词。
Rohit 从 Figma 社区找了一个复杂的仪表盘设计,要求它俩用 Next.js 和 TypeScript 把它复刻出来。
提示词如下:
Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
Responsive design
Proper component structure
Styled-components or CSS modules
Interactive elements
两位选手的表现:
GPT-5:
GPT-5 的效率没得说,10 分钟就交卷了,应用也能跑。但成品……怎么说呢,功能完备,但视觉效果一言难尽。它 get 到了设计的框架,却完全忽略了灵魂。颜色、间距、字体都和原稿相去甚远,仿佛开了“低保真”模式。
是一个能干活的工程师,但是不懂审美而且干活很粗糙。
Claude Opus 4.1:
Opus 4.1 上来先耍了点“小脾气”,明明指定了 styled-components,它非要用 Tailwind,需要人工纠正。但当它“认错”并开始工作后,结果令人震惊。
UI 几乎与 Figma 设计稿一模一样! 视觉保真度堪称完美。
一位追求完美的“艺术家”,虽然烧钱又有点犟,但作品无可挑剔。
为了考验纯粹的逻辑和效率,Rohit 抛出了经典的 LeetCode 难题:“寻找两个正序数组的中位数”,并要求时间复杂度为 O(log(m+n))”。
提示词如下:
Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).
GPT-5:
GPT-5 几乎没有任何废话,13 秒内给出了一个干净利落、完全正确的二分查找解法。代码优雅,效率拉满。
Claude Opus 4.1:
Opus 4.1 则完全是另一种画风。它不仅给出了答案,还附上了一篇“小论文”:详细的推理步骤、全面的代码注释,甚至内置了测试用例,生怕你学不会。虽然算法核心是一样的,但它的输出附带了极高的“教育价值”。
想快速要答案,找 GPT-5;想学习解题思路,Opus 4.1 是你最好的老师。
最后一个挑战是构建一个完整的机器学习的 pipeline,预测客户流失。
然而,在见识了 Opus 4.1 在第一轮中惊人的 token 消耗后,Rohit 出于对钱包的尊重,明智地让它“轮休”了。这一局,只有 GPT-5 单挑。
提示词如下:
Build a complete ML pipeline for predicting customer churn, including:
Data preprocessing and cleaning
Feature engineering
Model selection and training
Evaluation and metrics
Explain the reasoning behind each step in detail
结果显示,GPT-5 完全能胜任这种复杂的端到端任务。从数据预处理、特征工程,到多模型训练(逻辑回归、随机森林、XGBoost),再到使用 SMOTE 处理数据不平衡问题和全面的效果评估,整个流程一气呵成,代码扎实可靠。
效果看完了,那我们来算算账。毕竟,这才可能是最能影响开发者选择的因素。
GPT-5 (Thinking 模式)-完成三项测试任务
Opus 4.1 (Thinking + Max 模式)-仅完成两项测试任务
结论一目了然:Opus 4.1 的使用成本是 GPT-5 的两倍以上。
GPT-5 的优势
Claude Opus 4.1 的优势:
所以,如果你是日常开发,优先使用 GPT‑5,性能与成本兼顾。如果界面还原要求高的设计任务,可选择 Claude Opus 4.1,提升最终效果,但需预算充足。
推荐组合策略:先用 GPT‑5 打好基础,然后在关键界面环节,用 Opus 4.1 打磨细节,实现效率与精度的平衡。
参考文献
https://composio.dev/blog/openai-gpt-5-vs-claude-opus-4-1-a-coding-comparison
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-12
看大神在Claude Code里的全局配置文件来定义他的个人品味,可参考
2025-08-12
GPT-5 不是技术新范式,是 OpenAI 加速产品化的战略拐点
2025-08-12
刚刚,Claude 推出记忆功能,比ChatGPT 好用
2025-08-12
大模型背后的“新搜索”生意,水有多深
2025-08-12
在Claude Code使用子agent的最优解
2025-08-12
好未来基于大模型 RAG+CoT 技术辅助故障定位
2025-08-12
好未来 × Milvus落地实践
2025-08-12
解码未来:来自 DeepMind 创始人的 30 条核心预言
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-05-20
2025-06-12
2025-06-19
2025-06-13
2025-05-28
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-11
2025-08-10
2025-08-09