我要投稿

GPT-5 vs Claude Opus 4.1：编程能力测评

发布日期：2025-08-12 18:12:30 浏览次数： 3031

作者：夕小瑶科技说

微信搜一搜，关注“夕小瑶科技说”

聊起严肃的编程，Anthropic 的 Claude 几乎是公认的王者，在很多开发者心里都是 No.1 的位置。

但最近，风向似乎有点变了。

OpenAI 发布了 GPT-5，我在公众号里、社群里、论坛里，很多地方都在刷屏一个消息：GPT-5 来了，而且在编程能力上“强得可怕”。

虽然看了很多说 GPT-5 是“编程新王”所谓的噱头和关于 GPT5 的评测，说实话，我还没看到一份有说服力的报告。要么是拿官方的 demo 说事，要么是测了几个美观度还行的 web 网页就说 GPT-5 强。用这些下结论有点草率了吧。

所以，对于 GPT-5 和 Claude 谁更厉害，模型编程 feature 各自擅长什么，好多人和我一样好奇，

今天刷到国外的一位开发者老哥 Rohit 发布了一篇 GPT-5 vs Claude Opus 4.1 编程能力的评测博客，比较实用，这里 share 出来。

首选，评测生成的所有代码都开源了，可以在这个链接查看。

https://github.com/rohittcodes/gpt-5-vs-opus-4-1

先说核心的结论：

算法：GPT‑5 在速度与 token 数量上胜出（8K vs 79K）。
网页开发：Opus 4.1 对 Figma 设计稿的还原度更高，但消耗的 token 量更大（90 万 vs 140 万 + token）；

GPT-5 响应更快且成本更低， token 消耗比 Opus 4.1 节省约 90%，更适合作为一个高效的日常开发助手使用；如果你想要设计还原度高，而且预算灵活，Opus 4.1 则更具优势。

再来看模型基础信息与 token 使用效率对比：

上下文窗口：Claude Opus 4.1 支持 20 万 token，上限输出不详；而 GPT‑5 支持 40 万 token 上下文，最大可输出 128K token。

Token 使用效率：尽管 GPT‑5 的上下文空间更大，但在相同任务下它总是使用更少的 token，从而大幅降低运行成本。

虽然在 SWE-bench 等编码基准测试中，GPT‑5 略微领先于 Opus 4.1，但作者后续还实测了一些 case。

测试内容涵盖实际开发常见场景：

编程语言与任务类型：

算法题：使用 Java 语言实现 LeetCode Advanced 题目。
Web 开发：使用 TypeScript + React，编写基于 Figma 设计的 Next.js 页面，通过 Rube MCP（一种通用 MCP 接入层）进行代码生成。
其他任务：包括客户流失预测模型等业务逻辑实现。

环境：所有任务均在 Cursor IDE 联合 Rube MCP 的环境中完成。
测量指标：token 数量、耗时、代码质量、实际结果。

两个模型使用完全一样的提示词。

Figma 设计稿开发

Rohit 从 Figma 社区找了一个复杂的仪表盘设计，要求它俩用 Next.js 和 TypeScript 把它复刻出来。

提示词如下：

Create a Figma design clone using the given Figma design as a reference: [FIGMA_URL]. Use MCP's Figma toolkit for this task.
Try to make it as close as possible. Use Next.js with TypeScript. Include:
Responsive design
Proper component structure
Styled-components or CSS modules
Interactive elements

两位选手的表现：

GPT-5：

耗时：约 10 分钟
Tokens：906,485（90 万 token）

GPT-5 的效率没得说，10 分钟就交卷了，应用也能跑。但成品……怎么说呢，功能完备，但视觉效果一言难尽。它 get 到了设计的框架，却完全忽略了灵魂。颜色、间距、字体都和原稿相去甚远，仿佛开了“低保真”模式。

是一个能干活的工程师，但是不懂审美而且干活很粗糙。

Claude Opus 4.1：

耗时：更长（因为反复迭代）
Tokens：超过 140 万 token (比 GPT-5 多了 55%！)

Opus 4.1 上来先耍了点“小脾气”，明明指定了 styled-components，它非要用 Tailwind，需要人工纠正。但当它“认错”并开始工作后，结果令人震惊。

UI 几乎与 Figma 设计稿一模一样！视觉保真度堪称完美。

一位追求完美的“艺术家”，虽然烧钱又有点犟，但作品无可挑剔。

LeetCode 算法题

为了考验纯粹的逻辑和效率，Rohit 抛出了经典的 LeetCode 难题：“寻找两个正序数组的中位数”，并要求时间复杂度为 O(log(m+n))”。

提示词如下：

Given two sorted arrays nums1 and nums2 of size m and n respectively, return the median of the two sorted arrays. The overall run time complexity should be O(log (m+n)).

GPT-5：

耗时：约 13 秒
Tokens：8,253

GPT-5 几乎没有任何废话，13 秒内给出了一个干净利落、完全正确的二分查找解法。代码优雅，效率拉满。

Claude Opus 4.1：

耗时：约 34 秒
Tokens：78,920 (接近 GPT-5 的 10 倍！)

Opus 4.1 则完全是另一种画风。它不仅给出了答案，还附上了一篇“小论文”：详细的推理步骤、全面的代码注释，甚至内置了测试用例，生怕你学不会。虽然算法核心是一样的，但它的输出附带了极高的“教育价值”。

想快速要答案，找 GPT-5；想学习解题思路，Opus 4.1 是你最好的老师。

ML 复杂任务

最后一个挑战是构建一个完整的机器学习的 pipeline，预测客户流失。

然而，在见识了 Opus 4.1 在第一轮中惊人的 token 消耗后，Rohit 出于对钱包的尊重，明智地让它“轮休”了。这一局，只有 GPT-5 单挑。

提示词如下：

Build a complete ML pipeline for predicting customer churn, including:
Data preprocessing and cleaning
Feature engineering
Model selection and training
Evaluation and metrics
Explain the reasoning behind each step in detail

结果显示，GPT-5 完全能胜任这种复杂的端到端任务。从数据预处理、特征工程，到多模型训练（逻辑回归、随机森林、XGBoost），再到使用 SMOTE 处理数据不平衡问题和全面的效果评估，整个流程一气呵成，代码扎实可靠。