我要投稿

只提升2个点？我实测Claude 4.1后，发现官方在骗人

发布日期：2025-08-06 16:57:29 浏览次数： 1936

作者：AI产品黄叔

微信搜一搜，关注“AI产品黄叔”

昨天晚上官方悄咪咪的更新了Claude 4.1，大家看到最多的还是这张图：

很多人说，Claude Opus 4.1只是高了两个点呀，有啥可说的，那黄叔这里带来第一手的实测结论，依然是和Claude4、DeepSeek R1在生成UI设计图、卡片等方面的对比，大家来评估下效果：

首先是UI设计方面

以下所有对比图中，左1都是Claude 4.1生成的效果，右侧为Claude4和DeepSeek R1

首先是一个电商APP首页的对比：

这里Claude4.1有些惊喜，在电商APP首页的排版设计上不再是死板的模块罗列了，加入了更多视觉设计元素，尤其是限时秒杀部分的效果是之前在所有模型内都没有看到的，在icon选择上也更贴近主题，就像右侧的Claude4.0在栏目icon的选择上含义就不太准确。4.1中运动户外、图书文具等等都选用的很准确。

可惜Banner部分的配图比较丑，不然就能和DeepSeek R10528版本拉开明显的差距，是的，之前的Cluade4.0还只是比R1略胜一筹。

下图是的俄罗斯方块APP的对比：

这里生成UI的提示词中，设计风格部分使用的都是“根据产品类型选择合适的设计风格”，没有详细指定设计风格，所以左侧的CLaude4.1生成的设计图明显更适合游戏UI，虽然底部布局有点问题，但整体依然比4.0和R1要好。

R1在这里对提示词的遵循度上明显弱一些，我已经在提示词中写明了UI页面的尺寸，但R1并没有遵循，同样未遵循的还有不要使用自适应布局。这个问题在多个Case中都出现过。

Claude4.1确实在对提示词的理解方面更强了，在视觉设计相关能力上也有些进步！

下图招聘产品的首页对比：

Claude4.1出现了一些图片加载失败的问题，这是生成UI任务中常见的错误，仔细对比的话可能发现，之前状态栏和导航栏颜色不同意、导航栏颜色抢眼等问题几乎不会出现了（这个问题在其他case中也可以体现）。并且4.1在对页面中需要显示什么信息的设计上明显更胜一筹，已经接近真实招聘产品了，例如图中的“3-5年”、“本科”等标签。

接下来是一个倒数日APP的首页，Claude4.1在这个Case中并没有很明显的优势。仅是在颜色使用和排版中有微弱优势，3者整体持平。

再来看几个其他Case的对比，这里就不再写评价大家直观感受一下：

待办APP首页：

音乐APP播放页：

浏览器APP首页：

整体来看，Claude4.1更新后的能力进步还是比较大的，已经能明显看出超过DeepSeek R1的差距，但R1已经是两个多月前更新的了（5月28号），到现在R1依然是国产模型中最能打的那个。

继续看生成卡片Case

下面这张是用黄叔自己的文章《2个月涨粉10000+，多篇文章阅读过万！黄叔是如何在AI浪潮中找到清晰方向的？》内容生成的一张卡片，提示词使用了杂志风格。

Claude4.1的布局排版更加灵活了，一些光影效果相对之前也有所优化

换个风格对比一下，用日本平面设计风格：

三个模型都比较准确的理解了日式风格。以设计师的眼光来看，依然是Claude4.1更好，依然体现在排版上，相对之前更自然、少了很多死板的排版方式（如列表）。

美漫风格：

4.1对常见的圆点点缀、爆炸特效、粗线条使用、大幅度重投影都有使用。Claude4和DeepSeek R1也不差，三者基本处于同一水平线。

最后是一张二次元科幻风的卡片对比，也基本处于同一水平线，Claude4.1的光影效果更炫一些：

网页游戏开发

以上的UI设计能力测试后再试一下网页游戏开发测试，这里我使用的是Claude code，输入需求后自动生成了todolist（提示词中未体现先列出todolist）

每项任务完成后还会更新任务状态，最后开发完成后进行测试：

积分系统、难度选择、变相、重开都完全正常。相比之下claude4.0当时测试的时候依然容易出现小bug，再来测试一下更复杂的项目，修改一个安卓APP的数据同步功能。

进入项目目录后要求Claude4.1阅读项目文件和代码，达成初步了：

然后找到具体要修改的功能相关的代码

准确找到了两种数据同步方式的全部相关逻辑，对supabase和本地数据备份都准确找到了，连数据结构都明确写了出来

然后修改功能：删除本地备份相关逻辑，删除代码时非常容易产生影响其他功能的问题，这里来看看Claude4.1的效果怎么样。

todolist中自动形成了“验证云端同步功能不受影响”。很棒

启动应用实际看一下：

可以看到右侧的新版本中已经没有本地数据同步功能了，然后我登录账号验证一下supabase的功能有没有受到影响

可以同步到supabase上的数据，修改成功~

看来X上对于Claude 4.1的评测比较准：可以很精细的进行多文件的修改。

当然，这只是一次快速的测评，不能全面的反应Claude 4.1 Opus的能力，另外，官方将这个新版本定义为是Claude Opus 4的Agent代理任务、真实世界编码和推理能力的全面提升。我们仅仅测了少部分模型能力。

还有，Anthropic在官方新闻稿中还留了一句伏笔：我们计划在未来几周内发布对模型的重大改进。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-28

Claude code云端部署 & 魔改sdk实现http流式调用保姆级教程

2026-05-28

“不用AI的CEO，我会亲自干掉他！”亿万富翁马克·库班最新对话：看好Claude，但奥特曼迟早被自己反噬

2026-05-27

我把 OpenAI Codex 官方案例全跑了一遍

2026-05-27

一个Agent工程师听完VC的2小时播客后想通的事

2026-05-27

考虑把 Claude Code 全量切换到 Grok Build 了

2026-05-27

从透明开发到系统工程：AgentScope 2.0 发布

2026-05-27

大神Karpathy 发明 autoresearch，仅用 Markdown 就做出了自动化研究循环

2026-05-27

Claude Code 新安全插件：写代码时先拦漏洞

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

刚刚，GPT-5.4 发布，百万上下文、最强全能模型

2026-03-06

大家都在问

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部