微信扫码
添加专属顾问
我要投稿
Claude 4.1实测表现远超官方宣传,UI设计能力显著提升,与竞品拉开明显差距。 核心内容: 1. 电商APP首页设计对比:4.1版本在视觉元素和icon选择上的突破 2. 俄罗斯方块APP设计对比:4.1对游戏UI风格的精准把握 3. 招聘产品首页对比:4.1在信息展示和细节处理上的进步
昨天晚上官方悄咪咪的更新了Claude 4.1,大家看到最多的还是这张图:
很多人说,Claude Opus 4.1只是高了两个点呀,有啥可说的,那黄叔这里带来第一手的实测结论,依然是和Claude4、DeepSeek R1在生成UI设计图、卡片等方面的对比,大家来评估下效果:
以下所有对比图中,左1都是Claude 4.1生成的效果,右侧为Claude4和DeepSeek R1
首先是一个电商APP首页的对比:
这里Claude4.1有些惊喜,在电商APP首页的排版设计上不再是死板的模块罗列了,加入了更多视觉设计元素,尤其是限时秒杀部分的效果是之前在所有模型内都没有看到的,在icon选择上也更贴近主题,就像右侧的Claude4.0在栏目icon的选择上含义就不太准确。4.1中运动户外、图书文具等等都选用的很准确。
可惜Banner部分的配图比较丑,不然就能和DeepSeek R10528版本拉开明显的差距,是的,之前的Cluade4.0还只是比R1略胜一筹。
下图是的俄罗斯方块APP的对比:
这里生成UI的提示词中,设计风格部分使用的都是“根据产品类型选择合适的设计风格”,没有详细指定设计风格,所以左侧的CLaude4.1生成的设计图明显更适合游戏UI,虽然底部布局有点问题,但整体依然比4.0和R1要好。
R1在这里对提示词的遵循度上明显弱一些,我已经在提示词中写明了UI页面的尺寸,但R1并没有遵循,同样未遵循的还有不要使用自适应布局。这个问题在多个Case中都出现过。
Claude4.1确实在对提示词的理解方面更强了,在视觉设计相关能力上也有些进步!
下图招聘产品的首页对比:
Claude4.1出现了一些图片加载失败的问题,这是生成UI任务中常见的错误,仔细对比的话可能发现,之前状态栏和导航栏颜色不同意、导航栏颜色抢眼等问题几乎不会出现了(这个问题在其他case中也可以体现)。并且4.1在对页面中需要显示什么信息的设计上明显更胜一筹,已经接近真实招聘产品了,例如图中的“3-5年”、“本科”等标签。
接下来是一个倒数日APP的首页,Claude4.1在这个Case中并没有很明显的优势。仅是在颜色使用和排版中有微弱优势,3者整体持平。
再来看几个其他Case的对比,这里就不再写评价大家直观感受一下:
待办APP首页:
音乐APP播放页:
浏览器APP首页:
整体来看,Claude4.1更新后的能力进步还是比较大的,已经能明显看出超过DeepSeek R1的差距,但R1已经是两个多月前更新的了(5月28号),到现在R1依然是国产模型中最能打的那个。
下面这张是用黄叔自己的文章《2个月涨粉10000+,多篇文章阅读过万!黄叔是如何在AI浪潮中找到清晰方向的?》内容生成的一张卡片,提示词使用了杂志风格。
Claude4.1的布局排版更加灵活了,一些光影效果相对之前也有所优化
换个风格对比一下,用日本平面设计风格:
三个模型都比较准确的理解了日式风格。以设计师的眼光来看,依然是Claude4.1更好,依然体现在排版上,相对之前更自然、少了很多死板的排版方式(如列表)。
美漫风格:
4.1对常见的圆点点缀、爆炸特效、粗线条使用、大幅度重投影都有使用。Claude4和DeepSeek R1也不差,三者基本处于同一水平线。
最后是一张二次元科幻风的卡片对比,也基本处于同一水平线,Claude4.1的光影效果更炫一些:
以上的UI设计能力测试后再试一下网页游戏开发测试,这里我使用的是Claude code,输入需求后自动生成了todolist(提示词中未体现先列出todolist)
每项任务完成后还会更新任务状态,最后开发完成后进行测试:
积分系统、难度选择、变相、重开都完全正常。相比之下claude4.0当时测试的时候依然容易出现小bug,再来测试一下更复杂的项目,修改一个安卓APP的数据同步功能。
进入项目目录后要求Claude4.1阅读项目文件和代码,达成初步了:
然后找到具体要修改的功能相关的代码
准确找到了两种数据同步方式的全部相关逻辑,对supabase和本地数据备份都准确找到了,连数据结构都明确写了出来
然后修改功能:删除本地备份相关逻辑,删除代码时非常容易产生影响其他功能的问题,这里来看看Claude4.1的效果怎么样。
todolist中自动形成了“验证云端同步功能不受影响”。很棒
启动应用实际看一下:
可以看到右侧的新版本中已经没有本地数据同步功能了,然后我登录账号验证一下supabase的功能有没有受到影响
可以同步到supabase上的数据,修改成功~
看来X上对于Claude 4.1的评测比较准:可以很精细的进行多文件的修改。
当然,这只是一次快速的测评,不能全面的反应Claude 4.1 Opus的能力,另外,官方将这个新版本定义为是Claude Opus 4的Agent代理任务、真实世界编码和推理能力的全面提升。我们仅仅测了少部分模型能力。
还有,Anthropic在官方新闻稿中还留了一句伏笔:我们计划在未来几周内发布对模型的重大改进。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-06
企业级智能体开发中所遇到的问题以及解决方案
2025-08-06
AI 场景内存降本 95%!一文看懂 OceanBase BQ 向量量化
2025-08-06
AI编程实战:AI要独立开发了?TRAE SOLO 后端生成能力深度实测
2025-08-06
AMD 显卡解锁 Ollama 支持:没有 N 卡也能跑大模型
2025-08-06
【重磅发布】Claude Opus 4.1等模型现已接入Refly
2025-08-06
20个进入实用阶段的AI应用场景(咨询公司篇)
2025-08-06
断网后,你的 AI 还能用吗?
2025-08-06
最佳实践|Zilliz 如何助力MiniMax的AI落地与预训练数据管理
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-06-19
2025-06-13
2025-05-28
2025-08-06
2025-08-06
2025-08-06
2025-08-05
2025-08-05
2025-08-05
2025-08-04
2025-08-02