支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


只提升2个点?我实测Claude 4.1后,发现官方在骗人

发布日期:2025-08-06 16:57:29 浏览次数: 1517
作者:AI产品黄叔

微信搜一搜,关注“AI产品黄叔”

推荐语

Claude 4.1实测表现远超官方宣传,UI设计能力显著提升,与竞品拉开明显差距。

核心内容:
1. 电商APP首页设计对比:4.1版本在视觉元素和icon选择上的突破
2. 俄罗斯方块APP设计对比:4.1对游戏UI风格的精准把握
3. 招聘产品首页对比:4.1在信息展示和细节处理上的进步

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

昨天晚上官方悄咪咪的更新了Claude 4.1,大家看到最多的还是这张图:


Image

很多人说,Claude Opus 4.1只是高了两个点呀,有啥可说的,那黄叔这里带来第一手的实测结论,依然是和Claude4、DeepSeek R1在生成UI设计图、卡片等方面的对比,大家来评估下效果:


首先是UI设计方面

以下所有对比图中,左1都是Claude 4.1生成的效果,右侧为Claude4和DeepSeek R1


首先是一个电商APP首页的对比:


Image


这里Claude4.1有些惊喜,在电商APP首页的排版设计上不再是死板的模块罗列了,加入了更多视觉设计元素,尤其是限时秒杀部分的效果是之前在所有模型内都没有看到的,在icon选择上也更贴近主题,就像右侧的Claude4.0在栏目icon的选择上含义就不太准确。4.1中运动户外、图书文具等等都选用的很准确。


可惜Banner部分的配图比较丑,不然就能和DeepSeek R10528版本拉开明显的差距,是的,之前的Cluade4.0还只是比R1略胜一筹。


下图是的俄罗斯方块APP的对比:


Image


这里生成UI的提示词中,设计风格部分使用的都是“根据产品类型选择合适的设计风格”,没有详细指定设计风格,所以左侧的CLaude4.1生成的设计图明显更适合游戏UI,虽然底部布局有点问题,但整体依然比4.0和R1要好。


R1在这里对提示词的遵循度上明显弱一些,我已经在提示词中写明了UI页面的尺寸,但R1并没有遵循,同样未遵循的还有不要使用自适应布局。这个问题在多个Case中都出现过


Claude4.1确实在对提示词的理解方面更强了,在视觉设计相关能力上也有些进步!


下图招聘产品的首页对比:


Image


Claude4.1出现了一些图片加载失败的问题,这是生成UI任务中常见的错误,仔细对比的话可能发现,之前状态栏和导航栏颜色不同意、导航栏颜色抢眼等问题几乎不会出现了(这个问题在其他case中也可以体现)。并且4.1在对页面中需要显示什么信息的设计上明显更胜一筹,已经接近真实招聘产品了,例如图中的“3-5年”、“本科”等标签。


接下来是一个倒数日APP的首页,Claude4.1在这个Case中并没有很明显的优势。仅是在颜色使用和排版中有微弱优势,3者整体持平。


Image


再来看几个其他Case的对比,这里就不再写评价大家直观感受一下:


待办APP首页:






音乐APP播放页:


Image


浏览器APP首页:


Image


整体来看,Claude4.1更新后的能力进步还是比较大的,已经能明显看出超过DeepSeek R1的差距,但R1已经是两个多月前更新的了(5月28号),到现在R1依然是国产模型中最能打的那个


继续看生成卡片Case

下面这张是用黄叔自己的文章《2个月涨粉10000+,多篇文章阅读过万!黄叔是如何在AI浪潮中找到清晰方向的?》内容生成的一张卡片,提示词使用了杂志风格。


Image


Claude4.1的布局排版更加灵活了,一些光影效果相对之前也有所优化


换个风格对比一下,用日本平面设计风格:


Image


三个模型都比较准确的理解了日式风格。以设计师的眼光来看,依然是Claude4.1更好,依然体现在排版上,相对之前更自然、少了很多死板的排版方式(如列表)。


美漫风格:


Image

4.1对常见的圆点点缀、爆炸特效、粗线条使用、大幅度重投影都有使用。Claude4和DeepSeek R1也不差,三者基本处于同一水平线。


最后是一张二次元科幻风的卡片对比,也基本处于同一水平线,Claude4.1的光影效果更炫一些:


Image


网页游戏开发

以上的UI设计能力测试后再试一下网页游戏开发测试,这里我使用的是Claude code,输入需求后自动生成了todolist(提示词中未体现先列出todolist)


Image


每项任务完成后还会更新任务状态,最后开发完成后进行测试:


Image


积分系统、难度选择、变相、重开都完全正常。相比之下claude4.0当时测试的时候依然容易出现小bug,再来测试一下更复杂的项目,修改一个安卓APP的数据同步功能。


进入项目目录后要求Claude4.1阅读项目文件和代码,达成初步了:


Image


然后找到具体要修改的功能相关的代码


Image


准确找到了两种数据同步方式的全部相关逻辑,对supabase和本地数据备份都准确找到了,连数据结构都明确写了出来


Image

Image


然后修改功能:删除本地备份相关逻辑,删除代码时非常容易产生影响其他功能的问题,这里来看看Claude4.1的效果怎么样。


todolist中自动形成了“验证云端同步功能不受影响”。很棒


Image


启动应用实际看一下:


Image


可以看到右侧的新版本中已经没有本地数据同步功能了,然后我登录账号验证一下supabase的功能有没有受到影响


Image

可以同步到supabase上的数据,修改成功~  


看来X上对于Claude 4.1的评测比较准:可以很精细的进行多文件的修改


当然,这只是一次快速的测评,不能全面的反应Claude 4.1 Opus的能力,另外,官方将这个新版本定义为是Claude Opus 4的Agent代理任务、真实世界编码和推理能力的全面提升。我们仅仅测了少部分模型能力。


还有,Anthropic在官方新闻稿中还留了一句伏笔:我们计划在未来几周内发布对模型的重大改进。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询