微信扫码
添加专属顾问
我要投稿
中国AI领域迎来革命性突破,DeepSeek R1在代码生成和前端设计上惊艳全球。 核心内容: 1. DeepSeek R1代码生成能力超越Claude 3.7,媲美Claude 4 2. 前端设计审美达到Claude 4水准,部分细节甚至略胜一筹 3. DeepSeek R1的不足之处:推理速度慢,缺少多模态能力
这一张图,改变了中国的历史!
经过黄叔深度的测试,新DeepSeek R1在代码生成上>Claude 3.7,前端审美能力和Claude 4有来有回。
说句不夸张的话,这可能真的要改变中国AI发展的历史轨迹了!我们先说代码层面,再说前端审美层面,最后聊聊为何改变中国的历史。
先说代码层面的表现。熟悉我的朋友都知道,黄叔之前写过一本AI编程蓝皮书,里面有大量的实战案例,基本都是用Claude 3.5、3.7跑出来的。
即使是一些相对简单的案例,比如:
- 给老外起中文名的AI网页
- 善思flomo浏览器插件
用Windsurf+Claude 3.5的组合,往往都需要调试几次,出现各种小bug才能最终搞定。
但是!新DeepSeek R1直接一次成功!
我测试了给特朗普起中文名的功能,R1居然给出了"推特神兽"、"川普大帝"这样的神翻译,简直笑死我了!
还有flomo浏览器插件,R1也是一次性生成成功,而且可以直接一键同步到flomo,完全没有任何问题:
正当我准备继续测试更多功能的时候,晚上10点多,API就挂了...看来大家都在疯狂测试啊!
当然,黄叔必须得说一句,新R1在Coding能力的全面性上还是有欠缺的,体现在:
客观地说,新R1在编程能力的全面性上还是有些不足:
1. 思考过程太冗长:R1需要很长的thinking过程来弥补推理能力,导致响应速度比较慢:
2. 缺少多模态能力:不能像Claude那样通过截图来描述代码错误,调试起来比较麻烦
但即便如此,新R1在代码生成方面已经稳稳站在了Claude 3.7和Claude 4之间的水平!
这里第一张图我们先不说明哪个是Claude4.0生成的,哪个是Deepseek R1生成的,大家可以看一下两份设计图,能否像之前Claude3.7对比其他模型那样一眼完成识别。
揭晓答案:
继续,我测试更多的UI界面设计:
大家可以自行对比!
在杂志风格卡片的测试中,我用自己的文章《2个月涨粉10000+,多篇文章阅读过万!黄叔是如何在AI浪潮中找到清晰方向的?》作为素材。
有趣的是,新R1甚至在某些方面略胜一筹!
比如我在提示词中明确要求使用偏棕色的背景色,R1严格按照要求执行,而Claude 4虽然设计质量很高,但在提示词遵从度上有些偏差。
就像老板给员工布置任务,员工完成得很好,但和老板想要的不太一样——这种情况我在开发其他产品时也遇到过。
当然这种情况还是少数,更多情况下可以很好的完成要求,就像下面这样:
这两个卡片是用我另一篇文章《我用了一个月Dia浏览器,已经彻底抛弃了Chrome!》生成的,左侧卡片在提示词的杂志感要求方面更强一些,右侧卡片在提示词要求的其他细节如背景元素等方面略胜一筹。
继续换个风格看一下,这次我们用日本平面设计风格:
特别值得一提的是,在测试日本平面设计风格时,我只是简单地在提示词中写了"日本平面设计风格":
DeepSeek R1在推理过程中,竟然先详细分析了"日本平面设计风格到底是什么风格",然后才输出设计稿!
这种自主学习和推理的能力,真的让人刮目相看。
下面是一个美漫风格的卡片:
这两张卡片对比下来左侧的明显更符合美漫风格,设计质量也更好,这里不知道是不是因为Claude 4的训练数据更多的是英文数据所以对美漫风理解更深刻?有懂的朋友欢迎留言确认一下是否有这方面的影响。
最后是一张二次元科幻风的卡片对比:
这个案例Claude4.0在颜色搭配和光影效果上做的更好一些,新R1相对简单了一些,使用单色还是比较难体现出科幻的氛围和光影感。
经过和一位设计师朋友的深度讨论,我们得出了一个重要结论:
顶级AI模型的前端设计能力,已经进入了需要专业设计师才能区分质量差异的阶段!
对于我这样的非设计师来说,第一感觉就是"差不多"、"都挺好",已经很难评价Claude 4和新DeepSeek R1的输出质量了。
再结合新R1在功能代码上的巨大进步,这真的要出大事了!
顶级模型的前端设计能力,已经进入了一个需要专业设计师去区分设计质量的阶段!再结合新R1在功能代码上的进步,真的出大事了!
从多个评测案例来看,新DeepSeek R1确实接近Claude 4的水平。这一点我和歸藏以及其他朋友交流后,大家都比较认同。
退一步说,即使只是达到Claude 3.7的水平,这也已经超级牛逼了!
黄叔一直有个观点:今年国内大模型在编程能力上会追平Claude 3.5的水准。
如果真的实现了,那意味着:
- 无需魔法:国内用户可以直接使用
- 价格低廉:成本优势明显
- 本土化服务:更适合中国用户需求
这样的组合,一定会引爆国内AI市场!因为编程的价值实在太大了!
真没想到,还没到6月份,甚至是在英伟达发财报的前夜,中国之光DeepSeek就用一个"小"更新,直接击穿了所有人的预期!
这种感觉就像是:你以为自己在追赶,结果一不小心就超车了!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-08-13
2024-06-13
2024-08-21
2024-07-31
2024-09-23
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-07-20