微信扫码
添加专属顾问
我要投稿
论文链接:
百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
长文本:长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型。
代码:DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-20
DeepSeek-V3.1-Base来了!MoE架构+128K上下文,性能再进化
2025-08-20
39种Dify常见报错及解决方案汇总
2025-08-20
突发!DeepSeek刚刚开源V3.1-Base
2025-08-19
GPT-OSS 图解:架构、推理模式与消息通道
2025-08-19
PS 再见!阿里 Qwen 开源全能 P 图神器,人人都是设计师!
2025-08-19
AGI|研究报告还能这样写?揭秘Open Deep Research智能生成全流程
2025-08-19
gpt-oss 模型在 Azure A10 和单卡 H100 机型上的性能测评
2025-08-19
企业级UI自动化测试落地痛点与AI提供的解决方案
2025-07-23
2025-06-17
2025-06-17
2025-07-23
2025-08-05
2025-07-14
2025-07-12
2025-07-29
2025-07-27
2025-07-31