免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


实测:NVIDIA 5090 vs NVIDIA 4090(48GB) 并发性能对比

发布日期:2025-09-27 11:16:25 浏览次数: 1514
作者:算力领跑者老王

微信搜一搜,关注“算力领跑者老王”

推荐语

NVIDIA 5090与4090(48GB)的并发性能实测对比,调试优化后性能提升显著!

核心内容:
1. 测试环境与方法:基于DeepSeek-R1-Distill-Llama-70B模型的BF16精度测试
2. 关键优化步骤:CPU性能模式、Resizable BAR、C-States调整等调试过程
3. 性能对比结果:调试前后5090与4090(48GB)的推理吞吐与时延数据

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

上次对比了5090 vs 4090(24GB)后,不少粉丝留言:48GB 版呢?

刚好有位客户反馈自己的5090跑不快,来找老王调试,老王借着这个机会完成本次更有代表性的对比实验。

本次所有测试均基于 DeepSeek-R1-Distill-Llama-70B,精度 BF16,聚焦真实推理吞吐与稳定性。




一、5090 调试前后

测试方法(确保结论可复现)

  • 模型与精度:DeepSeek-R1-Distill-Llama-70B,BF16。
  • 度量口径:测试工具采用evalscope,评测指标包括首token时延,吞吐等。
  • 输入规模:典型长上下文推理,固定 prompt 长度与采样参数,输入输出长度覆盖1K到4K。
  • 系统环境:同一机房、同一操作系统镜像与驱动;功耗墙、散热条件一致;关闭除监控外的其它高负载服务。
  • 图中数据:仅展示核心指标,完整环境版本与运行日志可按需补充。

测试数据

注:调试前后性能差异较大 

调试过程(把“慢”的地方一个个掰直)

  1. 开启 CPU 最大性能模式(Governor 置为 performance)
# 查看 CPU 频率策略(一般默认为 powersave)cat /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor# 切换为 performance,避免频繁降频导致推理阶段抖动for f in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor; do    echo performance | sudo tee $fdone
  1. 开启 Resizable BAR(Re-Size BAR)
  • 作用:放宽 CPU 访问 GPU 显存的窗口,降低主机到显存的数据搬运开销,稳定大 prompt/大 KV 缓存场景下的数据流。
  • 建议:BIOS 中启用 “Above 4G Decoding” 与 “Resizable BAR”。
  • 验证:
# 简单校验(不同平台输出格式略有差异)lspci -vv | grep -i "Resizable BAR" -A1
  1. 调整 CPU C-States(C6 Support)
  • 含义:更深的 C-State 能节能,但可能带来从空闲到满载的唤醒抖动。
  • 建议:在 governor=performance 的前提下,保留 C6 但配合高性能电源策略与中断亲和,实测在我们机型上既不牺牲频率,也能减少温度峰值导致的降频回退。
  • 如果你的平台遇到抖动,可测试“关闭深 C-State 或保留 C6”的两组 A/B 方案,取抖动更小的一组。
  1. GPU 驱动侧常规优化
# 持久化进程,降低首个上下文建立的时延sudo nvidia-smi -pm 1# 锁定一致的功耗墙(根据散热与电源能力设定)sudo nvidia-smi -pl <WATT_LIMIT># 仅单卡推理可忽略多卡通信;多卡时请统一PCIe 代际/拓扑
  1. 线程与内存
  • 固定推理服务的线程数与亲和性,避免和系统后台抢核;启用透明大页(THP=always 或 madvise)减少页缺失;确保 swap 不介入热路径。

结论:

1、一台推理服务器 = CPU×GPU×内存×操作系统×BIOS×散热×供电的联合作品。

2、少一个环节,就可能把“战马”骑成“驴”

3、专业的事情交给专业的人做,否则花一样的钱,只能享受一半的显卡性能。




二、5090 VS  4090(48GB)

为了拼数据,老王新入一台8卡48GB版4090的机器。废话不多说,直接上最终测试结果:

更专业的解读:

  • 显存带来的结构性收益:48GB 允许在单卡上容纳更大的 KV Cache 与更长上下文,
    • 可以使用更大的 batch 或保持更稳定的 kernel 形状;
    • 避免 24GB 版本常见的张量并行/页外 KV/CPU offload 带来的调度与拷贝开销;
    • 使得 Flash-Attention 等高效内核能以更大 tile/更少重排运行,减少 kernel 启动与同步次数。
  • 实际观感:长上下文与多会话并发下,48GB版4090的吞吐“台阶式”提升明显; 24GB 版常在容量边缘反复触发重排与内存回收,表现更不稳定。

综合下来,本轮测试中 5090 依然更强,但差距由约 2× 缩小到约 1.4× 这不是 48GB 显卡“变魔术”,而是容量把“工程化的路”铺平了(少换页、少拷贝、少同步),硬件算力才能稳定地转化为吞吐。

顺手也回答一个常见问题:

“同一架马车,车道宽一倍,能不能跑更快?” - - -  能,而且更不容易剐蹭。



如果这篇技术分享对您有所帮助,欢迎点赞、转发!也欢迎关注老王 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询