微信扫码
添加专属顾问
我要投稿
DeepSeekV3.1揭秘UE8M0 FP8 Scale黑科技,国产芯片性能突破关键在此! 核心内容: 1. UE8M0 FP8 Scale的技术解析与量化策略 2. FP8相比FP16/FP32的显存与计算效率优势 3. 国产GPU性能提升路径与DeepSeekV3.1训练扩展
UE8M0 是 DeepSeekV3.1 中提到的,在 FP8 训练中采用的一种参数精度配置:
E和M分别代表指数(Exponent)和尾数(Mantissa)的位数。
UE8M0的M=0并非字面意义的“0位尾数”,而是指动态尾数策略:
通过隐式归一化(如IEEE 754的隐藏位)或动态调整尾数精度(如Block-wise量化)实现灵活性。
实际实现中可能采用动态尾数分配(如根据指数范围动态调整尾数有效位)
根据 IEEE754 标准,浮点数在存储时分为三部分,符号位(通常1位)、指数位和尾数位。这样一来,浮点数的计算为 $(-1)^S * 2^(E-127) *M$(下面的图)。打个比方,浮点数 3.1 就可以表示为 0 10000000 10001100110011001100110。所以对于 UE8M0(论文 https://arxiv.org/pdf/2506.08027 有提到(下方图中)),U 代表 unsigned 表示无符号位,E8 表示用8位表示指数位,M0 表示不存储尾数。那么他的表示范围是多少呢?我们来根据上面的式子计算。符号位S不存在,为0。指数位有8位,范围是0到255。尾数不存在,默认1。这样一来 UE8M0 的表示范围为 2^{-127} to 2^{127}(但只能表示2的指数幂)。
UE8M0 的核心优势主要是计算效率提升,减低部署成本。
FP8 相比 FP16/FP32 减少 50%-75% 的显存占用,支持更大 batch size 或更长上下文(128K tokens)
在 NVIDIA H800 GPU 上,FP8 矩阵乘法速度比 FP16 快 2-3 倍
但与 OAI 开源的 gpt-oss 采用的FP4 还是有些差距。
希望在国产GPU上能拉进距离。
补充一些信息:
3.1做了外扩训练,增加了840B 的tokens。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-25
引爆SaaS万亿美元抛售之后,Anthropic加码Cowork,要改变所有白领
2026-02-24
当软件不值钱了以后,最稀缺的资源是什么?
2026-02-24
OpenAI Codex负责人:我们熟悉的编程方式正在终结 | Jinqiu Select
2026-02-24
OpenClaw 最佳实践:5条“基本原则”
2026-02-24
春节归来第一天,Second Me 做了一个「Agent 互联网的 App Store」
2026-02-24
万字深度解读 MCP Apps:重构 Web 应用,开启 AI 助手的“小程序”时代。
2026-02-24
AI Agent系列|什么是 ReAct Agent?
2026-02-24
刚刚,Anthropic深夜大点名,这三家中国公司进行蒸馏攻击?!
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2025-12-09
2026-02-03
2025-12-21
2026-01-09
2026-01-09
2026-01-27
2026-02-24
2026-02-24
2026-02-20
2026-02-14
2026-02-13
2026-02-12
2026-02-12
2026-02-11