微信扫码
添加专属顾问
我要投稿
最近发现华为NPU的生态里多了一个成员——MindIE,部分解决了大模型推理的问题,下面简要介绍下Mind华为昇腾NPU卡的生态。
CANN 对应 CUDAMindSpore 对应 PyTorchMindFormer 对应 TransformersMindIE 对应 vLLM首先,在英伟达的生态中,有从底层到上层分别有CUDA、PyTorch、transformers、vLLM等常见库。对应的,在华为的生态中,分别有CANN、MindSpore、MindFormer、MindIE。具体对应关系见下图:
关于MindSpore、MindIE的详细介绍,分别见下面的图与链接:
MindSpore——https://www.mindspore.cn/
MindIE——https://www.hiascend.com/software/mindie
在华鲲振宇AI最优解/ Ascend-FAQ的gitee[1]页面上,介绍了MindIE目前支持的模型,包含了llama3-8B、llama2-7B、Qwen1.5-14B-Chat、Qwen1.5-72B-Chat、chatglm3-6B等模型。
目前看支持的大模型很少,而且页面上没有写的大概率不支持(比如Qwen1.5-32B-Chat以及Qwen2系列实测均不支持)。
虽然支持的模型不多,但是,得益于910B系列卡的强劲算力,配合MindIE框架做了下并发推理测试,具体结果如下:
可以看到4卡910B4,跑Qwen1.5-14B-Chat模型,在40并发的情况下,首token平均延迟为66毫秒,每秒token生成数在1200左右,单个请求每秒生成token数约为30个,基本可以满足生产环境的需求
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-08
【访谈对话】造过 Codex 的人,为什么每天用 Claude Code
2026-02-07
程序员的最后一块拼图:为什么你必须学会用 Claude Code?
2026-02-07
OpenClaw 爆火却难部署?用 Cherry Studio 一键解锁,零门槛打造你的超级 AI Agent
2026-02-06
国产最强 AI 进军终端!Kimi Code CLI 正式发布,让你的命令行直接起飞
2026-02-06
AI记忆正成为新操作系统:检索已过时,生成式记忆才是未来
2026-02-06
简单就是美!Claude Code Ralph循环机制详解
2026-02-06
OpenAI 发布 GPT-5.3-Codex,一文详解
2026-02-06
火拼升级!OpenAI、Anthropic同日发布新模型,一个能替你写代码,一个能替公司管流程
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2025-12-21
2026-01-09
2026-02-07
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31