我要投稿

英伟达开源上瘾了！推出了一款实时语音智能体的终极 ASR：24ms 极速锁定。

发布日期：2026-01-09 08:40:29 浏览次数： 1636

作者：开源星探

微信搜一搜，关注“开源星探”

NVIDIA（英伟达）最近开源了最新的 Nemotron Speech ASR 模型。

这是一款专攻 低延迟、实时流式 场景的语音识别模型。

做 AI 语音开发的朋友都知道，ASR（语音转文字）一直是实时交互中那块难啃的骨头。
尤其是 Streaming ASR（流式识别），长期面临着：准确率、延迟、计算成本，三者很难兼得。

传统的流式模型处理长语音时往往会有“累积延迟” — 你说得越久，它识别得越慢，因为它要反复处理之前的上下文。

但英伟达这次发布的 Nemotron Speech ASR，用一种极客的方式打破了这个魔咒。

单句转录锁定只需 24 毫秒。这意味着当你话音刚落的瞬间，AI 已经听懂并准备好回应了。这几乎超越了人类的神经反应速度。

核心能力

1、缓存感知

为什么能做到单句 24ms 的锁定时间呢？

秘密在于它的架构设计 - 缓存感知设计可高效处理连续音频流，专为低延迟语音代理应用程序交互而设计和优化的。

已经算过的语音特征，直接缓存进显存，永远不再重复算。

当新的音频帧进来时，它不再二次编码历史数据，而是直接调用缓存，只计算当前这几十毫秒的“增量”。

这就像是看书夹了书签。每次只读新的一页，前面读过的直接记在脑子里（显存里），完全不需要回头。

正是因为这种“增量计算”的特性，解决了长语音识别的痛点。

2、运行效率显著提升

与传统的缓冲流式传输方式相比，可提供更高的吞吐量。

这使得在相同的 GPU 内存限制下能够处理更多并行流，从而直接降低生产环境的运行成本。

整个端到端的延迟被控制在了 500ms 以内。

3、动态运行灵活

这一点非常工程向，也非常英伟达。

Nemotron Speech ASR 支持多档延迟模式：80 ms、160 ms、560 ms、1.12 s。

你可以在推理阶段，通过参数直接调整延迟模式

• 80ms/160ms：适合极致速度，适合游戏语音、实时翻译。
• 560ms/1.12s：适用高精度模式，适合会议记录。

重点是：无需重新训练模型！ 一个模型，通吃所有场景，这大大降低了部署和维护成本。

还得额外提一点：该模型原生支持标点符号和大小写。

ASR 选型

英伟达给的不是模型，是一整套能跑起来的语音 Agent，这点非常重要。

Nemotron Speech ASR 不是孤立模型，而是被放进了一套完整语音智能体方案里。

模块	选型
ASR	Nemotron Speech ASR
LLM	Nemotron 3 Nano 30B
TTS	Magpie

快速入手

官方推出了 Nemotron Speech ASR 0.6B 参数模型。

要使用此模型进行训练、微调或推理，需要安装NVIDIA NeMo。

apt-get update && apt-get install -y libsndfile1 ffmpeg
pip install Cython packaging
pip install git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[asr]

加载模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained(model_name="nvidia/nemotron-speech-streaming-en-0.6b")

流式推理:

推理脚本：https://github.com/NVIDIA-NeMo/NeMo/blob/main/examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_infer.py

cd NeMo
python examples/asr/asr_cache_aware_streaming/speech_to_text_cache_aware_streaming_infer.py \
    model_path=<model_path> \
    dataset_manifest=<dataset_manifest> \ 
    batch_size=<batch_size> \
    att_context_size="[70,13]" \ #set the second value to the desired right context from {0,1,6,13}
    output_path=<output_folder>

还可以通过管道方法运行流式推理(配置文件同样在NeMo项目下)：

from nemo.collections.asr.inference.factory.pipeline_builder import PipelineBuilder
from omegaconf import OmegaConf

# Path to the cache aware config file downloaded from above link
cfg_path = 'cache_aware_rnnt.yaml'
cfg = OmegaConf.load(cfg_path)

# Pass the paths of all the audio files for inferencing
audios = ['/path/to/your/audio.wav']

# Create the pipeline object and run inference
pipeline = PipelineBuilder.build_pipeline(cfg)
output = pipeline.run(audios)

# Print the output
for entry in output:
  print(entry['text'])