支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


小红书开源的中文语音转文字FireRedASR:一键整合包带webui、API

发布日期:2025-04-15 14:31:19 浏览次数: 1647 作者:pyVideoTrans
推荐语

小红书开源的中文语音转文字神器,一键整合包带Web UI和API,方便易用。

核心内容:
1. FireRedASR项目介绍及优势对比
2. Web UI界面和Windows预打包版使用指南
3. 源码安装步骤和API调用方法

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

FireRedASR 是小红书开源的一个高度精确的中文语音转文字项目,在多个对比维度上都优于 whisper/funasr等。

为此创建了一个带有 webui界面,并兼容 OpenAI SDK格式的封装,同时提供了一个win下的整合包,以方便使用。

开源地址: https://github.com/jianchang512/fireredasr-ui

  WebUI 界面

启动后默认地址: http://127.0.0.1:5078


  Windows预打包版

win10/11 提供了预打包版。

123网盘下载地址: https://www.123684.com/s/03Sxjv-xzTJ3

解压后双击 启动.bat 即可

  源码安装 Linux/MacOS

确保已安装 python3.10 、ffmpeg

进入某个目录下,打开终端

  1. 拉取源码,执行命令 git clone https://github.com/jianchang512/fireredasr-ui.git
  2. 进入源码目录 cd FireRedASR
  3. 创建虚拟环境:python3 -m venv venv
  4. 激活该环境:. venv/bin/activate
  5. 安装依赖:pip3 install -r requirements.txt
  6. 点击从 huggingface 下载模型,将页面中的几个文件下载后放入 /pretrained_models/FireRedASR-AED-L文件夹内

  API 调用

默认地址: http://127.0.0.1:5078/v1

OpenAI SDK中使用

from openai import OpenAI
client = OpenAI(api_key='123456',
    base_url='http://127.0.0.1:5078/v1')

audio_file = open("5.wav", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1",
  file=audio_file,
  response_format="json",
  timeout=86400
)

print(transcript.text)


  在 pyVideoTrans 中使用

如下图在 OpenAI语音识别及兼容API中填写,然后在语音识别渠道中选择OpenAI语音识别

ui.png

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询