微信扫码
添加专属顾问
我要投稿
复旦大学最新研发的实时语音交互模型,具备情感控制和低延迟响应,引领AI语音交互新趋势。 核心内容: 1. SpeechGPT 2.0模型的拟人化表达和百毫秒级低延迟响应 2. 模型支持多情感控制、实时打断交互和文本能力集成 3. 超低比特率流式语音Codec和语义-声学联合建模的技术原理
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的一款拟人化实时交互系统。该模型基于百万小时级的中文语音数据进行训练,采用端到端架构,实现了语音与文本模态的高度融合。它具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。此外,SpeechGPT 2.0 能够精准控制语速、情感、风格和音色,实现智能切换,并具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
# 需要安装 git-lfs
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-30
开源可信MCP,AICC机密计算新升级!
2025-10-30
OpenAI 开源了推理安全模型-gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b
2025-10-29
刚刚,OpenAI 再次开源!安全分类模型 gpt-oss-safeguard 准确率超越 GPT-5
2025-10-29
AI本地知识库+智能体系列:手把手教你本地部署 n8n,一键实现自动采集+智能处理!
2025-10-29
n8n如何调用最近爆火的deepseek OCR?
2025-10-29
OpenAI终于快要上市了,也直面了这23个灵魂拷问。
2025-10-29
保姆级教程:我用Coze干掉了最烦的周报
2025-10-29
维基百科,终结了!马斯克开源版上线,用AI重写「真相」
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-08-06
2025-10-20
2025-08-22
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07