微信扫码
添加专属顾问
我要投稿
复旦大学最新研发的实时语音交互模型,具备情感控制和低延迟响应,引领AI语音交互新趋势。 核心内容: 1. SpeechGPT 2.0模型的拟人化表达和百毫秒级低延迟响应 2. 模型支持多情感控制、实时打断交互和文本能力集成 3. 超低比特率流式语音Codec和语义-声学联合建模的技术原理
SpeechGPT 2.0 是复旦大学 OpenMOSS 团队推出的一款拟人化实时交互系统。该模型基于百万小时级的中文语音数据进行训练,采用端到端架构,实现了语音与文本模态的高度融合。它具有拟人口语化表达、百毫秒级低延迟响应,支持自然流畅的实时打断交互。此外,SpeechGPT 2.0 能够精准控制语速、情感、风格和音色,实现智能切换,并具备多种语音才艺,如诗歌朗诵、故事讲述、说方言等。
git clone https://github.com/OpenMOSS/SpeechGPT-2.0-preview.git
cd SpeechGPT-2.0-preview
# 需要安装 git-lfs
git lfs install
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-Codec
git clone https://huggingface.co/fnlp/SpeechGPT-2.0-preview-7B
pip3 install -r requirements.txt
pip3 install flash-attn==2.7.3 --no-build-isolation
python3 demo_gradio.py --codec_ckpt_path SpeechGPT-2.0-preview-Codec/sg2_codec_ckpt.pkl --model_path SpeechGPT-2.0-preview-7B/
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-22
GLM-5 技术报告全解读|a16z:“最好的开源模型”
2026-02-22
AI创业半年复盘:开源我踩过的坑。
2026-02-22
OpenClaw源码解读系列:自动回复管线
2026-02-22
OpenClaw源码解读系列:插件系统
2026-02-22
如何在Mac mini M4上为OpenClaw接入iMessage
2026-02-20
拆解 OpenViking:把 Agent 上下文从"向量碎片"变成"可操作文件系统"
2026-02-20
产业之声 | 从OpenClaw爆火,看代码数据的价值与软件行业的重构
2026-02-20
OpenClaw 2026.2.19发布:为Apple Watch打造,40余项安全加固
2026-01-27
2026-02-06
2026-01-29
2026-01-30
2026-01-12
2025-12-22
2026-01-28
2026-01-27
2025-12-10
2025-12-23
2026-02-11
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16