微信扫码
添加专属顾问
我要投稿
Qwen-Audio 是阿里云研发的大规模音频语言模型(Large Audio Language Model)。Qwen-Audio 可以以多种音频 (包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。Qwen-Audio 系列模型的特点包括:
音频基石模型:Qwen-Audio是一个性能卓越的通用的音频理解模型,支持各种任务、语言和音频类型。在Qwen-Audio的基础上,我们通过指令微调开发了Qwen-Audio-Chat,支持多轮、多语言、多语言对话。Qwen-Audio和Qwen-Audio-Chat模型均已开源。
兼容多种复杂音频的多任务学习框架:为了避免由于数据收集来源不同以及任务类型不同,带来的音频到文本的一对多的干扰问题,我们提出了一种多任务训练框架,实现相似任务的知识共享,并尽可能减少不同任务之间的干扰。通过提出的框架,Qwen-Audio可以容纳训练超过30多种不同的音频任务;
出色的性能:Qwen-Audio在不需要任何任务特定的微调的情况下,在各种基准任务上取得了领先的结果。具体得,Qwen-Audio在Aishell1、cochlscene、ClothoAQA和VocalSound的测试集上都达到了SOTA;
支持多轮音频和文本对话,支持各种语音场景:Qwen-Audio-Chat支持声音理解和推理、音乐欣赏、多音频分析、多轮音频-文本交错对话以及外部语音工具的使用。
基于Qwen-Audio,进一步开发了Qwen-Audio-Chat模型。这款模型支持多轮、多语言、多音频场景的对话,展示了其强大的通用音频理解和交互能力。Qwen-Audio-Chat与人类的意图一致,支持音频和文本输入的多语言、多轮对话,展现了全面且强大的音频理解。
Qwen-Audio和Qwen-Audio-Chat模型均已经开源,使得更多的人能够使用和参与其改进。开源的特性不仅推动了模型本身的发展,也为整个音频语言模型领域的研究和应用提供了重要的资源和参考。
总的来说,Qwen-Audio是一款功能强大、性能卓越的音频理解模型,其广泛的应用场景和开源的特性使得它在人工智能领域具有重要的价值和影响力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-04
ollama v0.20.0 更新:Gemma 4 全家桶发布,音频、视觉、MoE、BPE 支持全面升级
2026-04-04
Cursor 3来了:内置Codex,前端福音Design Mode,WorkTree多开
2026-04-03
淘宝跨端体验优化 AI 演进之路
2026-04-03
Qoder 工程实践:Harness Engineering 指南
2026-04-02
GLM-5.1 实测:面向 Agent 长程任务的国内第一模型
2026-04-02
AI代码的“屎山危机”才刚刚开始
2026-04-02
千问发布新一代大语言模型Qwen3.6-Plus
2026-04-02
疑似GPT-6曝光! OpenAI 联合创始人亲口爆料 Spud 新一代AI模型,并且拥有“大模型气味”!网友评论:它是第一个真正会“思考”的型号!
2026-01-24
2026-01-10
2026-01-26
2026-01-09
2026-01-09
2026-01-23
2026-01-14
2026-03-13
2026-01-07
2026-01-21